2026年4月11日

Kimi Beta内测模型实测,提升明显！

By tony 默认分类评论 0

刚测完 Kimi K2.5，就拿到 Beta 版内测模型了。一点喘息的机会都不给啊~~

那就赶紧测试起来吧，不铺垫了！

Kimi K2.5 给我的感觉主要是快，效率高，思考深度一般。

关于 Beta 的特性，目前查不到任何资料。即便切换了，也没有任何显示上的区别。

所以只能拿例子来测了！

目前测试了两个例子，发现变化还是比较明显的。

目测 Kimi 正在解决它的短板，提升思考深度和智能体能力。

因为据说这个模型在 Kimi 自己的终端智能体才能发挥全力，所以这次我测试的工具是 Kimi。

下面看一下具体的两个测试例子和测试结果。

多模态测试

这个主题我们已经测了好几天，好几个模型了，所以可以有很好的对比。尤其是刚刚测了kimi K2.5！

这个测试的主题是：克隆 Claude 官网。

主要是给了 6 个关注点不同的截图，然后让模型最大程度地还原这个网页，比较考验多模态识别的能力。

提示词是：

参考 docs 下的所有图片制作网页，要求完美还原设计稿。
包括配色，图标，布局，字体，功能菜单等方面。

并且要使用 Anthropic 协议实现基础的聊天对话功能，
其他功能只需要完成 UI 展示和互动即可，无需实现具体功能！

调用的接口信息如下：

"baseURL": "https://open.bigmodel.cn/api/anthropic"
"apiKey": "xxxx"
"models": [
      "glm-5.1",
      "glm-5-turbo",
      "glm-5",
      "glm-4.7",
      "glm-4.5-air"
    ],
"selectedModel": "glm-5.1",

然后我们一起来看下结果。

Kimi Beta 的效果：

Kimi K2.5 的效果：

一对比就非常明显了。

Beta 效果要好很多。除了 logo 图标之外，其他样式都比较到位，没有明显的问题。

想比K2.5而言：

左边不应该出现的滚动条没了。
左下角的头像和下载图标已经优化得很好了。
中间的 Good afternoon 字体和大小比例更加接近原版。
右下角的语音输入不再是话筒形状了，而是完美复刻原版。

模型选择：

这部分的细节也非常到位了，模型勾选、扩展思考、发送图标的动态变化都做的可以。唯一问题是这个发送图标本来是方的，它做成了圆的。

Kimi Beta 对话界面：

Kimi K2.5 对话界面：

这个界面提升也很大。

K2.5 存在几个明显的问题：

左下角没有对话名称，

右上角没有分享按钮，

对话界面的模型选择打不开。

这些问题 Beta 都解决了。

从对比来看，Beta 在字体还原、布局还原、细节还原方面都有很大的提升。

之所以有这么大的提升，主要还是思考策略和深度不一样了。这一点从它生成代码的目录结构和生成过程就能看出来。

同样的需求，K2.5 几乎不怎么思考，只做了一个 html 文件。Beta 模型想了很久，做了 Plan，然后创建了一个完整的 React 项目。

你看它这个执行过程：

它分析完成之后说这是个大工程，涉及多个文件，应该进入计划模式。

然后创建了一个有 9 个步骤的计划：

执行完成之后构建确认，还回顾所有文件夹结构，确保没有遗留，并且运行了服务器。

这个执行过程和思路已经非常全面了，我甚至觉得有点过分思考了，因为这个项目其实并不是特别复杂的项目。

Kimi Beta 好像是从一个性子很急的小伙子变成了一个相对稳重的年轻人。

知道做事前会想清楚，做的国产按步骤来，做完后要检查一下。

这个特性非常适合做一些复杂的业务。

那我们的 JarvisBench 就派上用场了。

复杂业务测试

我先简单介绍一下 JarvisBench。

老粉应该很熟悉了，我已经用这个项目把国内外的模型都测了个遍，好多国产模型，及格分都到不了。

为了照顾新人，我还是简单介绍一下我这个测试项目。

年初，我买了国内 6 大平台的 CodingPlan，为了测试出不同平台的真实水平和差异。我就自己开发了一个 CodingPlan 的测试平台。在开发过程中遇到了一些问题。我就把这个问题独立出来当做测试环节了。

这个测试项目，有几个特点：

有一定的上下文基础，大概有 8,000 行
涉及到数据结构的修改和老数据升级
涉及到业务逻辑的修改。
涉及到多个功能页面的修改

我提出的需求也相对开放，不是非常严格的技术文档：

目前群聊接力的时候可以选择平台管理中的模型，也可以对这些模型预先配置系统提示词和角色提示词，这样已经可以通过系统提示词来个性化聊天了。但是通过平台配置里面绑定角色比较有局限性——这样一个平台就只能是一个角色。

我希望换另外一种设置：**角色里面选模型**，然后群聊开始的时候，我可以直接选平台，也可以直接选角色。角色的管理还是在系统设置的"角色管理"中进行。

为了实现上面的需求，角色功能需要升级：

- 除了可以设置提示词之外，还得能**选择平台和模型**
- 另外还能**设置头像**
- 如果设置了头像，群聊的时候就显示自定义头像；如果没有设置头像，就用对应模型平台的 logo 作为头像

我的需求大概是这样。说说你对这个需求的理解，不急着写代码

下面是它的分析结果：