Kimi Beta内测模型实测,提升明显!

刚测完 Kimi K2.5,就拿到 Beta 版内测模型了。 一点喘息的机会都不给啊~~

那就赶紧测试起来吧,不铺垫了!

Kimi K2.5 给我的感觉主要是快,效率高,思考深度一般。

关于 Beta 的特性,目前查不到任何资料。即便切换了,也没有任何显示上的区别。

所以只能拿例子来测了!

目前测试了两个例子,发现变化还是比较明显的。

目测 Kimi 正在解决它的短板,提升思考深度和智能体能力。

因为据说这个模型在 Kimi 自己的终端智能体才能发挥全力,所以这次我测试的工具是 Kimi。

下面看一下具体的两个测试例子和测试结果。

多模态测试

这个主题我们已经测了好几天,好几个模型了,所以可以有很好的对比。尤其是刚刚测了kimi K2.5!

这个测试的主题是:克隆 Claude 官网

主要是给了 6 个关注点不同的截图,然后让模型最大程度地还原这个网页,比较考验多模态识别的能力。

提示词是:

参考 docs 下的所有图片制作网页,要求完美还原设计稿。
包括配色,图标,布局,字体,功能菜单等方面。

并且要使用 Anthropic 协议实现基础的聊天对话功能,
其他功能只需要完成 UI 展示和互动即可,无需实现具体功能!

调用的接口信息如下:

"baseURL": "https://open.bigmodel.cn/api/anthropic"
"apiKey": "xxxx"
"models": [
    "glm-5.1",
    "glm-5-turbo",
    "glm-5",
    "glm-4.7",
    "glm-4.5-air"
  ],
"selectedModel": "glm-5.1",

然后我们一起来看下结果。

Kimi Beta 的效果:

Kimi K2.5 的效果:

一对比就非常明显了。

Beta 效果要好很多。除了 logo 图标之外,其他样式都比较到位,没有明显的问题。

想比K2.5而言:

  • 左边不应该出现的滚动条没了。
  • 左下角的头像和下载图标已经优化得很好了。
  • 中间的 Good afternoon 字体和大小比例更加接近原版。
  • 右下角的语音输入不再是话筒形状了,而是完美复刻原版。

模型选择:

这部分的细节也非常到位了,模型勾选、扩展思考、发送图标的动态变化都做的可以。唯一问题是这个发送图标本来是方的,它做成了圆的。

Kimi Beta 对话界面:

Kimi K2.5 对话界面:

这个界面提升也很大。

K2.5 存在几个明显的问题:

左下角没有对话名称,

右上角没有分享按钮,

对话界面的模型选择打不开。

这些问题 Beta 都解决了。

从对比来看,Beta 在字体还原、布局还原、细节还原方面都有很大的提升。

之所以有这么大的提升,主要还是思考策略和深度不一样了。这一点从它生成代码的目录结构和生成过程就能看出来。

同样的需求,K2.5 几乎不怎么思考,只做了一个 html 文件。Beta 模型想了很久,做了 Plan,然后创建了一个完整的 React 项目。

你看它这个执行过程:

它分析完成之后说这是个大工程,涉及多个文件,应该进入计划模式。

然后创建了一个有 9 个步骤的计划:

执行完成之后构建确认,还回顾所有文件夹结构,确保没有遗留,并且运行了服务器。

这个执行过程和思路已经非常全面了,我甚至觉得有点过分思考了,因为这个项目其实并不是特别复杂的项目。

Kimi Beta 好像是从一个性子很急的小伙子变成了一个相对稳重的年轻人。

知道做事前会想清楚,做的国产按步骤来,做完后要检查一下。

这个特性非常适合做一些复杂的业务。

那我们的 JarvisBench 就派上用场了。

复杂业务测试

我先简单介绍一下 JarvisBench。

老粉应该很熟悉了,我已经用这个项目把国内外的模型都测了个遍,好多国产模型,及格分都到不了。

为了照顾新人,我还是简单介绍一下我这个测试项目。

年初,我买了国内 6 大平台的 CodingPlan,为了测试出不同平台的真实水平和差异。我就自己开发了一个 CodingPlan 的测试平台。在开发过程中遇到了一些问题。我就把这个问题独立出来当做测试环节了。

这个测试项目,有几个特点:

  1. 有一定的上下文基础,大概有 8,000 行
  2. 涉及到数据结构的修改和老数据升级
  3. 涉及到业务逻辑的修改。
  4. 涉及到多个功能页面的修改

我提出的需求也相对开放,不是非常严格的技术文档:

目前群聊接力的时候可以选择平台管理中的模型,也可以对这些模型预先配置系统提示词和角色提示词,这样已经可以通过系统提示词来个性化聊天了。但是通过平台配置里面绑定角色比较有局限性——这样一个平台就只能是一个角色。

我希望换另外一种设置:**角色里面选模型**,然后群聊开始的时候,我可以直接选平台,也可以直接选角色。角色的管理还是在系统设置的"角色管理"中进行。

为了实现上面的需求,角色功能需要升级:

- 除了可以设置提示词之外,还得能**选择平台和模型**
- 另外还能**设置头像**
- 如果设置了头像,群聊的时候就显示自定义头像;如果没有设置头像,就用对应模型平台的 logo 作为头像

我的需求大概是这样。说说你对这个需求的理解,不急着写代码

下面是它的分析结果:

很明显,它在理解需求的时候已经阅读了代码,并且给了非常清晰的思路。这个思路比很多模型都要清晰。

同时也提出了几个需要确认的点:

因为上面很多业务它已经理清楚了,所以这里问的问题不多。

但是问到了一个很关键的问题,就是平台配置里的角色和系统提示词要不要保留。

这个是隐藏考点,它直接就发现了,而且询问我。

这对它来说就非常有优势了。因为问我了,最终返工的可能性就很小。

这次的开发过程日志是非常多的,我就不全部呈现了。

我们直接看结果。

先来看角色管理功能:

这一部分几乎没有任何问题。平台、模型、头像上传全部加上了。

添加角色,编辑角色,删除角色全部正常。

另外角色列表里也附带了平台和模型,这一点细节是非常好的。

群聊创建:

这部分都做到了,没啥问题,唯一的问题就是平台和角色互斥这一点没做到。因为它分析需求的时候没想到,我也故意不提。更聪明的模型会想到并询问我,然后就不会做错了。

群聊对话:

对话逻辑没有任何问题。但是由于平台和角色没有做互斥,导致聊天界面既有平台,又有角色,非常混乱。

另外一个小细节是,它没有设置角色的默认头像。我在需求中提到了,如果角色头像没有设置,可以用平台 Logo 作为默认头像。

说实话,这个完成度已经很高了,相比Kimi K2.5也是非常大的提升。

具体可以参考这篇《MiniMax 和 Kimi 都是人才,“吊打” Opus 4.6》

Kimi K2.5 当时有一个大 Bug

添加角色的时候选择了平台,添加完成之后,平台和模型信息根本没做持久化。

另外,角色编辑功能点了没有任何反应。

导致后面的功能全部无法跑通!

目前整个逻辑是能跑通的,只是有一两个小细节没有做好。这个成绩已经跑赢大部分国产模型了,比 MiniMax 肯定是好很多了。

从这个例子看,和 GLM5 已经不相上下。

当然,所有大模型都存在抽卡概率,这个我们是没法杜绝的!

我天天夸 Opus 4.6,有些人觉得我针对国产模型。

其实并不是,我只针对虚假宣传!我只依据事实!

只要国产模型表现好,我就会夸!

我的逻辑很简单:

测试结果,决定我的标题和态度。

当然,如果看到有人“吹牛逼”,我就会把它“吹爆”!

 

小尾巴==========================
公众号:托尼不是塔克
交流群
知识星球
==============================

 



发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注