Kimi成小甜甜,GLM变牛夫人,Claude又要被超越?!

我第一次听过,要超过 Claude 的模型是 GLM-4.7。

最近 Kimi k2.5 发布之后,又有人说 Kimi 比 Claude 好用了。

我本不以为然,但是有两个数据让我想认真对待这个模型了。

一个是 OpenClaw 的数据:

数据显示,在龙虾中用的最多的是 Kimi k2.5。

另一个是 OpenRouter 推特:

他也说了 Kimi k2.5 是 OpenClaw 上最流行的模型。

这让我的好奇心爆表,我很想看一下,这个火爆的模型强在哪里?

我的经验是:不管别人怎么说,只有自己试过才知道。

昨天抽空测了一遍,过程还挺起伏的。

一上来就被我骂傻逼……拍桌子了……但是测到最后却发现还不错!

下面分享一下我的体验过程。

你不是在逗我吧?!

当我想要测试一下 Kimi k2.5 的时候,我首先是去找他有没有 coding plan,找了一圈发现官网只有 API 充值调用。我就不太想充!然后想起来,我有一个火山的 coding plan。里面刚好包含了最新的 Kimi k2.5,所以我就把模型切换成了 Kimi k2.5。

然后把它接入 Claude Code 开始测试了。

第一轮测试我就被气死了。

我的需求是,帮我在桌面创建一个文件夹。简单测试一下它的命令调用能力。

没想到,它不但没有创建成功,还完全胡说八道,还给我秀表情包!!!

我考虑到它可能是偶尔马失前蹄,所以给了它第二次机会。

但是……依旧失败,看来是稳定发挥了。

你们看看黄色框中的命令,就知道它错的有多么离谱了。

我 Windows 下哪里来的 /nmt 路径啊,上来就用 WSL 命令?是要秀一把就你会 Ubuntu 是么?关键是最后事情也没办成啊。

为了排除 Claude Code 的问题,我把火山的后端模型换成 GLM-4.7,其他不变。

GLM-4.7 一把搞定。

到这里,我基本已经开始骂娘了,你们这些人吹什么牛逼一个比一个强。连基本的文件创建都做不到???

但是,我觉得这个事情有点违背常识。2026 年,不可能有模型会这么弱。

所以,谨慎起见。我还是拿免费的 Trae 上的 Kimi k2.5 测试了一下。

结果是——完全没问题。

这就让我有点看不准了。

因为 Trae 上能成功啊,但是也有可能是 Trae 的功劳。

为了验明正身,我又去官网找了找,终于发现 Kimi Code 了。

原来他们的编程套餐在这里,而且发现他们家也搞了一个编程智能体 Kimi Code CLI。

前面都是在第三方平台的接口下测试,肯定有点偏差,所以我直接开了一个 Kimi Code 套餐。

然后安装了他们的 CLI。

这 CLI,看起来还有点小清新的感觉!

好像不是你的锅!

原汁原味的官方工具装好了,立马测试一下:

这次就非常正常。

而且可以看到他调用了 Shell 工具,调用了正确的 mkdir 指令,在正确的路径创建了文件夹。

这才是正常的表现。

那么刚开始发生了什么?我只能想到是不是字节的火山平台“偷工减料”了。

允许我吐槽一会儿。

火山的这个套餐我是开了三个月,但是它那个速度和编码质量实在是不敢恭维。从我对比 GLM-4.7 官方套餐的结果来看,应该是要比官方的慢一倍,效果也差一些。

另外火山有一点让人很无语,切换模型居然要去后台切换???而且不开启 thinking,也不说怎么开启……找了半天找不到资料。

这就让人很难评了!

小伙子还不错啊!

拿到新的 CLI 还有点小兴奋,赶紧来试一把,提个简单需求看看。

需求还是那个需求,之前用这个指令测试过很多模型:

用 React 开发个人博客,要求功能完善,设计美观,专业级 UI 和 UX。

别看这句话很简单,也没有很细的需求,但是好多模型都得折腾一会儿,而且错漏百出。

我之前测过,Claude Code 正常完成这个需求,大概要十几分钟。

GLM 大概 20 分钟左右,火山上的模型基本要到 40 多分钟,可能最后启动不了。

Kimi Code 大概是用了 10 分钟多一点点:

这速度是非常不错了,而且过程非常干净,很少出现红色错误。完成这个任务大概消耗了 8% 的区间配额。

最终的结果也还可以:

功能模块基本是完整的,布局上没有明显的 Bug,动效还可以。不说多优秀,但是基本上改改就能用了。

接入 Claude Code 试试看:

根据它们提供的 API,我通过 cc-switch 把 Kimi 接入了 Claude Code。

这个配置也很简单,找到 Kimi for Coding 然后填写一下 API key 就可以了。

然后启用配置:

然后就可以打开 Claude Code 了,给同样的需求,让它来实现。

Claude Code 自然是轻松搞定了:

Claude Code 的工程能力不用质疑,而且最终反馈都非常清晰,每次都感叹它的总结写的真好。所以我都是在 CLAUDE.md 中指定,让它把反馈写到对话记录里的,方便以后查看。

最终的网页效果也不错。

这个张小明是哪位大佬啊?每次都是他!

换到 Claude Code,13 分钟左右,也算快的。中间遇到了错误,但是自己解决了。配额消耗大概在 21% 左右。这个配额好像消耗的有点多,可能自家工具优化会好一些,也可能是项目代码不一样,属于随机抖动。

测量两把,消耗如下:

我是最低档的 Andante 会员,49 元一个月那档。使用的模型就是它们的最新发布的旗舰模型 K2.5。

从简单的测试来看,体感还不错。

然后看了下大模型竞技场上 Code Arena 的评分:

这个评分可能比较接近真实情况。

目前的排名是 Kimi k2.5 第 5 名,GLM-4.7 第 7 名,MiniMax 第 8 名。

从实力的角度来说,Claude Code Opus 4.5,GPT-5.2-high,Gemini 3 Pro 还是排在国产前面,说 Kimi k2.5 比 Claude Opus 强,这个肯定是不客观的。

但是国产模型的编程套餐价格普遍在 50 元以内,相比 20 美金,非常有优势。

目前大概就是这个情况,随着国产模型的能力提升,性价比在上升,但是绝对实力还是差点意思。

以后有空再深度对比下 GLM-4.7 和 Kimi k2.5。

也可以把 Kimi k2.5 配置到 OpenClaw 里面玩玩。编程套餐不用担心 token 超了啊。超了就自然限流了,不用额外收费。

AI 编程领域,国外模型已经完全能用了,国内模型也基本能用了,接下来就看开源模型,能不能直接用了。

2026 肯定特别精彩。

 

小尾巴==========================
公众号:托尼不是塔克
交流群
知识星球
==============================

 



发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注