2026年2月5日

Kimi成小甜甜，GLM变牛夫人，Claude又要被超越？！

By tony 默认分类评论 0

我第一次听过，要超过 Claude 的模型是 GLM-4.7。

最近 Kimi k2.5 发布之后，又有人说 Kimi 比 Claude 好用了。

我本不以为然，但是有两个数据让我想认真对待这个模型了。

一个是 OpenClaw 的数据：

数据显示，在龙虾中用的最多的是 Kimi k2.5。

另一个是 OpenRouter 推特：

他也说了 Kimi k2.5 是 OpenClaw 上最流行的模型。

这让我的好奇心爆表，我很想看一下，这个火爆的模型强在哪里？

我的经验是：不管别人怎么说，只有自己试过才知道。

昨天抽空测了一遍，过程还挺起伏的。

一上来就被我骂傻逼……拍桌子了……但是测到最后却发现还不错！

下面分享一下我的体验过程。

你不是在逗我吧？！

当我想要测试一下 Kimi k2.5 的时候，我首先是去找他有没有 coding plan，找了一圈发现官网只有 API 充值调用。我就不太想充！然后想起来，我有一个火山的 coding plan。里面刚好包含了最新的 Kimi k2.5，所以我就把模型切换成了 Kimi k2.5。

然后把它接入 Claude Code 开始测试了。

第一轮测试我就被气死了。

我的需求是，帮我在桌面创建一个文件夹。简单测试一下它的命令调用能力。

没想到，它不但没有创建成功，还完全胡说八道，还给我秀表情包！！！

我考虑到它可能是偶尔马失前蹄，所以给了它第二次机会。

但是……依旧失败，看来是稳定发挥了。

你们看看黄色框中的命令，就知道它错的有多么离谱了。

我 Windows 下哪里来的 /nmt 路径啊，上来就用 WSL 命令？是要秀一把就你会 Ubuntu 是么？关键是最后事情也没办成啊。

为了排除 Claude Code 的问题，我把火山的后端模型换成 GLM-4.7，其他不变。

GLM-4.7 一把搞定。

到这里，我基本已经开始骂娘了，你们这些人吹什么牛逼一个比一个强。连基本的文件创建都做不到？？？

但是，我觉得这个事情有点违背常识。2026 年，不可能有模型会这么弱。

所以，谨慎起见。我还是拿免费的 Trae 上的 Kimi k2.5 测试了一下。

结果是——完全没问题。

这就让我有点看不准了。

因为 Trae 上能成功啊，但是也有可能是 Trae 的功劳。

为了验明正身，我又去官网找了找，终于发现 Kimi Code 了。

原来他们的编程套餐在这里，而且发现他们家也搞了一个编程智能体 Kimi Code CLI。

前面都是在第三方平台的接口下测试，肯定有点偏差，所以我直接开了一个 Kimi Code 套餐。

然后安装了他们的 CLI。

这 CLI，看起来还有点小清新的感觉！

好像不是你的锅！

原汁原味的官方工具装好了，立马测试一下：

这次就非常正常。

而且可以看到他调用了 Shell 工具，调用了正确的 mkdir 指令，在正确的路径创建了文件夹。

这才是正常的表现。

那么刚开始发生了什么？我只能想到是不是字节的火山平台“偷工减料”了。

允许我吐槽一会儿。

火山的这个套餐我是开了三个月，但是它那个速度和编码质量实在是不敢恭维。从我对比 GLM-4.7 官方套餐的结果来看，应该是要比官方的慢一倍，效果也差一些。

另外火山有一点让人很无语，切换模型居然要去后台切换？？？而且不开启 thinking，也不说怎么开启……找了半天找不到资料。

这就让人很难评了！

小伙子还不错啊！

拿到新的 CLI 还有点小兴奋，赶紧来试一把，提个简单需求看看。

需求还是那个需求，之前用这个指令测试过很多模型：

用 React 开发个人博客，要求功能完善，设计美观，专业级 UI 和 UX。

别看这句话很简单，也没有很细的需求，但是好多模型都得折腾一会儿，而且错漏百出。

我之前测过，Claude Code 正常完成这个需求，大概要十几分钟。

GLM 大概 20 分钟左右，火山上的模型基本要到 40 多分钟，可能最后启动不了。

Kimi Code 大概是用了 10 分钟多一点点：

这速度是非常不错了，而且过程非常干净，很少出现红色错误。完成这个任务大概消耗了 8% 的区间配额。

最终的结果也还可以：

功能模块基本是完整的，布局上没有明显的 Bug，动效还可以。不说多优秀，但是基本上改改就能用了。

接入 Claude Code 试试看：

根据它们提供的 API，我通过 cc-switch 把 Kimi 接入了 Claude Code。

这个配置也很简单，找到 Kimi for Coding 然后填写一下 API key 就可以了。

然后启用配置：

然后就可以打开 Claude Code 了，给同样的需求，让它来实现。

Claude Code 自然是轻松搞定了：

Claude Code 的工程能力不用质疑，而且最终反馈都非常清晰，每次都感叹它的总结写的真好。所以我都是在 CLAUDE.md 中指定，让它把反馈写到对话记录里的，方便以后查看。

最终的网页效果也不错。

这个张小明是哪位大佬啊？每次都是他！

换到 Claude Code，13 分钟左右，也算快的。中间遇到了错误，但是自己解决了。配额消耗大概在 21% 左右。这个配额好像消耗的有点多，可能自家工具优化会好一些，也可能是项目代码不一样，属于随机抖动。

测量两把，消耗如下：

我是最低档的 Andante 会员，49 元一个月那档。使用的模型就是它们的最新发布的旗舰模型 K2.5。

从简单的测试来看，体感还不错。

然后看了下大模型竞技场上 Code Arena 的评分：

这个评分可能比较接近真实情况。

目前的排名是 Kimi k2.5 第 5 名，GLM-4.7 第 7 名，MiniMax 第 8 名。

从实力的角度来说，Claude Code Opus 4.5，GPT-5.2-high，Gemini 3 Pro 还是排在国产前面，说 Kimi k2.5 比 Claude Opus 强，这个肯定是不客观的。

但是国产模型的编程套餐价格普遍在 50 元以内，相比 20 美金，非常有优势。

目前大概就是这个情况，随着国产模型的能力提升，性价比在上升，但是绝对实力还是差点意思。

以后有空再深度对比下 GLM-4.7 和 Kimi k2.5。

也可以把 Kimi k2.5 配置到 OpenClaw 里面玩玩。编程套餐不用担心 token 超了啊。超了就自然限流了，不用额外收费。

AI 编程领域，国外模型已经完全能用了，国内模型也基本能用了，接下来就看开源模型，能不能直接用了。

2026 肯定特别精彩。

小尾巴==========================
公众号：托尼不是塔克
 交流群
 知识星球
==============================

关于作者

tony

某人

你不是在逗我吧？！

好像不是你的锅！

小伙子还不错啊！

相关文章

关于作者

tony

发表评论