2026年3月29日

来看看GLM5.1到底升级了什么！

By tony 默认分类评论 0

GLM-5.1 我是真有点看不透！

周五晚上发了一个更新公告，什么细节都没说，就几个字。

没有基准数据，没有升级特性介绍，连个图片都没有。

是不是赶着放假随便一发😄，然后让我周末加班测试？

本来我真的不想测了，但是它什么都不说，我反而好奇。

是因为没啥亮点所以不说，还是实力超群，不需要说？

过了一个小时，我刷 X，终于刷到了一点东西：

配图是一个编程能力评测（Coding Evaluation）的对比图，测评框架用的是 Claude Code as the harness（即以 Claude Code 作为评测工具）。

评测结果：

模型	得分
Claude Opus 4.6	47.9
GLM-5.1	45.3
GLM-5	35.4

关键解读：

GLM-5.1 相比上一代 GLM-5 提升巨大（+9.9 分，提升约 28%）
GLM-5.1 以 45.3 分非常接近 Claude Opus 4.6 的 47.9 分，差距缩小到约 5%
智谱用这张图的潜台词是：GLM-5.1 编码能力已经逼近顶级闭源模型

我的助手说：

值得注意的是，这个 benchmark 是智谱自己发布的，且用的是 Claude Code 框架评测，有一定的宣传性质，实际体验还需结合你在 JCode 里的实测数据来判断。

它这记忆能力好强，居然时刻记得我开发了一个叫 JCode 的项目。

既然我小助手建议我要实际体验一下才可以，那么我就真的得测一测了。

先用我们的 CodingPlanTest 平台做一个简单的智力测试。

题目是：

有 5 个人排成一排，每人帽子颜色为红或蓝。他们可以看到前面的人的帽子，但看不到自己的。主持人宣布：“至少有一顶红帽子。”从最后一人开始，每人依次说
“是”或“否”（表示是否知道自己帽子的颜色）。如果第 5 人说“否”，第 4 人说“是”，求所有可能的帽子颜色分布。

结果如下：

GLM-5.1 第一次居然是错误的，后面测试里两次是正常的。

GLM-Turbo 错了两次，对了一次。

GLM-5 基本上不出错，遇到一次网络错误。

这个测试的结果还是有很大的随机性，总体感觉是 GLM-5.1 和 GLM-5 出错概率较低，Turbo 答错概率稍微高一些。Turbo 应该是在工程化和流程化上做了增强，而削弱了思考强度。

这个问题分不出 GLM-5.1 和 GLM-5的差别。

既然如此，我们就上 JarvisBench 了。

我们的测试工具就是它图中提到的Harness– Claude Code。

简单说一下这个测试。

这个测试基于一个正在开发中的项目，有 8000 行的上下文，需要修改数据结构、业务逻辑、多个页面。

我提出的需求是：

目前群聊接力的时候可以选择平台管理中的模型，也可以对这些模型预先配置系统提示词和角色提示词，这样已经可以通过系统提示词来个性化聊天了。但是通过平台配置里面绑定角色比较有局限性——这样一个平台就只能是一个角色。

我希望换另外一种设置：**角色里面选模型**，然后群聊开始的时候，我可以直接选平台，也可以直接选角色。角色的管理还是在系统设置的"角色管理"中进行。

为了实现上面的需求，角色功能需要升级：

- 除了可以设置提示词之外，还得能**选择平台和模型**
- 另外还能**设置头像**
- 如果设置了头像，群聊的时候就显示自定义头像；如果没有设置头像，就用对应模型平台的 logo 作为头像

我的需求大概是这样。说说你对这个需求的理解，不急着写代码

它的理解是：