2026年4月4日

GLM-5V-Turbo 首测翻车了？！

By tony 默认分类评论 0

很开心，GLM-5V-Turbo 到手了。

智谱的效率还是挺高的，其实昨天已经发我了，我没发现。

看到这个邮件，就像是拿到了一个新玩具！

马上就想拆开玩一玩。

但是……如果玩具不够硬核，很容易被我玩坏。

我是出了名的只给里子不给面子。

我今天随手一测，略微一出手，好像就翻车了。

具体是个什么情况呢，往下看。

其实，今天这个测试一点都不复杂，结果是让我有点“意外”的。

1、配置模型

以防有人还不会配置，我先说一下如何配置新模型。

官方在通知邮件中非常贴心的提供了配置方法：

只要修改你用户名下的 .claude 目录下的 settings.json 文件就可以了。

我嘛，当然是用自己手搓的 JCode 了：

只要在图标上停留 3 秒钟，就会跳出修改图标。点击修改模型即可。如果还没有添加智谱这个供应商，就选择右下角的添加。

模型 ID 是 glm-5v-turbo。别写错，一个字母都不能差。配置完，保存一下，然后点击图标，就可以自动载入 GLM-5V 的配置，然后自动打开 Claude Code，自动创建独立的配置文件，自动定位到设置好的项目路径了。

2、创建测试环境

为了做到很好的隔离和对比，我会给每个模型创建一个单独的测试目录：

然后每次的对话记录，全部会单独保存到文件中，方便后期调阅和对比。

测试工具的话还是 Claude Code，这也是官方推荐的工具。

然后，我们找一个“小个子”陪练——Opus 4.6！

因为智谱在基准测试中对标的就是 Opus 4.6。

从这张图来看，GLM-5V 全方位“吊打” Opus 4.6 了。

13 项基准，有 10 项领先，而且分数都很高了。

3、测试例子

因为从基准测试来看，GLM-5V 非常厉害，所以我有点紧张。

我主要是怕太简单的例子测不出它的极限。

这个问题愁死我了……想了很久都没想好。

我就想着先随便搞一搞，练练手吧。

所以，我第一个例子是：让它帮我识别上图中的数据，并制作网页，测着测着就发现问题了。

然后我就拉上 Opus 4.6 来做对比了。

4、识别图片并制作网页

既然作为多模态内容，测试一下它对图片文字的识别能力，应该合情合理吧，而且日常工作中这种场景非常多。

单纯做识别好像有点无趣，我就加了一句，让它把识别的内容制作成网页。

然后，我们就可以来看它们的执行过程和结果了。

第一轮：

[Image #1] 帮我把图片转换成MD表格，并制作成一个网页；

先来看 GLM-5V：

上面是完整的回答过程。

下面是网页效果：

从这个网页可以看出来：

识别效果是很好的，应该是一字不差。多了一个“类别”，这个是没啥毛病的。

而且表格的排版也是没有乱。

甚至连加粗都还原了。

这个识别和还原能力，已经非常好了！

Opus 4.6：这是 Opus 的回答过程。

下面是它的网页效果：

Opus 这个识别，也是全对的，排版也没啥问题，同样考虑到了加粗的问题。

样式很好，但是它核心列的数据不对齐，不知道是什么逻辑？

是为了区分不同类目么？每个大类的第一行位置不一样。

这一轮大家都差不多啊！

都是表现还不错的。

当然，这也是当前多模态模型的基操了。

5、100%复刻

上面的测试看起来太简单了，下面就上点强度了！

GLM-5V-Turbo官方宣传视频中的大量例子和基准中都大量提到了设计图转网页、图片转代码的例子。

其中 Design2Code 这个基准高达 94.8，Opus 4.6 只有 77.3。证明他这方面应该很厉害。

设计转成代码，最关键的就是还原度，就是“抄作业”的能力。

所以我就提出了要 100% 复刻图片效果的要求。

第二轮：

刚才我只是叫你制作网页，没有提出样式要求，你可以 100% 还原截图中样式么？制作一个网页，用单独的名字保存，不修改当前的网页。

GLM-5V：

网页效果如下：

这，这，这，就有点过分了。

这个不能说不像，只能说完全不一样吧。

尤其是 GLM-5V-Turbo 这一列，出现了奇怪的样式，而且还和 Kimi 2.5 重叠了。

这复刻能力是不太行的。线条、颜色、空间布局的理解和还原能力都不行。

Opus 4.6：

网页效果如下：

Opus 的设计感还可以，大圆圈的形状和颜色比较接近原图了，整体能看。

但是要说 100% 复刻的话，其实小问题也很多。

比如加粗样式丢了，然后 GLM-5V-Turbo 这个标题的颜色也不对。

看来即使一个简单的表格，要一比一复刻都有难度。

从结果来看，GLM-5V 主要是整体样式有点崩了。

6、威胁重做

我对上面的结果都不是太满意，我决定再给它们一次机会。

坊间传闻，给 AI 一点压力，它会很努力。所以我在描述中加了“给你最后一次机会”。

第三轮：

相似度不够，我最后给你一次机会：请重点分析布局、颜色、内容对齐、文字粗细等因素，优化复刻效果，最好能做到 100% 的还原。保存到一个新的网页文件中。

GLM-5V 结果如下：

这已经是全面崩溃了，乱的一塌糊涂！数字跑前面来了，选框也漂移了。

Opus 4.6 结果如下：

Opus 整体结构还没崩，但是选框也是乱飞了。

看来 AI 能力，无法通过威胁压迫来提升，反而会影响它们发挥。

🤣哈，全部都不太理想，只有看谁更差一点了。

这不需要评了吧，这种视觉问题，谁都能评，你们觉得谁更差一点？

你们说我这个问题复杂么？应该不复杂吧！

看来时至今日，复制效果，还是有难度！即便是一个简单表格！

好消息是，识别率都很高，识别完也不乱，能覆盖一大批场景。

今天只是端上一碟小菜，后续我们整点有难度的！

如果你们有啥好的测试项目，速速分享！

要能区分实力的那种，不能是常规基准中的题目，避免刷题。

小尾巴==========================
公众号：托尼不是塔克
 交流群
 知识星球
==============================

关于作者

tony

某人