GLM-5V-Turbo 首测翻车了?!
很开心,GLM-5V-Turbo 到手了。
智谱的效率还是挺高的,其实昨天已经发我了,我没发现。

看到这个邮件,就像是拿到了一个新玩具!
马上就想拆开玩一玩。
但是……如果玩具不够硬核,很容易被我玩坏。
我是出了名的只给里子不给面子。
我今天随手一测,略微一出手,好像就翻车了。
具体是个什么情况呢,往下看。
其实,今天这个测试一点都不复杂,结果是让我有点“意外”的。
1、配置模型
以防有人还不会配置,我先说一下如何配置新模型。
官方在通知邮件中非常贴心的提供了配置方法:

只要修改你用户名下的 .claude 目录下的 settings.json 文件就可以了。
我嘛,当然是用自己手搓的 JCode 了:

只要在图标上停留 3 秒钟,就会跳出修改图标。点击修改模型即可。如果还没有添加智谱这个供应商,就选择右下角的添加。

模型 ID 是 glm-5v-turbo。别写错,一个字母都不能差。 配置完,保存一下,然后点击图标,就可以自动载入 GLM-5V 的配置,然后自动打开 Claude Code,自动创建独立的配置文件,自动定位到设置好的项目路径了。
2、创建测试环境
为了做到很好的隔离和对比,我会给每个模型创建一个单独的测试目录:

然后每次的对话记录,全部会单独保存到文件中,方便后期调阅和对比。
测试工具的话还是 Claude Code,这也是官方推荐的工具。

然后,我们找一个“小个子”陪练——Opus 4.6! 
因为智谱在基准测试中对标的就是 Opus 4.6。
从这张图来看,GLM-5V 全方位“吊打” Opus 4.6 了。
13 项基准,有 10 项领先,而且分数都很高了。
3、测试例子
因为从基准测试来看,GLM-5V 非常厉害,所以我有点紧张。
我主要是怕太简单的例子测不出它的极限。
这个问题愁死我了……想了很久都没想好。
我就想着先随便搞一搞,练练手吧。
所以,我第一个例子是:让它帮我识别上图中的数据,并制作网页,测着测着就发现问题了。
然后我就拉上 Opus 4.6 来做对比了。
4、识别图片并制作网页
既然作为多模态内容,测试一下它对图片文字的识别能力,应该合情合理吧,而且日常工作中这种场景非常多。
单纯做识别好像有点无趣,我就加了一句,让它把识别的内容制作成网页。
然后,我们就可以来看它们的执行过程和结果了。
第一轮:
[Image #1] 帮我把图片转换成MD表格,并制作成一个网页;
先来看 GLM-5V: 
上面是完整的回答过程。
下面是网页效果:

从这个网页可以看出来:
识别效果是很好的,应该是一字不差。多了一个“类别”,这个是没啥毛病的。
而且表格的排版也是没有乱。
甚至连加粗都还原了。
这个识别和还原能力,已经非常好了!
Opus 4.6:
这是 Opus 的回答过程。
下面是它的网页效果:

Opus 这个识别,也是全对的,排版也没啥问题,同样考虑到了加粗的问题。
样式很好,但是它核心列的数据不对齐,不知道是什么逻辑?
是为了区分不同类目么?每个大类的第一行位置不一样。
这一轮大家都差不多啊!
都是表现还不错的。
当然,这也是当前多模态模型的基操了。
5、100%复刻
上面的测试看起来太简单了,下面就上点强度了!
GLM-5V-Turbo官方宣传视频中的大量例子和基准中都大量提到了设计图转网页、图片转代码的例子。
其中 Design2Code 这个基准高达 94.8,Opus 4.6 只有 77.3。证明他这方面应该很厉害。
设计转成代码,最关键的就是还原度,就是“抄作业”的能力。
所以我就提出了要 100% 复刻图片效果的要求。
第二轮:
刚才我只是叫你制作网页,没有提出样式要求,你可以 100% 还原截图中样式么?制作一个网页,用单独的名字保存,不修改当前的网页。
GLM-5V:

网页效果如下:

这,这,这,就有点过分了。
这个不能说不像,只能说完全不一样吧。
尤其是 GLM-5V-Turbo 这一列,出现了奇怪的样式,而且还和 Kimi 2.5 重叠了。
这复刻能力是不太行的。线条、颜色、空间布局的理解和还原能力都不行。
Opus 4.6:

网页效果如下:

Opus 的设计感还可以,大圆圈的形状和颜色比较接近原图了,整体能看。
但是要说 100% 复刻的话,其实小问题也很多。
比如加粗样式丢了,然后 GLM-5V-Turbo 这个标题的颜色也不对。
看来即使一个简单的表格,要一比一复刻都有难度。
从结果来看,GLM-5V 主要是整体样式有点崩了。
6、威胁重做
我对上面的结果都不是太满意,我决定再给它们一次机会。
坊间传闻,给 AI 一点压力,它会很努力。所以我在描述中加了“给你最后一次机会”。
第三轮:
相似度不够,我最后给你一次机会:请重点分析布局、颜色、内容对齐、文字粗细等因素,优化复刻效果,最好能做到 100% 的还原。保存到一个新的网页文件中。
GLM-5V 结果如下:

这已经是全面崩溃了,乱的一塌糊涂!数字跑前面来了,选框也漂移了。
Opus 4.6 结果如下:

Opus 整体结构还没崩,但是选框也是乱飞了。
看来 AI 能力,无法通过威胁压迫来提升,反而会影响它们发挥。
🤣哈,全部都不太理想,只有看谁更差一点了。
这不需要评了吧,这种视觉问题,谁都能评,你们觉得谁更差一点?
你们说我这个问题复杂么?应该不复杂吧!
看来时至今日,复制效果,还是有难度!即便是一个简单表格!
好消息是,识别率都很高,识别完也不乱,能覆盖一大批场景。
今天只是端上一碟小菜,后续我们整点有难度的!
如果你们有啥好的测试项目,速速分享!
要能区分实力的那种,不能是常规基准中的题目,避免刷题。