GLM-5V-Turbo 首测翻车了?!

很开心,GLM-5V-Turbo 到手了。

智谱的效率还是挺高的,其实昨天已经发我了,我没发现。

看到这个邮件,就像是拿到了一个新玩具!

马上就想拆开玩一玩。

但是……如果玩具不够硬核,很容易被我玩坏。

我是出了名的只给里子不给面子。

我今天随手一测,略微一出手,好像就翻车了

具体是个什么情况呢,往下看。

其实,今天这个测试一点都不复杂,结果是让我有点“意外”的。

1、配置模型

以防有人还不会配置,我先说一下如何配置新模型。

官方在通知邮件中非常贴心的提供了配置方法:

只要修改你用户名下的 .claude 目录下的 settings.json 文件就可以了。

我嘛,当然是用自己手搓的 JCode 了:

只要在图标上停留 3 秒钟,就会跳出修改图标。点击修改模型即可。如果还没有添加智谱这个供应商,就选择右下角的添加。

模型 ID 是 glm-5v-turbo。别写错,一个字母都不能差。 配置完,保存一下,然后点击图标,就可以自动载入 GLM-5V 的配置,然后自动打开 Claude Code,自动创建独立的配置文件,自动定位到设置好的项目路径了。

2、创建测试环境

为了做到很好的隔离和对比,我会给每个模型创建一个单独的测试目录:

然后每次的对话记录,全部会单独保存到文件中,方便后期调阅和对比。

测试工具的话还是 Claude Code,这也是官方推荐的工具。

然后,我们找一个“小个子”陪练——Opus 4.6!

因为智谱在基准测试中对标的就是 Opus 4.6。

从这张图来看,GLM-5V 全方位“吊打” Opus 4.6 了。

13 项基准,有 10 项领先,而且分数都很高了。

3、测试例子

因为从基准测试来看,GLM-5V 非常厉害,所以我有点紧张。

我主要是怕太简单的例子测不出它的极限。

这个问题愁死我了……想了很久都没想好。

我就想着先随便搞一搞,练练手吧。

所以,我第一个例子是:让它帮我识别上图中的数据,并制作网页,测着测着就发现问题了。

然后我就拉上 Opus 4.6 来做对比了。

4、识别图片并制作网页

既然作为多模态内容,测试一下它对图片文字的识别能力,应该合情合理吧,而且日常工作中这种场景非常多。

单纯做识别好像有点无趣,我就加了一句,让它把识别的内容制作成网页。

然后,我们就可以来看它们的执行过程和结果了。

第一轮:

[Image #1] 帮我把图片转换成MD表格,并制作成一个网页;

先来看 GLM-5V:

上面是完整的回答过程。

下面是网页效果:

从这个网页可以看出来:

识别效果是很好的,应该是一字不差。多了一个“类别”,这个是没啥毛病的。

而且表格的排版也是没有乱。

甚至连加粗都还原了。

这个识别和还原能力,已经非常好了!

Opus 4.6: 这是 Opus 的回答过程。

下面是它的网页效果:

Opus 这个识别,也是全对的,排版也没啥问题,同样考虑到了加粗的问题。

样式很好,但是它核心列的数据不对齐,不知道是什么逻辑?

是为了区分不同类目么?每个大类的第一行位置不一样。

这一轮大家都差不多啊!

都是表现还不错的。

当然,这也是当前多模态模型的基操了。

5、100%复刻

上面的测试看起来太简单了,下面就上点强度了!

GLM-5V-Turbo官方宣传视频中的大量例子和基准中都大量提到了设计图转网页、图片转代码的例子。

其中 Design2Code 这个基准高达 94.8,Opus 4.6 只有 77.3。证明他这方面应该很厉害。

设计转成代码,最关键的就是还原度,就是“抄作业”的能力。

所以我就提出了要 100% 复刻图片效果的要求。

第二轮:

刚才我只是叫你制作网页,没有提出样式要求,你可以 100% 还原截图中样式么?制作一个网页,用单独的名字保存,不修改当前的网页。

GLM-5V:

网页效果如下:

这,这,这,就有点过分了。

这个不能说不像,只能说完全不一样吧。

尤其是 GLM-5V-Turbo 这一列,出现了奇怪的样式,而且还和 Kimi 2.5 重叠了。

这复刻能力是不太行的。线条、颜色、空间布局的理解和还原能力都不行。

Opus 4.6:

网页效果如下:

Opus 的设计感还可以,大圆圈的形状和颜色比较接近原图了,整体能看。

但是要说 100% 复刻的话,其实小问题也很多。

比如加粗样式丢了,然后 GLM-5V-Turbo 这个标题的颜色也不对。

看来即使一个简单的表格,要一比一复刻都有难度。

从结果来看,GLM-5V 主要是整体样式有点崩了

6、威胁重做

我对上面的结果都不是太满意,我决定再给它们一次机会。

坊间传闻,给 AI 一点压力,它会很努力。所以我在描述中加了“给你最后一次机会”。

第三轮:

相似度不够,我最后给你一次机会:请重点分析布局、颜色、内容对齐、文字粗细等因素,优化复刻效果,最好能做到 100% 的还原。保存到一个新的网页文件中。

GLM-5V 结果如下:

这已经是全面崩溃了,乱的一塌糊涂!数字跑前面来了,选框也漂移了。

Opus 4.6 结果如下:

Opus 整体结构还没崩,但是选框也是乱飞了。

看来 AI 能力,无法通过威胁压迫来提升,反而会影响它们发挥。

🤣哈,全部都不太理想,只有看谁更差一点了。

这不需要评了吧,这种视觉问题,谁都能评,你们觉得谁更差一点?

你们说我这个问题复杂么?应该不复杂吧!

看来时至今日,复制效果,还是有难度!即便是一个简单表格!

好消息是,识别率都很高,识别完也不乱,能覆盖一大批场景。

今天只是端上一碟小菜,后续我们整点有难度的!

如果你们有啥好的测试项目,速速分享!

要能区分实力的那种,不能是常规基准中的题目,避免刷题。

 

小尾巴==========================
公众号:托尼不是塔克
交流群
知识星球
==============================

 



发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注