GLM-5V 视觉模型又来“吊打” Opus4.6了!

不好意思,吊打只是我的口头禅,并不是我的结论!

今天主要来看一下新模型 GLM-5V-Turbo(视觉模型)的卖家秀!

看起来还不错。

我根据官方推特的信息,来给大家详细介绍一下主要卖点!

基准测试

首先我们来看一张“吊打” Opus 的基准图(Benchmark):

官方结论是:

设计稿还原、视觉代码生成、多模态检索问答、视觉探索等评测上领先;

在真实 GUI 环境控制能力(AndroidWorld 和 WebVoyager)上表现突出。

单看这张图,领先的指标确实很多。

尤其是 Design2Code 以 94.8 小胜 Kimi2.5 的 91.3,吊打 Claude Opus 4.6 的 77.3。

我对这些基准不是很熟,所以我专门查了一下。

我主要是想知道:这些基准是野鸡标准,还是真的公认的权威基准。

权威和知名度汇总:

类别基准
公认权威OSWorld、AndroidWorld、WebVoyager、Design2Code
中等知名Vision2Web、MMSearch/MMSearch-Plus、BrowseComp-VL
小众/存疑Flame-VLM-Code、ImageMining、SimpleVQA、Facts、V*

因为我还没测试,所以我先不做评论,我只是提供一些参考数据。

我的经验是:基准是开卷考,拼的是节操,只能作为参考

三大核心特点

看完基准,看一下首推的三大特点。

原生多模态编程

原生理解图像、视频、设计稿、文档布局等多模态输入,能”看屏幕写代码”——理解设计稿、截图、网页界面后直接生成完整可运行代码。

视觉与编程能力均衡

在多模态编程、工具调用、GUI Agent 等核心基准上取得领先成绩;

同时在 CC-Bench-V2 的三个纯文本编程评测(后端、前端、仓库探索)上保持稳定,证明引入视觉能力不会损害文本推理。

深度适配 Claude Code 和 Claw 场景

与 Claude Code、OpenClaw 深度协同,支持完整任务闭环执行。

这都是很好的方向,如果真的有进步,将使 GLM 系列模型的实用性大大增强。

从第二张图来看,GLM5V,就完全被Claude Opus4.6压一头了。

毕竟它家的CC本身就是基准测试的Harness

四层系统升级

这一部分,可能看不太懂,但是懂得自然都懂,我觉得我还是要列一下。

原生多模态融合

预训练阶段即做文本视觉深度融合,后训练阶段协同优化;

自研新一代 CogViT 视觉编码器,在通用目标识别、细粒度理解、几何空间感知上达到 SOTA;

设计推理友好的 MTP 结构保证效率。

30+ 任务协同 RL

RL 阶段同时优化 30+ 类任务,覆盖 STEM、Grounding、视频、GUI Agent,提升感知推理能力,同时缓解单领域训练的不稳定性。

Agentic 数据与任务构建

针对 Agent 数据稀缺问题,构建从元素感知到序列级动作预测的多层数据体系;

用合成环境生成可验证训练数据;

预训练阶段注入”Agentic 元能力”(如加入 GUI Agent PRM 数据以减少幻觉)。

多模态工具链扩展

除文本工具外,支持多模态搜索、绘图、网页阅读,将感知-动作循环延伸至视觉交互;

强化与 Claude Code 和 OpenClaw 的协同。

视频演示

枯燥的文字部分终于看完了,我们来看看视频部分。

看看是否 make sense?

【视频】

视频的第一幕叫:See It Code It

我翻译一下:Like It , Copy It

这是一个大家都不好意思说,但是很想要的功能。

天下文章一大抄,代码也是如此,重点是能不能快速出活。

我们一般叫“调用”和“复现”,程序员怎么可以说抄袭。

我还是挺喜欢这个黑白配色,网格,和字体的,决定拿它做封面了。

草图转代码

视频中的第一个例子是 Sketch = Code,翻译一下就是草图转代码。

直接在左边画一个草图,然后底下写一句:

make a concept music app that plays https://lab.design/music.mp3 by default.

制作一款播放概念音乐的应用程序

默认播放 https://lab.design/music.mp3

参考转代码

第二个例子叫 Reference = Code。

给定两张参考图,然后编写以下提示词:

As a master of creative programming, create an interactive generative art piece with given reference image as direction/inspiration. You may use canvas2d, shader, p5.js or similar. 作为创意编程大师,以给定的参考图像为方向/灵感,创作一件交互式生成艺术作品。你可以使用 canvas2d、着色器、p5.js 或类似工具。

一个衍生例子:

通过草图和参考图,以及提示词生成一个指定风格的音乐播放器。

截图转代码

第三个例子叫 Screenshot = Code。

这个例子是根据一张极具 3D 感的图片,生成一个可以拖动的 3D 版网页。

录屏转代码

第四个例子是 Screencast = Code,相比截屏又提升了一个难度。

就是直接给它一个动态视频(可以想象成抄袭一个动态网页),然后它直接把这个动态视频转换成动态的网页代码。

最后还展示了 Image -> Code -> Music 例子。这个有点抽象,有点创意,我就不讲了。

这个视频还是做的挺好的。

一句话,你给我什么我就立马帮你复现。想着是不是无比美好。

但是,我们也要认识到“卖家秀”永远都是卖家秀。哪次模型发布,都是炫得不行,一上手又是另外一种感觉了。

所以,我们还是得实测一下才知道。

CodingPlan的内测申请我已经提交了,给不给我用,就看智谱了。

目前看起来还是很不错的,发力点都是对的,原生多模态是必经之路。

这个方向,国外的模型已经玩了很久了。

我记得 2024 年 5 月 GPT-4o 的时候开始作为宣传重点了,Gemini 也是强得很,Claude 不算很强,但是也早就默默支持了。

而之前的国产编程模型基本上还是在卷文字部分,很少有原生多模态模型。

大部分编程模型无法直接理解图片,有些是直接调用第三方服务来做图片识别。

比如 DeepSeek 就完全不理解图片,GLM5 就是靠调用 MCP 来识别的。只有 Doubao 比较早地引入了多模态。

我曾经做个一个基准数据采集、分析、汇总、制作网页的例子,就需要结合多模态来做图片识别,当时一堆国产大模型全躺了。

现在 GLM 也往这个方向发力了,好事情!

最后一句:事情肯定是个好事情,就看做得怎么样了!

参考链接

免费在线尝试:

https://chat.z.ai

接口文档:

https://docs.z.ai/guides/vlm/glm-5v-turbo

CodingPlan申请入口:

https://docs.google.com/forms/d/e/1FAIpQLSdEg9C_7FRQWRbnJt–BJXSoacQZbbnB1A4hXGjWP59_1Pugg/viewform
 

小尾巴==========================
公众号:托尼不是塔克
交流群
知识星球
==============================

 



发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注