测一测Qwen3.6 Plus的原生多模态!

测一测Qwen3.6 Plus的多模态测试!

这是克隆 Claude 官网的第二篇,这个系列主要用来测试 AI 模型的多模态能力。

第一个上场的是官方基准全方位“超越” Opus 4.6 的 GLM-5V-Turbo。

没想到“出师未捷身先死……”。

直接卡在创建文件的环节失败了,花了 30 分钟,什么都没有生成。

今天轮到 Qwen3.6 Plus 了,它也是一个原生多模态模型。

因为有 GLM-5V 这个“珠玉在前”,Qwen3.6 Plus 就显得牛逼多了,它成功跳过了“写入错误”这个坑。

下面就来看一下,我具体的测试过程和测试结果!

测试输入

测试输入包含两部分,一部分是图片,一部分文字。

参考图

为了让模型有足够的参考样式,我提供了 Claude 官网的 6 张截图。

全局图,左侧菜单收起状态:

全局图,左侧菜单展开状态:

左侧包含了很多内容,看 AI 是否能比较好地还原。

模型选择列表:

这张图,主要考点是模型选择列表的效果。

设置和语言选择菜单:

这里主要是靠点击头像弹出菜单,然后移动到语言,又弹出二级菜单。看 AI 能否还原这种联动效果。

输入内容之后:

Claude 的网页设置非常细致。输入框中没有内容,右下角是音频输入图标。一旦输入文字,就会切换并点亮发送图标。这个也是一个很好的考点。

发送返回之后:

这是用户发送问题,模型返回后的截图。就是正常的对话界面!

这 6 张图,已经比较完整地展现了这个网站的主要功能样式。对 AI 来说,应该已经够用了!

因为图片比较多,我不是直接粘贴传递,而是统一放在了 docs 目录中。

提示词

参考图已经准备就绪。然后就是提示词。图片、提示词这些和测试 GLM-5V 时是一模一样的。

完整的提示词如下:

参考 docs 下的所有图片制作网页,要求完美还原设计稿。
包括配色,图标,布局,字体,功能菜单等方面。

并且要使用 Anthropic 协议实现基础的聊天对话功能,
其他功能只需要完成 UI 展示和互动即可,无需实现具体功能!

调用的接口信息如下:

"baseURL": "https://open.bigmodel.cn/api/anthropic"
"apiKey": "xxxx"
"models": [
    "glm-5.1",
    "glm-5-turbo",
    "glm-5",
    "glm-4.7",
    "glm-4.5-air"
  ],
"selectedModel": "glm-5.1",

在这段提示词中,我主要给了两个任务。

  1. 完整复刻这个网站界面和简单的交互!
  2. 调用 GLM 5.1 实现基础对话功能!

也就是说,如果复刻比较成功的话,就相当于我拥有了一个 Claude AI 克隆版网站,可以选择模型,也可以展开左边的菜单,还可以发送内容,并收到反馈。

测试过程

我们的测试方法基本一致,先创建单独的文件:

把 6 张截图放入这个文件夹下面的 docs 目录中。

然后把这个文件拖动到 JCode 配置好的图标上面:

这样就会自动打开 Claude Code,并且定位到我们测试目录,同时会自动注入环境变量,调用 qwen/qwen3.6-plus:free 这个模型。

OpenRouter 目前还是免费调用,因为免费 Tokens 消耗量已经刷到第一名了。

实力如何先不说,能第一时间免费公开让人测试,这一点做得还是不错的。

然后粘贴提示词直接开干:

它先去查看当前目录,然后读到了 6 张图片的信息。

接下来重点来了:

测试 GLM-5V-Turbo 遇到了文件写入错误,直接进入无限循环了。 Qwen3.6 Plus 第一次写文件的时候也遇到了错误“Error writing file”。

但是它很快调整了策略,成功创建了文件。

接下来它还有一个比较优秀的点:

就是开发完成之后,在不停地验证。截图中的高频词汇就是验证(verify)和测试(test)。 上面的英文总结一下就是:检查文件 → 校验 HTML → 校验 JS → 确认引用 → 最后浏览器测试。 这个思路是非常正确的,比较初级的模型是只开发不验证的。稍微厉害一点的模型,就会验证结果,并做调整。

但是它还是有一个小问题:

就是任务列表一直不更新,可能是对 Claude Code 这个 Harness 适配还不太好。看起来有点难受,但是好像并不影响使用。

完成这个任务大概消耗了 18 分钟,因为没有参考对象,还不好断定是快是慢!

测试结果

测试过程没有中断,成功完成了开发。

最终生成了以下的文件:

这个结构非常清晰,一个 js 文件控制逻辑,一个 index.html 控制结构,一个 style.css 控制样式。

然后它通过:

python -m http.server 8080

然后告诉了我两点信息:

1)启动服务访问 localhost:8080 2)或者直接打开 index.html 也能用,因为接口已经支持跨域(CORS)!

既然如此,我们就直接打开 HTML 测试了。 我根据输入的图片,截取了对应的 6 张图片,一起来看一下效果如何。

图1:

整体结构和风格还是比较不错的。没有出现明显的混乱。只是左边的图标有点小问题,以及 glm-5.1 位置有点问题。

图2:

可以正常展开左边菜单,展开之后也是有对应内容的,这个还可以。

但是它这个设计明显和原稿有差异。一个是展开的图标横过来了,另一个是展开之后,左边的部分没有隐藏。

图3:

模型选择列表成功展开,而且样式没有大问题。只是选中的效果和原稿差异较大。原图是黑色背景,蓝色勾。

图4:

点击头像,可以正常弹出菜单,然后点击语言,可以正常弹出二级菜单。这个很厉害了。基本没有啥问题。

硬要说细节的话,就是邮箱给我改了,然后选中状态的背景和对勾和原稿不一致。

图5:

非常好,输入内容之后成功点亮了右下角的发送图标。

但是,原图中,下方的内容会全部隐藏,它没有做到同步处理。

这是细节问题,问题不算很大。

图6:

发送内容之后,这个环节有比较大的问题。

一个是原始的输入框没有消失。

另外一个是出现了连接错误。

提示:Connection error: Failed to fetch

至于这个错误是为什么?我尝试过启动服务,再测试,也不行! 诡异的是 GPT5.4 和 Opus 4.6 都找不出问题。

GPT5.4 是这么说的:

万年不变的不是…而是句式,腻到吐了!

Opus 4.6 的结论如下:

它测试了各种方案,都没发现问题,就是说该对的地方都是对的。

然后我看了一眼浏览器开发者模式下的控制台:


Access to fetch at 'https://open.bigmodel.cn/api/anthropic/v1/messages' from origin 'http://127.0.0.1:5500' has been blocked by CORS policy: The 'Access-Control-Allow-Origin' header contains multiple values 'http://127.0.0.1:5500, *', but only one is allowed. Have the server send the header with a valid value.
app.js:273 POST https://open.bigmodel.cn/api/anthropic/v1/messages net::ERR_FAILED 200 (OK)

我粗略看了一下,好像还是和跨域有关。

把错误扔给Opus4.6如是说:

一个脑袋两个大,它的意思我理解!但是排查起来有点麻烦。

先试了无痕模式了,一样的错误!

插件太多了,我不想深入研究了。

换了个浏览器也是一样的错误。

到此为止吧!

为了做对比测试,我请一个叫 Opus 的同学也搞了一个版本,是可以正常返回的!

哈哈哈🤣,同样的系统环境,同样的浏览器,返回非常丝滑!

而且小O同学是自己打开浏览器验证没问题了,才交到我手上的。

这个我先不展开,下一篇详细聊。

有点扯远了,我们今天还是聚焦Qwen3.6Plus。

虽然我之强烈前抨击了它们“最强国产”的夸张宣传,但是不得不说,它这个多模态能力好像还可以哦!

至少相比 GLM-5V 还没开始就失败好很多。

这次的例子,大部分需求是完成了的,初看整体感觉像模像样。不算很好,但是至少是做出一些了东西。

另外我也测试了,上次那个图片转网页的例子。

结果如下:

然后对比一下GLM-5V的最终结果:

GLM-5V刚开始结构是对的,但是多轮对话之后,结构也崩了。

而Qwen3.6 Plus几轮测试下来整体样式和结构都没有崩,表头的灰色分割线也还原了,数字的加粗也一直保持得很好。

GLM-5V 和 Opus 4.6 都出现了越改越差的情况,就是无法巩固之前的成果。

Qwen3.6 Plus 会在写完之后疯狂的去做验证:

我看它前前后后改了很久,大概是自己改了 3 个版本!

上面那段英文说的是:

这个高亮框选中了错误的列。让我再看一眼图片—— 这个高亮框只包住了 GLM-5V-Turbo 的分数。 “Multimodal Coding”和“Design2Code”其实是在左侧同一块区域。 我需要用更精确的布局重新构建一下。

目前唯一的问题就是核心数据列的外框没有很好的还原出来。

下面这个已经它的极限了:

然后我跑去它官网看了一下,好像确实有强调这是一个“原生多模态大模型”。

它的体验例子中,第一个就是图片理解:

然后,第二个例子我非常眼熟。

这不就是我常常拿来测试的例子么?只是它把 5 米改成了 5.5 米。

糟糕🤣这个已经被优化训练了?看来,以后不能用这个测试题了!

总结一下:

通过粗略对比,目测 Qwen3.6 Plus 这个原生多模态能力还可以。 我的主观感受是比 GLM-5V 要好一些的! 在两次视觉类测试中,都可以非常清晰地看到,它会进行自主验证,这一点做的很好!

当然,也只是相对而言啦,不是说特别牛逼。

它的页面还原还是有不少细节问题,而且最后一个接口调用也没跑通。

要说自主验证和一次成功率,那还是得看 Opus 4.6! 如无意外,下一篇,我会详细介绍 Opus 4.6 的测试过程和结果。

另外,这几天我会把不同模型的测试结果进行汇总。

发布到:

https://topai.tonyhub.xyz
 

小尾巴==========================
公众号:托尼不是塔克
交流群
知识星球
==============================

 



发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注