Claude官网克隆之Opus4.6

Opus 4.6 依旧是碾压 GLM-5V-Turbo 和 Qwen3.6 Plus 的存在!

编程模型多模态测试系列第三篇,在测试了 GLM-5V 和 Qwen3.6 Plus 之后

我要来公布 Opus 4.6 的表现了!

所以今天的主题是:让 Opus 4.6 克隆 Claude 官网

对于这个主题我其实有一个顾虑:

Opus 4.6 会不会有血脉传承,导致原力觉醒,背出 Claude 官网代码!

哈哈哈。

仔细想想,这个问题应该不存在,以 Anthropic 的风格,它们官网的完整代码是绝对不会包含在训练数据之中的。

毕竟,Claude Code 被迫开源之后,你都无法用 Claude Code 去分析 Claude Code 源代码。

所以 Anthropic 绝对不会把官网代码放进去,让你们抄的!

这个问题想清楚之后,就可以往下看了。

测试结果其实早就出来了!

看完结果,我不禁感慨“斗宗强者,恐怖如斯啊!”。

虽然Claude从来不宣传自己多模态有多牛逼。虽然从基准参数来看都被国产模型吊打了。

但是实战的时候还是很强!

下面我就完整的展示一下,测试内容,测试过程,以及测试结果。

测试输入

测试输入包含两部分,一部分是图片,一部分是文字。

这一部分所有人都是一模一样的。包括系统环境和测试工具也是一模一样的。

参考图

为了让模型有足够的参考样式,我提供了 Claude 官网的 6 张截图,每张图片都有自己的侧重点。

全局图,左侧菜单收起状态:

全局图,左侧菜单展开状态:

左侧包含了很多内容,看 AI 是否能比较好地还原。

模型选择列表:

这张图,主要考点是模型选择列表的效果。

设置和语言选择菜单:

这里主要是看点击头像弹出菜单,然后又弹出二级菜单。看 AI 能否还原这种联动效果。

这既是 UI 也是 UX。

输入内容之后:

Claude 的网页设置非常细致。

输入框中没有内容,右下角是音频输入图标。一旦输入文字,就会切换并点亮发送图标。

这个也是一个很好的考点。

发送返回之后:

这是用户发送问题,模型返回后的截图。就是正常的对话界面!

这 6 张图,已经比较完整地展现了这个网站的主要功能样式。对 AI 来说,应该已经够用了!

因为图片比较多,我不是直接粘贴传递,而是统一放在了 docs 目录中。

提示词

参考图已经准备就绪,然后就是提示词。

完整的提示词如下:

参考 docs 下的所有图片制作网页,要求完美还原设计稿。
包括配色,图标,布局,字体,功能菜单等方面。

并且要使用 Anthropic 协议实现基础的聊天对话功能,
其他功能只需要完成 UI 展示和互动即可,无需实现具体功能!

调用的接口信息如下:

"baseURL": "https://open.bigmodel.cn/api/anthropic"
"apiKey": "xxxx"
"models": [
    "glm-5.1",
    "glm-5-turbo",
    "glm-5",
    "glm-4.7",
    "glm-4.5-air"
  ],
"selectedModel": "glm-5.1",

在这段提示词中,我主要给了两个任务。

  1. 完整复刻这个网站界面和简单的交互!
  2. 调用 GLM 5.1 实现基础对话功能!

也就是说,如果复刻比较成功的话,就相当于我拥有了一个 Claude AI 克隆版网站,可以选择模型,也可以展开左边的菜单,还可以发送内容,并收到反馈。

测试过程

准备工作都做了好了,然后我们创建单独的测试文件夹。

然后把参考图放到Opus4.6下面的docs文件夹中。

然后打开Claude Code开干:

因为我的失误,我只复制了 4 张图片,所以刚开始 Opus 有点吃亏。

我们先来看过程,后面再补上吧。

它第一步是检查了设计图片;

然后是查看了项目结构;

然后说,它已经分析了四张设计稿,并完全理解了界面设计,开始实现。

接下来就进入全自动模式了,我根本不用干预!

它自己制定计划,自己完成 HTML 页面结构、CSS 样式、JS 功能。

因为这是 Opus4.6,Claude Code 是自家工具,自然是没有遇到任何工具调用方面的问题,没有出现过文件写入失败这种情况。

其实开发都不算什么,厉害的时候验证阶段。

开发完成之后,它自己验证:

如果遇到问题,它会自动修复,比如上图中它就在修复用户菜单位置的问题。

基本错误解决之后,它就会自动打开浏览器进行验证了:

这个真的是 Claude Code 一绝。

自己打开网页,自己点击了左边的按钮,展开了侧边栏。

还自动发送了一个提问:

提问还用了两种方式。

一种是测试英文,说让 AI 帮它讲一个段子。

一种是要求中文回复。

这不就是,AI 去调用另外一个 AI 么?

因为它做了测试,所以我其实不需要做测试了,这个功能肯定是正常的。

下面是它测试的日志:

它说“完美运行”,“完美运行”,“功能正常”! 那一般就是没什么问题了!

主打一个省心又靠谱!

我跑完才发现我少给了两张图片,然后又补充了一下。

并且顺带说了一句左边菜单图标排列的问题。

这个是我的锅,是我不靠谱了!

接下来的修改也非常顺利。

整个过程,非常丝滑。

唯一的问题是:

hit your limit!!! SHIT~FXXK!

啊啊啊,抓狂啊,现在这个配额是越来越不顶用了!

国产加油,赶紧干翻它~~

如果国产模型真的有现在 Opus 4.6 的水平,我二话不说,立马把 Opus 扔到垃圾桶。

测试结果

其实结果已经看了一大半了。为了更好地做对比,我还是一张一张来截图吧。

另外我会把之前测试的 Qwen3.6 Plus 图片也加上,做个参考。

我拼图的统一规则是,上图为 Qwen3.6,下图为 Opus 4.6。

全局界面,菜单收起状态:

Opus 的整体布局肯定是没有任何问题的!

相比而言:

Opus 左上角的展开图标更加接近原版,Qwen 是横过来了!

Opus 其他图标也更正常一些,Qwen 好几个图标不是像不像的问题,是有点不正常!

Opus 左下角是一个下载图标,Qwen 写成了代码图标,错了!

Opus 的模型选择是在右下角,Qwen 是放到了中间,明显是不对的。

Opus 输入框左下角是个加号,而 Qwen 是一个未知形态的图标,这也是不对的。

Opus 输入框的右下角是一个声音符号,而 Qwen 默认就是发送图标,这也是不对的。

这里还有一个非常细节的地方,就是浏览器的标签栏那边,Opus 是设置了 logo 的,Qwen 没有。

上面那个“Good Morning Tony”的字体好像还是千问的好一点,但是它们应该都不是原版的字体。

Opus 整体结构还原得还可以,但是它那种细微的颜色和字体其实也做得不是太好。

全局,菜单展开状态:

Opus 这一个图的功能排版,也非常接近原版了。

我们来对比一下细节啊;

Opus 的左侧菜单以及历史对话,包括加星的和最近的对话列表,全都是对的。千问是有好几项对不上的。

Opus 展开之后,原先那个菜单就隐藏掉了。而千问是展开了新的,没有隐藏旧的,导致重复显示了。就是我画红线的地方!

还有一个细节,就是右上角那个展开收起的图标,当你鼠标移到上面的时候,会有提示。

Opus 居然把快捷键都实现了!

而且把里面的搜索功能的交互也实现了!

斗宗强者,恐怖如斯啊!

模型选择功能:

这一环节其实大家都做得还可以,但是论细节和还原度的话,还是得看 Opus。

Qwen的模型名称和弹出菜单的布局样式都是做了一定修改的。

Opus 保持了页面的显示效果,以及包含了 Extend Thinking 的开关按钮和 Models 更多选项。在真正调用的时候,它会映射了我给的模型。

看着是 Opus 4.6,实际上是 GLM 5,

这才是高级的套壳呀,是吧?

中转站老板直呼内行啊,是不是?

输入内容后:

这一项测试有一个细节:

  1. 没有输入内容的时候,右下角都没有发送图标
  2. 输入内容之后,发送图标会出现并点亮
  3. 随后输入框下方的快捷入口会隐藏

从前面可以看到,Opus 基本上实现了这个业务逻辑。

千问的话,就是一开始就有发送按钮,然后输入内容之后,下面的内容没有消失。

这里的话主要还是比交互的细节。

魔鬼在细节啊!!!

发送后的对话界面:

这一部分除了界面的复刻之外,其实还有业务逻辑在里面,相当于是需要调用接口然后返回显示。

上一篇我们也看到了,Qwen 调用失败了,而且它这个样式显示也是有问题的,没有隐藏掉上面的输入框。

Opus 它其实已经自测成功了,我测试的时候也是没有任何问题的。

Opus 把左上角、右上角,以及内容底部的复制、点赞、重试也全部复刻出来了。

它在复刻这一步的时候,其实出现了布局错误。

但是它自己打开浏览器截图后发现了问题,自己修正了问题。

因为 Opus 4.6 的整个开发过程都非常流畅,所以我也没有太多好说的东西。

Opus 也从来没有标榜过自己的多模态能力有多强,它甚至很少专门提这一项。

从基准测试数据来看,它的多模态能力确实并不出色,可能比不过 Gemini 和 GPT。

但是你看在实测中的表现,还是非常给力的,综合下来一看,它还是很强的!

当然客观来说,Opus 4.6 的这个结果其实并不是完美的,也有很多细节需要提升。

就像我刚开始开玩笑喊的“斗宗强者恐怖如斯”。

你把整个视野放大之后,斗宗上面还有斗尊、斗圣、斗帝。

只是我们目前还在“新手村”。

所以,时至今日,如果你真的要搞开发,Opus 还是首选。

并不存在真正意义上的“平替”,只是说在没得选的情况下,我们要找一个平替。

不同模型的测试结果,我已经发布到 topai 上面了:

网址:

https://topai.tonyhub.xyz

用电脑打开,网页对比效果更明显!

 

小尾巴==========================
公众号:托尼不是塔克
交流群
知识星球
==============================

 



发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注