听说GLM4.7和Cluade4.5差不多实力了!
我严重怀疑,X 上的大V也开始接广告了。
这两天刷到好多人说 GLM4.7 水平已经追平 Claude Opus 4.5 了,可以在 CC 上无感替换了。MiniMax-M2.1 发布了,有人说超过 Claude 4.5 了。
最离谱的是有人在吹百度的新模型,还拿百度去和谷歌比。(400亿 VS 40000亿!)
看他们说的那么厉害,我打开大模型竞技场看了一眼。
好像 top 10 也没有看见他们影子,但是真的在 13 名看到了百度的模型。
百度的模型我是不敢用的,百度早就用自己的行动证明,它缺的不是技术,而是L心。
看了下 WebDev 榜单还真的有的 GLM-4.7。

GLM4.7 和MiniMax 确实是有点东西的。但是不清楚这个榜单有多少水分。
直觉告诉我,他们的水平和真正一线模型还是有不小差距的。
我刚好有所有模型,都能用得上。所以可以拿来测一测。
当然,不管我怎么测,都可能被说,以偏概全。
那我就以偏概全吧,我就只测一个例子。
用同样的提示词,测试所有模型,每个模型都测三次。
提示词:
Create HTML/CSS (and minimal JavaScript) of an analog clock that automatically reads and displays the current system time in the browser. Include numbers (or numerals) if you wish, and have a CSS animated second hand. Make it responsive and use a white background. Return ONLY the HTML/CSS/JS code with no markdown formatting
简单翻译一下,就是在网页上做一个模拟时钟。 这个题目主要是考验表盘画的好不好,刻度位置对不对,三个指针转动是否正确。 这个就是属于 WebDev 的范畴!
本来以为这次测试会很无聊,正常来说,大家都实力相当的话,结果也不会差太多。
测完才发现,还是有些不一样的。
先简单总结下 :
Claude Opus 4.5 还是强到可怕!
字节的 Doubao-Seed-1.8 让人有些意外,
GLM2.7 和MiniMax-M2.1 表现不稳定!
然后我们来看具体的测试结果。
GLM2.7
先来看GLM2.7。 智谱 AI 正在推进 IPO,这次发布GLM2.7应该对他们比较重要。
所以投点广告,也合情合理。
但是我真的很好奇,他们的模型到底怎么了。
如果好用,我也愿意从Claude换GLM,问题的关键在于,真的能平替么?

我其实测试了不止三次。
我就挑比较有代表性的三次。
有一次正常点,数字显示位置还可以优化。
另外两次,一次数字混乱,一次是刻度混乱。
总得来说,GLM2.7 的在这个命题上面表现不是很稳定,基本看运气。
MiniMax M2.1
我其实挺喜欢这家公司的,他们人不多。但是好几个业务做的挺有特色。视频生成啊,语音合成啊,都挺强。

但是,在 AI 编程这一块,可能还得努力努力。
从测试结果来看。
MiniMax-M2.1 运气也看不了,都失败了。
不是这里错,就是那里错,反正多少有点错误。
其中一个表盘设计的还不错。但是我基本可以断定,这是它瞎蒙的。
GPT-5.2
GPT看到Gemini Pro之后急急忙忙推出了5.2。有人说不如5.1。我 自己感觉在讨论问题的时候,心智还不错。但是写代码我不是很确定,尤其是前端代码。

GPT-5.2 这UI还怪好看,可惜布局乱了!
第一个非常棒,我都开始拍手了。
第二个也挺好看,但是指针没了。
第三个也好的,但是指针乱了。
还是不够稳啊!
Doubao-Seed
字节的产品力实在是太强了,刚开始的豆包妥妥的垃圾,但是快速占领了市场。现在字节是全面开花,各种AI都搞。上次推出Seed-Code时候我其实已经测过一遍了。在这个问题上表现还不错。
这一次推出了Seed 1.8 再来测试一波。

字节的Doubao-Seed-1.8 表现让人意外。
表现太稳定了!
首先没有任何错误,其次每次生成样式大致相同。
我在测试其他任务的时候也是这种感觉,在它能力范围内的问题都非常稳健。但是它UI美观度好像一般般,不出众。
Claude-Opus-4.5
这是 Anthropic最强的模型,也是业内公认的编程实战最强的模型。我其实很少用这个模型,因为 Trae 上没有,充了年会员之后,连基础版Claude都被掐了。最近用上谷歌的 antigravity 才用 OPUS 跑了几次,直观感受就是很强,尤其是被其他模型折磨之后,再去用它,简直爽到飞起。
我这么夸它,不知道它有没有压力。
下面是Opus-4.5的结果:

看来有实力的人,是不会有压力的。
这绝对是大神级的存在,稳定性和美观程度都是吊打同行。
UI实在是太漂亮了!
数字定位别具一格(这算不算BUG啊),指针设计也很有层次感。
都说 Gemini3 的前端能力强,其实 Opus 也很强。
如果不考虑成本,Claude-Opus依旧是首选,而且是不用犹豫的那种 !
所有人都要对标C,那么选C就对了。这个理论放之四海皆准!