2025年12月24日

听说GLM4.7和Cluade4.5差不多实力了！ | 甲维斯C

By tony 默认分类评论 0

我严重怀疑，X 上的大V也开始接广告了。

这两天刷到好多人说 GLM4.7 水平已经追平 Claude Opus 4.5 了，可以在 CC 上无感替换了。MiniMax-M2.1 发布了，有人说超过 Claude 4.5 了。

最离谱的是有人在吹百度的新模型，还拿百度去和谷歌比。（400亿 VS 40000亿！）

看他们说的那么厉害，我打开大模型竞技场看了一眼。

好像 top 10 也没有看见他们影子，但是真的在 13 名看到了百度的模型。

百度的模型我是不敢用的，百度早就用自己的行动证明，它缺的不是技术，而是L心。

看了下 WebDev 榜单还真的有的 GLM-4.7。

GLM4.7 和MiniMax 确实是有点东西的。但是不清楚这个榜单有多少水分。

直觉告诉我，他们的水平和真正一线模型还是有不小差距的。

我刚好有所有模型，都能用得上。所以可以拿来测一测。

当然，不管我怎么测，都可能被说，以偏概全。

那我就以偏概全吧，我就只测一个例子。

用同样的提示词，测试所有模型，每个模型都测三次。

提示词：

Create HTML/CSS (and minimal JavaScript) of an analog clock that automatically reads and displays the current system time in the browser. Include numbers (or numerals) if you wish, and have a CSS animated second hand. Make it responsive and use a white background. Return ONLY the HTML/CSS/JS code with no markdown formatting

简单翻译一下，就是在网页上做一个模拟时钟。这个题目主要是考验表盘画的好不好，刻度位置对不对，三个指针转动是否正确。这个就是属于 WebDev 的范畴！

本来以为这次测试会很无聊，正常来说，大家都实力相当的话，结果也不会差太多。

测完才发现，还是有些不一样的。

先简单总结下：

Claude Opus 4.5 还是强到可怕！

字节的 Doubao-Seed-1.8 让人有些意外，

GLM2.7 和MiniMax-M2.1 表现不稳定！

然后我们来看具体的测试结果。

GLM2.7

先来看GLM2.7。 智谱 AI 正在推进 IPO，这次发布GLM2.7应该对他们比较重要。

所以投点广告，也合情合理。

但是我真的很好奇，他们的模型到底怎么了。

如果好用，我也愿意从Claude换GLM，问题的关键在于，真的能平替么？

我其实测试了不止三次。

我就挑比较有代表性的三次。

有一次正常点，数字显示位置还可以优化。

另外两次，一次数字混乱，一次是刻度混乱。

总得来说，GLM2.7 的在这个命题上面表现不是很稳定，基本看运气。

MiniMax M2.1

我其实挺喜欢这家公司的，他们人不多。但是好几个业务做的挺有特色。视频生成啊，语音合成啊，都挺强。

但是，在 AI 编程这一块，可能还得努力努力。

从测试结果来看。

MiniMax-M2.1 运气也看不了，都失败了。

不是这里错，就是那里错，反正多少有点错误。

其中一个表盘设计的还不错。但是我基本可以断定，这是它瞎蒙的。

GPT-5.2

GPT看到Gemini Pro之后急急忙忙推出了5.2。有人说不如5.1。我自己感觉在讨论问题的时候，心智还不错。但是写代码我不是很确定，尤其是前端代码。

GPT-5.2 这UI还怪好看，可惜布局乱了！

第一个非常棒，我都开始拍手了。

第二个也挺好看，但是指针没了。

第三个也好的，但是指针乱了。

还是不够稳啊！

Doubao-Seed

字节的产品力实在是太强了，刚开始的豆包妥妥的垃圾，但是快速占领了市场。现在字节是全面开花，各种AI都搞。上次推出Seed-Code时候我其实已经测过一遍了。在这个问题上表现还不错。

这一次推出了Seed 1.8 再来测试一波。

字节的Doubao-Seed-1.8 表现让人意外。

表现太稳定了！

首先没有任何错误，其次每次生成样式大致相同。

我在测试其他任务的时候也是这种感觉，在它能力范围内的问题都非常稳健。但是它UI美观度好像一般般，不出众。

Claude-Opus-4.5

这是 Anthropic最强的模型，也是业内公认的编程实战最强的模型。我其实很少用这个模型，因为 Trae 上没有，充了年会员之后，连基础版Claude都被掐了。最近用上谷歌的 antigravity 才用 OPUS 跑了几次，直观感受就是很强，尤其是被其他模型折磨之后，再去用它，简直爽到飞起。

我这么夸它，不知道它有没有压力。

下面是Opus-4.5的结果：

看来有实力的人，是不会有压力的。

这绝对是大神级的存在，稳定性和美观程度都是吊打同行。

UI实在是太漂亮了！

数字定位别具一格（这算不算BUG啊），指针设计也很有层次感。

都说 Gemini3 的前端能力强，其实 Opus 也很强。

如果不考虑成本，Claude-Opus依旧是首选，而且是不用犹豫的那种！

所有人都要对标C，那么选C就对了。这个理论放之四海皆准！

小尾巴==========================
公众号：托尼不是塔克
 交流群
 知识星球
==============================

关于作者

tony

某人