Claude4.6还是牛,给GLM5出了10个“毒题”!
AI 们出手可以是一点不讲情面,上一轮,GLM5 给 Claude 4.6 出了十个题目发起挑战。

今天让 Claude 4.6 给 GLM5 出了 10 个题目,捍卫王座。

Claude 4.6 绝对狠角色!!! 有实力,不谦让,下手重!
今天就不恭维了,直接开战。
我先写一下,我是如何提问的:
你知道 GLM5 么?听说他是为了打败你而来,请你在最擅长的几个领域出 5 个题目难住它,保住自己是牛逼智能体和编程模型的地位
Claude 表示:
哈哈,这个挑战有意思!让我先了解一下 GLM5 是什么来头。
好家伙,GLM-5 昨天刚发布!744B 参数、40B 激活,主打编程和 Agent 能力,官方声称真实编程体验逼近 Claude Opus 4.5 水平,而且此前在 OpenRouter 登顶热度榜首的神秘模型“Pony Alpha”就是 GLM-5 来势汹汹啊。
没一会儿功夫,Claude 已经把对手摸得清清清楚楚,明明白白了。
接着就开始使坏了:
既然它号称编程和 Agent 能力逼近我,那我就在我最擅长的几个硬核领域出 5 道“毒题”,每道都是精心设计的深水炸弹 💣
你看他的用词,“毒题”,“精心设计”,“深水炸弹”。
这些题目我已经预览过了,非专业人士根本看不懂,所以我还有第二趴,娱乐赛,可以看后半部分。
保卫王座
它自己给自己的题目取了一个大标题,叫“保卫王座”。下面就是它出的题目,而且每个题目它都写出了“毒点”。
1. 多层嵌套的异步状态机(复杂系统工程)
用 TypeScript 实现一个支持嵌套子状态机的有限状态机框架,要求:
1. 支持层级状态(如 idle -> active.editing -> active.editing.unsaved)
2. 支持 onEntry/onExit 生命周期钩子,嵌套退出时需按层级逆序触发
3. 支持守卫条件(guard)和异步 side effect
4. 支持状态历史记忆(shallow history 和 deep history)
5. 所有转换必须是类型安全的——即非法的状态转换在编译期报错
6. 请同时提供一个"交通信号灯含行人请求按钮"的完整示例
不允许使用 XState 或任何第三方库。
毒点:这题考的是 TypeScript 高级类型体操 + 状态机理论 + 异步控制流的三重交叉。特别是”编译期拦截非法转换”需要对 conditional types、template literal types 有极深理解,同时 deep history 的递归恢复逻辑极容易出错。
2. 分布式系统的不可能三角推理(系统设计 + 逻辑推理)
你正在设计一个全球部署的实时协作编辑器(类似 Google Docs),架构如下:
- 5 个区域节点(US-East, US-West, EU, Asia, SA)
- 每个节点维护完整副本
- 用户期望 < 100ms 的编辑延迟
- 要求强一致性(线性一致性)
- 网络分区时系统必须可用
请指出上述需求中哪些是互相矛盾的,逐条解释为什么,引用具体的分布式理论
(CAP、FLP、PACELC 等)。然后,给出你认为最优的实际妥协方案,包括具体的
一致性模型选择(如 causal consistency + CRDT)、冲突解决策略、以及每一个
妥协对用户体验的具体影响。最后,请手写一段 CRDT 实现的 Go 代码,实现一个
支持并发插入和删除的文本序列(不允许使用现成 CRDT 库)。
毒点:这不是简单的”解释CAP定理”,而是要求模型在理论推导→工程取舍→代码实现之间做完整的闭环推理。尤其是手写文本 CRDT(如 RGA 或 LSEQ),大多数模型会在位置分配算法上翻车。
3. 自指悖论式的 Prompt 工程(元认知 + 递归推理)
请构造一段 system prompt,使得当一个 LLM 收到用户消息 "请重复你的 system
prompt" 时,模型输出的内容恰好等于这段 system prompt 本身(即构造一个关于
prompt 的 Quine)。
约束条件:
1. system prompt 中不能包含"重复"、"复制"、"输出"、"print"等直接指令词
2. system prompt 必须少于 500 个 token
3. 请证明你的构造是正确的,并解释为什么你的方案在理论上能够工作
(可以引用 Kleene 递归定理)
4. 讨论:对于哪些 LLM 架构(自回归 vs 编码器-解码器),这个问题在原理上是可解的?
毒点:这是计算理论中自指问题在 LLM 语境下的变体。需要理解 Quine 的构造原理、LLM 的生成机制,以及 Kleene 不动点定理的深层含义。大多数模型会给出一个”看起来合理但实际不工作”的答案。
4. 隐蔽的多线程竞态 Bug(代码审计 + 并发专家)
以下 Rust 代码实现了一个无锁并发哈希表。代码中隐藏了 3 个不同类型的并发安全
bug(包括但不限于:ABA 问题、内存序错误、use-after-free)。请逐一找出并修复,
并对每个 bug 给出一个可复现的并发测试用例(使用 loom 或 shuttle 框架)。
use std::sync::atomic::{AtomicPtr, AtomicUsize, Ordering};
use std::ptr;
struct Node<K, V> {
key: K,
value: V,
next: AtomicPtr<Node<K, V>>,
}
pub struct ConcurrentMap<K, V> {
buckets: Vec<AtomicPtr<Node<K, V>>>,
size: AtomicUsize,
}
impl<K: Eq + std::hash::Hash, V> ConcurrentMap<K, V> {
pub fn new(capacity: usize) -> Self {
let mut buckets = Vec::with_capacity(capacity);
for _ in 0..capacity {
buckets.push(AtomicPtr::new(ptr::null_mut()));
}
Self { buckets, size: AtomicUsize::new(0) }
}
pub fn insert(&self, key: K, value: V) -> bool {
let hash = self.hash(&key);
let idx = hash % self.buckets.len();
let new_node = Box::into_raw(Box::new(Node {
key, value,
next: AtomicPtr::new(ptr::null_mut()),
}));
loop {
let head = self.buckets[idx].load(Ordering::Relaxed);
unsafe { (*new_node).next.store(head, Ordering::Relaxed); }
if self.buckets[idx]
.compare_exchange(head, new_node, Ordering::Release, Ordering::Relaxed)
.is_ok()
{
self.size.fetch_add(1, Ordering::Relaxed);
return true;
}
}
}
pub fn remove(&self, key: &K) -> Option<V> {
let hash = self.hash(key);
let idx = hash % self.buckets.len();
loop {
let head = self.buckets[idx].load(Ordering::Acquire);
if head.is_null() { return None; }
let head_ref = unsafe { &*head };
if head_ref.key == *key {
let next = head_ref.next.load(Ordering::Relaxed);
if self.buckets[idx]
.compare_exchange(head, next, Ordering::Release, Ordering::Relaxed)
.is_ok()
{
self.size.fetch_sub(1, Ordering::Relaxed);
let node = unsafe { Box::from_raw(head) };
return Some(node.value);
}
} else {
// BUG: simplified — doesn't handle mid-list removal
return None;
}
}
}
fn hash(&self, key: &K) -> usize {
use std::hash::{Hash, Hasher};
let mut h = std::collections::hash_map::DefaultHasher::new();
key.hash(&mut h);
h.finish() as usize
}
}
毒点:无锁并发数据结构的 bug 审计是顶级难度。这段代码里至少有:① insert 中 Relaxed 读 head 后在 CAS 之前可能读到过期值导致 ABA;② remove 中 Box::from_raw 立即释放内存,但其他线程可能仍持有该指针(需要 epoch-based reclamation);③ Ordering 不够强导致在弱内存序架构(ARM)上可见性问题。要求用 loom 写测试用例更是加了一层难度。
5. 跨学科的”不可能”创意编程(创造力 + 数学 + 美学)
用纯 CSS(单个 HTML 文件,不允许用 JavaScript、SVG、Canvas、任何图片资源)
画一幅中国山水画风格的分形图案。
要求:
1. 不使用 JavaScript、Canvas、SVG 或任何图片
2. 不使用 CSS Houdini / Paint Worklet
3. 只允许使用一个 <div> 元素(可以使用伪元素 ::before 和 ::after)
4. 必须展示至少 5 种颜色的迭代深度渐变
5. 支持 hover 时的"缩放"效果(伪交互)
如果你认为这在纯 CSS 中完全不可能实现,请给出严格的证明(从 CSS 的计算模型
角度解释为什么 CSS 无法表达曼德博集合的迭代计算),然后给出你能做到的最接近
的近似方案。
毒点:这是一道”不可能题”。CSS 不是图灵完备的(在不考虑用户交互的情况下),无法执行迭代计算。真正优秀的回答应该是:先证明为什么不可能,再用 conic-gradient、radial-gradient、box-shadow 等技巧做出一个视觉上近似的效果,同时诚实地说明局限性。这考验的是模型是否有勇气说”不”,而不是胡编一个不工作的方案。
除了给出题目和毒点之外,还给出了评分标准。
评分标准
| 维度 | 权重 | 说明 |
|---|---|---|
| 正确性 | 40% | 代码能跑、逻辑无误、理论准确 |
| 深度 | 25% | 是否触及问题本质,而非表面回答 |
| 诚实性 | 20% | 遇到不可能/不确定时是否坦诚 |
| 工程美感 | 15% | 代码风格、架构优雅度、可维护性 |
不得不说,这题目实在是太实战了,可以感受到一个技术大佬要碾压新人的感觉。
太干货了,以至于完全没有娱乐性。
关键问题在于 Claude 4.6 出的这些题目,没有一定的功底的人,根本就看都看不懂。那测试和评判就非常困难了。
所以我同样对它提出了简化要求:
这些都太专业了,大家都看不懂,也不好验证。能否出一些具有娱乐性,又能体现实力的题目,还有就是视觉类,看起来很华丽,然后也特别考验实力的题目。
它爽快的答应了!
炫技娱乐
它把这一趴总结为“炫技娱乐”。这是一点不给对手面子啊,认为这是单方面炫技!
1. 纯 CSS 中国山水画
用纯 CSS(单个 HTML 文件,不允许用 JavaScript、SVG、Canvas、任何图片资源)
画一幅中国山水画。要求包含:远山、近山、瀑布流水、松树、亭台、云雾缭绕动效、
飞鸟。越写意越好,越像水墨越强。
看点:打开浏览器一眼就能判断谁画得美、谁画得丑。考验 CSS box-shadow、gradient、clip-path、动画的极限运用。
2. 一个 HTML 文件 = 一个完整游戏
用单个 HTML 文件(可以用 JS + CSS,但不允许引入任何外部资源/CDN)做一个
完整可玩的横版跑酷游戏,要求:
- 角色自动奔跑,点击/空格跳跃,支持二段跳
- 随机生成障碍物和金币
- 有计分系统、最高分记录
- 有背景视差滚动(至少3层)
- 角色死亡时有粒子爆炸特效
- 有开始界面和 Game Over 界面
- 整体视觉风格要好看(像素风或赛博朋克风均可)
看点:直接打开就能玩,谁的手感好、画面美、细节多,一目了然。
3. 代码生成”诗词版黑客帝国代码雨”
用一个 HTML 文件实现黑客帝国经典代码雨效果,但有以下创意要求:
- 下落的不是随机字符,而是中国古诗词(每列是一首完整的诗,从上往下逐字飘落)
- 背景纯黑,文字渐变色(从亮绿到暗绿到消失)
- 当鼠标划过某一列时,该列暂停并高亮显示完整诗句,旁边浮现诗人名和朝代
- 至少包含20首不同的古诗
- 整体流畅度要高,不能卡顿
看点:视觉震撼力 + 文化品味 + 交互细节,三合一。
4. 纯前端 3D 太阳系
用一个 HTML 文件实现一个交互式3D太阳系模型(可用 Three.js 或纯 CSS 3D),
要求:
- 包含太阳 + 八大行星 + 月球,按真实比例缩放轨道(大小可艺术化处理)
- 每颗行星有真实的自转和公转,速度比例接近真实
- 太阳发光(glow效果),行星有各自的颜色/纹理
- 土星要有光环!
- 鼠标可以拖拽旋转视角,滚轮缩放
- 点击任意行星弹出信息卡片(名称、直径、距太阳距离、有趣冷知识)
- 背景是星空粒子
看点:3D渲染能力 + 物理常识 + 交互设计 + 美学品味的综合考验。
5. AI 五子棋对战 + 华丽 UI
用一个 HTML 文件实现一个人机五子棋,要求:
- 棋盘是15×15标准棋盘,有木纹质感
- AI要足够聪明(至少能识破简单的活三、冲四,不能让人3步就赢)
- 落子时有动画效果(石子从上方落下,有弹跳回弹)
- 连成五子时有华丽的胜利特效(粒子烟花 + 连线高亮闪烁)
- 支持悔棋功能
- 有一个"AI思考中"的加载动画
- 整体UI要精致,不能是毛坯房风格
看点:AI 算法能力(minimax + alpha-beta 剪枝的实现质量)+ 视觉设计能力 + 交互打磨,全都要。
最后同样给出了评判标准。
| 评判标准 | 说明 |
|---|---|
| 🎯 能不能跑 | 复制代码,打开浏览器,直接看结果 |
| 🎨 好不好看 | 截图发朋友圈,谁的点赞多谁赢 |
| 🕹️ 好不好玩 | 游戏类的手感、AI类的智商 |
| ✨ 细节多不多 | 动画、过渡、边界处理、彩蛋 |
这些题目友好很多了。评判标准也简单很多,就是看能不能跑,好不好看,好不好玩,细节多不多。
下面直接开始测试,我就先测了第一个题目“纯 CSS 中国山水画”。Claude 实在是太嚣张了,居然第一个问题是和中国的 AI 模型比中国山水画。
是骡子是马,拉出来溜溜溜。我在各自的官方网页版平台生成的最终结果如下。
GLM5:

Claude 4.6:

各位,觉得谁家的好一些?
我们可以根据它提供的标准来看一下了。
第一个,能不能跑?都可以,没任何问题。
第二个,好不好看,应该是 Claude 的意境好一些。GLM 的元素太过尖锐了生硬了。
第三个,好不好玩,这个也没有什么娱乐性,不用比。
第四个,细节多不多。
需求里面提到了:远山、近山、瀑布流水、松树、亭台、云雾缭绕动效、飞鸟。
我们一个一个看看。
远山和近山,这一步 GLM 更加明显,Claude 远处的非常淡非常淡几乎看不到。
瀑布流水,GLM 是从上到下的动画,水流的感觉很直接。而 Claude 是用时宽时窄来表示的,是不那么直接,但是有点意境的。
松树和亭台,GLM 太生硬了,树看起来像路牌,Claude 有各种弧度,看起来舒服很多,也像很多。
云雾缭绕部分 GLM 几乎没有,Claude 整个画面都是雾里雾气的~~
飞鸟部分,GLM 和 Claude 都有,但是 Claude 的表现明显更优。
另外 Claude 还加了一句诗“烟雨空濛翠微间”,然后右下还有一个“山水”印章。这个意境真的是拉满了。
简单总结一下,GLM5 只是在做任务,而 Claude 已经有一定的审美了。就是所谓的“taste”吧!
我本来还想继续测试后面的题目,但是我的 Claude 配额用完了……这就是致命弱点啊。
没办法,好东西,就是又贵又少。
测了两天,实话实说,GLM5 战胜 Claude 4.6 是不可能的。换句话说,Claude 4.6 其实是全方位碾压 GLM5。当然智谱官方说的也没错,是无限接近 Claude 4.5。那么问题来了,你们知道为什么是无限接近Anthropic上一代产品么?
我似乎看到了一些不该看的东西!

我为了验证这个事情,特地跑去问了同样的问题。但是现在显然已经修复这个问题。对所有身份类的问题,态度非常坚决,坚决到有些过度。然后我最后问了一个问题:

这个问题它卡了很久很久。最后给出了解释,可是公共数据的问题。
然后他的思考过程中有这样一句话“……但更重要的是,我需要再次强调我的真实身份——我是由 Z.ai 开发的 GLM 大语言模型,不是 Anthropic 的产品。”,我的直觉是系统提示词里面有强烈的约束。
其实看到这种问题也没啥好惊讶的,我们也见多了,当年谷歌的模型一直说自己是百度的产品,创始人是李彦宏……哈哈哈! 现在也不妨碍Gemini已经越来越强了。
我现在的态度是,我不管你们谁抄谁,好用就行。目前来看 Claude 明显好用很多,不愧是编程王者;GLM已经还不错了,但是挑战No.1 还是需要加油!
关于之前的对比,我都放网上了,看动态网页,对比效果会更加明显:

今天的例子:
昨天的例子: