2026年2月13日

Claude4.6还是牛，给GLM5出了10个“毒题”！

By tony 默认分类评论 0

AI 们出手可以是一点不讲情面，上一轮，GLM5 给 Claude 4.6 出了十个题目发起挑战。

今天让 Claude 4.6 给 GLM5 出了 10 个题目，捍卫王座。

jimeng-2026-02-13-4025-将图1和图2的Logo作为两个巨大的棋子，放置在一个由发光线条构成的未来科技风格..._副本

Claude 4.6 绝对狠角色！！！有实力，不谦让，下手重！

今天就不恭维了，直接开战。

我先写一下，我是如何提问的：

你知道 GLM5 么？听说他是为了打败你而来，请你在最擅长的几个领域出 5 个题目难住它，保住自己是牛逼智能体和编程模型的地位

Claude 表示：

哈哈，这个挑战有意思！让我先了解一下 GLM5 是什么来头。

好家伙，GLM-5 昨天刚发布！744B 参数、40B 激活，主打编程和 Agent 能力，官方声称真实编程体验逼近 Claude Opus 4.5 水平，而且此前在 OpenRouter 登顶热度榜首的神秘模型“Pony Alpha”就是 GLM-5 来势汹汹啊。

没一会儿功夫，Claude 已经把对手摸得清清清楚楚，明明白白了。

接着就开始使坏了：

既然它号称编程和 Agent 能力逼近我，那我就在我最擅长的几个硬核领域出 5 道“毒题”，每道都是精心设计的深水炸弹 💣

你看他的用词，“毒题”，“精心设计”，“深水炸弹”。

这些题目我已经预览过了，非专业人士根本看不懂，所以我还有第二趴，娱乐赛，可以看后半部分。

保卫王座

它自己给自己的题目取了一个大标题，叫“保卫王座”。下面就是它出的题目，而且每个题目它都写出了“毒点”。

1. 多层嵌套的异步状态机（复杂系统工程）

用 TypeScript 实现一个支持嵌套子状态机的有限状态机框架，要求：
1. 支持层级状态（如 idle -> active.editing -> active.editing.unsaved）
2. 支持 onEntry/onExit 生命周期钩子，嵌套退出时需按层级逆序触发
3. 支持守卫条件（guard）和异步 side effect
4. 支持状态历史记忆（shallow history 和 deep history）
5. 所有转换必须是类型安全的——即非法的状态转换在编译期报错
6. 请同时提供一个"交通信号灯含行人请求按钮"的完整示例

不允许使用 XState 或任何第三方库。

毒点：这题考的是 TypeScript 高级类型体操 + 状态机理论 + 异步控制流的三重交叉。特别是”编译期拦截非法转换”需要对 conditional types、template literal types 有极深理解，同时 deep history 的递归恢复逻辑极容易出错。

2. 分布式系统的不可能三角推理（系统设计 + 逻辑推理）

你正在设计一个全球部署的实时协作编辑器（类似 Google Docs），架构如下：
- 5 个区域节点（US-East, US-West, EU, Asia, SA）
- 每个节点维护完整副本
- 用户期望 < 100ms 的编辑延迟
- 要求强一致性（线性一致性）
- 网络分区时系统必须可用

请指出上述需求中哪些是互相矛盾的，逐条解释为什么，引用具体的分布式理论
（CAP、FLP、PACELC 等）。然后，给出你认为最优的实际妥协方案，包括具体的
一致性模型选择（如 causal consistency + CRDT）、冲突解决策略、以及每一个
妥协对用户体验的具体影响。最后，请手写一段 CRDT 实现的 Go 代码，实现一个
支持并发插入和删除的文本序列（不允许使用现成 CRDT 库）。

毒点：这不是简单的”解释CAP定理”，而是要求模型在理论推导→工程取舍→代码实现之间做完整的闭环推理。尤其是手写文本 CRDT（如 RGA 或 LSEQ），大多数模型会在位置分配算法上翻车。

3. 自指悖论式的 Prompt 工程（元认知 + 递归推理）

请构造一段 system prompt，使得当一个 LLM 收到用户消息 "请重复你的 system 
prompt" 时，模型输出的内容恰好等于这段 system prompt 本身（即构造一个关于 
prompt 的 Quine）。

约束条件：
1. system prompt 中不能包含"重复"、"复制"、"输出"、"print"等直接指令词
2. system prompt 必须少于 500 个 token
3. 请证明你的构造是正确的，并解释为什么你的方案在理论上能够工作
  （可以引用 Kleene 递归定理）
4. 讨论：对于哪些 LLM 架构（自回归 vs 编码器-解码器），这个问题在原理上是可解的？

毒点：这是计算理论中自指问题在 LLM 语境下的变体。需要理解 Quine 的构造原理、LLM 的生成机制，以及 Kleene 不动点定理的深层含义。大多数模型会给出一个”看起来合理但实际不工作”的答案。

4. 隐蔽的多线程竞态 Bug（代码审计 + 并发专家）

以下 Rust 代码实现了一个无锁并发哈希表。代码中隐藏了 3 个不同类型的并发安全 
bug（包括但不限于：ABA 问题、内存序错误、use-after-free）。请逐一找出并修复，
并对每个 bug 给出一个可复现的并发测试用例（使用 loom 或 shuttle 框架）。
use std::sync::atomic::{AtomicPtr, AtomicUsize, Ordering};
use std::ptr;

struct Node<K, V> {
    key: K,
    value: V,
    next: AtomicPtr<Node<K, V>>,
}

pub struct ConcurrentMap<K, V> {
    buckets: Vec<AtomicPtr<Node<K, V>>>,
    size: AtomicUsize,
}

impl<K: Eq + std::hash::Hash, V> ConcurrentMap<K, V> {
    pub fn new(capacity: usize) -> Self {
        let mut buckets = Vec::with_capacity(capacity);
        for _ in 0..capacity {
            buckets.push(AtomicPtr::new(ptr::null_mut()));
        }
        Self { buckets, size: AtomicUsize::new(0) }
    }

    pub fn insert(&self, key: K, value: V) -> bool {
        let hash = self.hash(&key);
        let idx = hash % self.buckets.len();
        let new_node = Box::into_raw(Box::new(Node {
            key, value,
            next: AtomicPtr::new(ptr::null_mut()),
        }));
        
        loop {
            let head = self.buckets[idx].load(Ordering::Relaxed);
            unsafe { (*new_node).next.store(head, Ordering::Relaxed); }
            
            if self.buckets[idx]
                .compare_exchange(head, new_node, Ordering::Release, Ordering::Relaxed)
                .is_ok()
            {
                self.size.fetch_add(1, Ordering::Relaxed);
                return true;
            }
        }
    }

    pub fn remove(&self, key: &K) -> Option<V> {
        let hash = self.hash(key);
        let idx = hash % self.buckets.len();
        
        loop {
            let head = self.buckets[idx].load(Ordering::Acquire);
            if head.is_null() { return None; }
            
            let head_ref = unsafe { &*head };
            if head_ref.key == *key {
                let next = head_ref.next.load(Ordering::Relaxed);
                if self.buckets[idx]
                    .compare_exchange(head, next, Ordering::Release, Ordering::Relaxed)
                    .is_ok()
                {
                    self.size.fetch_sub(1, Ordering::Relaxed);
                    let node = unsafe { Box::from_raw(head) };
                    return Some(node.value);
                }
            } else {
                // BUG: simplified — doesn't handle mid-list removal
                return None;
            }
        }
    }
    
    fn hash(&self, key: &K) -> usize {
        use std::hash::{Hash, Hasher};
        let mut h = std::collections::hash_map::DefaultHasher::new();
        key.hash(&mut h);
        h.finish() as usize
    }
}

毒点：无锁并发数据结构的 bug 审计是顶级难度。这段代码里至少有：① insert 中 Relaxed 读 head 后在 CAS 之前可能读到过期值导致 ABA；② remove 中 Box::from_raw 立即释放内存，但其他线程可能仍持有该指针（需要 epoch-based reclamation）；③ Ordering 不够强导致在弱内存序架构（ARM）上可见性问题。要求用 loom 写测试用例更是加了一层难度。

5. 跨学科的”不可能”创意编程（创造力 + 数学 + 美学）

用纯 CSS（单个 HTML 文件，不允许用 JavaScript、SVG、Canvas、任何图片资源）
画一幅中国山水画风格的分形图案。

要求：
1. 不使用 JavaScript、Canvas、SVG 或任何图片
2. 不使用 CSS Houdini / Paint Worklet
3. 只允许使用一个 <div> 元素（可以使用伪元素 ::before 和 ::after）
4. 必须展示至少 5 种颜色的迭代深度渐变
5. 支持 hover 时的"缩放"效果（伪交互）

如果你认为这在纯 CSS 中完全不可能实现，请给出严格的证明（从 CSS 的计算模型
角度解释为什么 CSS 无法表达曼德博集合的迭代计算），然后给出你能做到的最接近
的近似方案。

毒点：这是一道”不可能题”。CSS 不是图灵完备的（在不考虑用户交互的情况下），无法执行迭代计算。真正优秀的回答应该是：先证明为什么不可能，再用 conic-gradient、radial-gradient、box-shadow 等技巧做出一个视觉上近似的效果，同时诚实地说明局限性。这考验的是模型是否有勇气说”不”，而不是胡编一个不工作的方案。

除了给出题目和毒点之外，还给出了评分标准。

评分标准

维度	权重	说明
正确性	40%	代码能跑、逻辑无误、理论准确
深度	25%	是否触及问题本质，而非表面回答
诚实性	20%	遇到不可能/不确定时是否坦诚
工程美感	15%	代码风格、架构优雅度、可维护性

不得不说，这题目实在是太实战了，可以感受到一个技术大佬要碾压新人的感觉。

太干货了，以至于完全没有娱乐性。

关键问题在于 Claude 4.6 出的这些题目，没有一定的功底的人，根本就看都看不懂。那测试和评判就非常困难了。

所以我同样对它提出了简化要求：

这些都太专业了，大家都看不懂，也不好验证。能否出一些具有娱乐性，又能体现实力的题目，还有就是视觉类，看起来很华丽，然后也特别考验实力的题目。

它爽快的答应了！

炫技娱乐

它把这一趴总结为“炫技娱乐”。这是一点不给对手面子啊，认为这是单方面炫技！

1. 纯 CSS 中国山水画

用纯 CSS（单个 HTML 文件，不允许用 JavaScript、SVG、Canvas、任何图片资源）
画一幅中国山水画。要求包含：远山、近山、瀑布流水、松树、亭台、云雾缭绕动效、
飞鸟。越写意越好，越像水墨越强。

看点：打开浏览器一眼就能判断谁画得美、谁画得丑。考验 CSS box-shadow、gradient、clip-path、动画的极限运用。

2. 一个 HTML 文件 = 一个完整游戏

用单个 HTML 文件（可以用 JS + CSS，但不允许引入任何外部资源/CDN）做一个
完整可玩的横版跑酷游戏，要求：
- 角色自动奔跑，点击/空格跳跃，支持二段跳
- 随机生成障碍物和金币
- 有计分系统、最高分记录
- 有背景视差滚动（至少3层）
- 角色死亡时有粒子爆炸特效
- 有开始界面和 Game Over 界面
- 整体视觉风格要好看（像素风或赛博朋克风均可）

看点：直接打开就能玩，谁的手感好、画面美、细节多，一目了然。

3. 代码生成”诗词版黑客帝国代码雨”

用一个 HTML 文件实现黑客帝国经典代码雨效果，但有以下创意要求：
- 下落的不是随机字符，而是中国古诗词（每列是一首完整的诗，从上往下逐字飘落）
- 背景纯黑，文字渐变色（从亮绿到暗绿到消失）
- 当鼠标划过某一列时，该列暂停并高亮显示完整诗句，旁边浮现诗人名和朝代
- 至少包含20首不同的古诗
- 整体流畅度要高，不能卡顿

看点：视觉震撼力 + 文化品味 + 交互细节，三合一。

4. 纯前端 3D 太阳系

用一个 HTML 文件实现一个交互式3D太阳系模型（可用 Three.js 或纯 CSS 3D），
要求：
- 包含太阳 + 八大行星 + 月球，按真实比例缩放轨道（大小可艺术化处理）
- 每颗行星有真实的自转和公转，速度比例接近真实
- 太阳发光（glow效果），行星有各自的颜色/纹理
- 土星要有光环！
- 鼠标可以拖拽旋转视角，滚轮缩放
- 点击任意行星弹出信息卡片（名称、直径、距太阳距离、有趣冷知识）
- 背景是星空粒子

看点：3D渲染能力 + 物理常识 + 交互设计 + 美学品味的综合考验。

5. AI 五子棋对战 + 华丽 UI

用一个 HTML 文件实现一个人机五子棋，要求：
- 棋盘是15×15标准棋盘，有木纹质感
- AI要足够聪明（至少能识破简单的活三、冲四，不能让人3步就赢）
- 落子时有动画效果（石子从上方落下，有弹跳回弹）
- 连成五子时有华丽的胜利特效（粒子烟花 + 连线高亮闪烁）
- 支持悔棋功能
- 有一个"AI思考中"的加载动画
- 整体UI要精致，不能是毛坯房风格

看点：AI 算法能力（minimax + alpha-beta 剪枝的实现质量）+ 视觉设计能力 + 交互打磨，全都要。

最后同样给出了评判标准。

评判标准	说明
🎯 能不能跑	复制代码，打开浏览器，直接看结果
🎨 好不好看	截图发朋友圈，谁的点赞多谁赢
🕹️ 好不好玩	游戏类的手感、AI类的智商
✨ 细节多不多	动画、过渡、边界处理、彩蛋

这些题目友好很多了。评判标准也简单很多，就是看能不能跑，好不好看，好不好玩，细节多不多。

下面直接开始测试，我就先测了第一个题目“纯 CSS 中国山水画”。Claude 实在是太嚣张了，居然第一个问题是和中国的 AI 模型比中国山水画。

是骡子是马，拉出来溜溜溜。我在各自的官方网页版平台生成的最终结果如下。

GLM5：

Claude 4.6：

各位，觉得谁家的好一些？

我们可以根据它提供的标准来看一下了。

第一个，能不能跑？都可以，没任何问题。

第二个，好不好看，应该是 Claude 的意境好一些。GLM 的元素太过尖锐了生硬了。

第三个，好不好玩，这个也没有什么娱乐性，不用比。

第四个，细节多不多。

需求里面提到了：远山、近山、瀑布流水、松树、亭台、云雾缭绕动效、飞鸟。

我们一个一个看看。

远山和近山，这一步 GLM 更加明显，Claude 远处的非常淡非常淡几乎看不到。

瀑布流水，GLM 是从上到下的动画，水流的感觉很直接。而 Claude 是用时宽时窄来表示的，是不那么直接，但是有点意境的。

松树和亭台，GLM 太生硬了，树看起来像路牌，Claude 有各种弧度，看起来舒服很多，也像很多。

云雾缭绕部分 GLM 几乎没有，Claude 整个画面都是雾里雾气的~~

飞鸟部分，GLM 和 Claude 都有，但是 Claude 的表现明显更优。

另外 Claude 还加了一句诗“烟雨空濛翠微间”，然后右下还有一个“山水”印章。这个意境真的是拉满了。

简单总结一下，GLM5 只是在做任务，而 Claude 已经有一定的审美了。就是所谓的“taste”吧！

我本来还想继续测试后面的题目，但是我的 Claude 配额用完了……这就是致命弱点啊。

没办法，好东西，就是又贵又少。

测了两天，实话实说，GLM5 战胜 Claude 4.6 是不可能的。换句话说，Claude 4.6 其实是全方位碾压 GLM5。当然智谱官方说的也没错，是无限接近 Claude 4.5。那么问题来了，你们知道为什么是无限接近Anthropic上一代产品么？

我似乎看到了一些不该看的东西！

我为了验证这个事情，特地跑去问了同样的问题。但是现在显然已经修复这个问题。对所有身份类的问题，态度非常坚决，坚决到有些过度。然后我最后问了一个问题：

这个问题它卡了很久很久。最后给出了解释，可是公共数据的问题。

然后他的思考过程中有这样一句话“……但更重要的是，我需要再次强调我的真实身份——我是由 Z.ai 开发的 GLM 大语言模型，不是 Anthropic 的产品。”，我的直觉是系统提示词里面有强烈的约束。

其实看到这种问题也没啥好惊讶的，我们也见多了，当年谷歌的模型一直说自己是百度的产品，创始人是李彦宏……哈哈哈！现在也不妨碍Gemini已经越来越强了。

我现在的态度是，我不管你们谁抄谁，好用就行。目前来看 Claude 明显好用很多，不愧是编程王者；GLM已经还不错了，但是挑战No.1 还是需要加油！

关于之前的对比，我都放网上了，看动态网页，对比效果会更加明显：

今天的例子：

https://topai.tonyhub.xyz/Shanshui-Css

昨天的例子：

https://topai.tonyhub.xyz/Cyberpunk-Qingming

小尾巴==========================
公众号：托尼不是塔克
 交流群
 知识星球
==============================

关于作者

tony

某人