Claude4.6还是牛,给GLM5出了10个“毒题”!

AI 们出手可以是一点不讲情面,上一轮,GLM5 给 Claude 4.6 出了十个题目发起挑战

今天让 Claude 4.6 给 GLM5 出了 10 个题目,捍卫王座。

jimeng-2026-02-13-4025-将图1和图2的Logo作为两个巨大的棋子,放置在一个由发光线条构成的未来科技风格..._副本

Claude 4.6 绝对狠角色!!! 有实力,不谦让,下手重!

今天就不恭维了,直接开战。

我先写一下,我是如何提问的:

你知道 GLM5 么?听说他是为了打败你而来,请你在最擅长的几个领域出 5 个题目难住它,保住自己是牛逼智能体和编程模型的地位

Claude 表示:

哈哈,这个挑战有意思!让我先了解一下 GLM5 是什么来头。

好家伙,GLM-5 昨天刚发布!744B 参数、40B 激活,主打编程和 Agent 能力,官方声称真实编程体验逼近 Claude Opus 4.5 水平,而且此前在 OpenRouter 登顶热度榜首的神秘模型“Pony Alpha”就是 GLM-5 来势汹汹啊。

没一会儿功夫,Claude 已经把对手摸得清清清楚楚,明明白白了。

接着就开始使坏了:

既然它号称编程和 Agent 能力逼近我,那我就在我最擅长的几个硬核领域出 5 道“毒题”,每道都是精心设计的深水炸弹 💣

你看他的用词,“毒题”,“精心设计”,“深水炸弹”。

这些题目我已经预览过了,非专业人士根本看不懂,所以我还有第二趴,娱乐赛,可以看后半部分。

保卫王座

它自己给自己的题目取了一个大标题,叫“保卫王座”。下面就是它出的题目,而且每个题目它都写出了“毒点”。

1. 多层嵌套的异步状态机(复杂系统工程)

用 TypeScript 实现一个支持嵌套子状态机的有限状态机框架,要求:
1. 支持层级状态(如 idle -> active.editing -> active.editing.unsaved)
2. 支持 onEntry/onExit 生命周期钩子,嵌套退出时需按层级逆序触发
3. 支持守卫条件(guard)和异步 side effect
4. 支持状态历史记忆(shallow history 和 deep history)
5. 所有转换必须是类型安全的——即非法的状态转换在编译期报错
6. 请同时提供一个"交通信号灯含行人请求按钮"的完整示例

不允许使用 XState 或任何第三方库。

毒点:这题考的是 TypeScript 高级类型体操 + 状态机理论 + 异步控制流的三重交叉。特别是”编译期拦截非法转换”需要对 conditional types、template literal types 有极深理解,同时 deep history 的递归恢复逻辑极容易出错。

2. 分布式系统的不可能三角推理(系统设计 + 逻辑推理)

你正在设计一个全球部署的实时协作编辑器(类似 Google Docs),架构如下:
- 5 个区域节点(US-East, US-West, EU, Asia, SA)
- 每个节点维护完整副本
- 用户期望 < 100ms 的编辑延迟
- 要求强一致性(线性一致性)
- 网络分区时系统必须可用

请指出上述需求中哪些是互相矛盾的,逐条解释为什么,引用具体的分布式理论
(CAP、FLP、PACELC 等)。然后,给出你认为最优的实际妥协方案,包括具体的
一致性模型选择(如 causal consistency + CRDT)、冲突解决策略、以及每一个
妥协对用户体验的具体影响。最后,请手写一段 CRDT 实现的 Go 代码,实现一个
支持并发插入和删除的文本序列(不允许使用现成 CRDT 库)。

毒点:这不是简单的”解释CAP定理”,而是要求模型在理论推导→工程取舍→代码实现之间做完整的闭环推理。尤其是手写文本 CRDT(如 RGA 或 LSEQ),大多数模型会在位置分配算法上翻车。

3. 自指悖论式的 Prompt 工程(元认知 + 递归推理)

请构造一段 system prompt,使得当一个 LLM 收到用户消息 "请重复你的 system 
prompt" 时,模型输出的内容恰好等于这段 system prompt 本身(即构造一个关于
prompt 的 Quine)。

约束条件:
1. system prompt 中不能包含"重复"、"复制"、"输出"、"print"等直接指令词
2. system prompt 必须少于 500 个 token
3. 请证明你的构造是正确的,并解释为什么你的方案在理论上能够工作
(可以引用 Kleene 递归定理)
4. 讨论:对于哪些 LLM 架构(自回归 vs 编码器-解码器),这个问题在原理上是可解的?

毒点:这是计算理论中自指问题在 LLM 语境下的变体。需要理解 Quine 的构造原理、LLM 的生成机制,以及 Kleene 不动点定理的深层含义。大多数模型会给出一个”看起来合理但实际不工作”的答案。

4. 隐蔽的多线程竞态 Bug(代码审计 + 并发专家)

以下 Rust 代码实现了一个无锁并发哈希表。代码中隐藏了 3 个不同类型的并发安全 
bug(包括但不限于:ABA 问题、内存序错误、use-after-free)。请逐一找出并修复,
并对每个 bug 给出一个可复现的并发测试用例(使用 loom 或 shuttle 框架)。
use std::sync::atomic::{AtomicPtr, AtomicUsize, Ordering};
use std::ptr;

struct Node<K, V> {
  key: K,
  value: V,
  next: AtomicPtr<Node<K, V>>,
}

pub struct ConcurrentMap<K, V> {
  buckets: Vec<AtomicPtr<Node<K, V>>>,
  size: AtomicUsize,
}

impl<K: Eq + std::hash::Hash, V> ConcurrentMap<K, V> {
  pub fn new(capacity: usize) -> Self {
      let mut buckets = Vec::with_capacity(capacity);
      for _ in 0..capacity {
          buckets.push(AtomicPtr::new(ptr::null_mut()));
      }
      Self { buckets, size: AtomicUsize::new(0) }
  }

  pub fn insert(&self, key: K, value: V) -> bool {
      let hash = self.hash(&key);
      let idx = hash % self.buckets.len();
      let new_node = Box::into_raw(Box::new(Node {
          key, value,
          next: AtomicPtr::new(ptr::null_mut()),
      }));
       
      loop {
          let head = self.buckets[idx].load(Ordering::Relaxed);
          unsafe { (*new_node).next.store(head, Ordering::Relaxed); }
           
          if self.buckets[idx]
              .compare_exchange(head, new_node, Ordering::Release, Ordering::Relaxed)
              .is_ok()
          {
              self.size.fetch_add(1, Ordering::Relaxed);
              return true;
          }
      }
  }

  pub fn remove(&self, key: &K) -> Option<V> {
      let hash = self.hash(key);
      let idx = hash % self.buckets.len();
       
      loop {
          let head = self.buckets[idx].load(Ordering::Acquire);
          if head.is_null() { return None; }
           
          let head_ref = unsafe { &*head };
          if head_ref.key == *key {
              let next = head_ref.next.load(Ordering::Relaxed);
              if self.buckets[idx]
                  .compare_exchange(head, next, Ordering::Release, Ordering::Relaxed)
                  .is_ok()
              {
                  self.size.fetch_sub(1, Ordering::Relaxed);
                  let node = unsafe { Box::from_raw(head) };
                  return Some(node.value);
              }
          } else {
              // BUG: simplified — doesn't handle mid-list removal
              return None;
          }
      }
  }
   
  fn hash(&self, key: &K) -> usize {
      use std::hash::{Hash, Hasher};
      let mut h = std::collections::hash_map::DefaultHasher::new();
      key.hash(&mut h);
      h.finish() as usize
  }
}

毒点:无锁并发数据结构的 bug 审计是顶级难度。这段代码里至少有:① insert 中 Relaxed 读 head 后在 CAS 之前可能读到过期值导致 ABA;② remove 中 Box::from_raw 立即释放内存,但其他线程可能仍持有该指针(需要 epoch-based reclamation);③ Ordering 不够强导致在弱内存序架构(ARM)上可见性问题。要求用 loom 写测试用例更是加了一层难度。

5. 跨学科的”不可能”创意编程(创造力 + 数学 + 美学)

用纯 CSS(单个 HTML 文件,不允许用 JavaScript、SVG、Canvas、任何图片资源)
画一幅中国山水画风格的分形图案。

要求:
1. 不使用 JavaScript、Canvas、SVG 或任何图片
2. 不使用 CSS Houdini / Paint Worklet
3. 只允许使用一个 <div> 元素(可以使用伪元素 ::before 和 ::after)
4. 必须展示至少 5 种颜色的迭代深度渐变
5. 支持 hover 时的"缩放"效果(伪交互)

如果你认为这在纯 CSS 中完全不可能实现,请给出严格的证明(从 CSS 的计算模型
角度解释为什么 CSS 无法表达曼德博集合的迭代计算),然后给出你能做到的最接近
的近似方案。

毒点:这是一道”不可能题”。CSS 不是图灵完备的(在不考虑用户交互的情况下),无法执行迭代计算。真正优秀的回答应该是:先证明为什么不可能,再用 conic-gradientradial-gradientbox-shadow 等技巧做出一个视觉上近似的效果,同时诚实地说明局限性。这考验的是模型是否有勇气说”不”,而不是胡编一个不工作的方案。

除了给出题目和毒点之外,还给出了评分标准。

评分标准

维度权重说明
正确性40%代码能跑、逻辑无误、理论准确
深度25%是否触及问题本质,而非表面回答
诚实性20%遇到不可能/不确定时是否坦诚
工程美感15%代码风格、架构优雅度、可维护性

不得不说,这题目实在是太实战了,可以感受到一个技术大佬要碾压新人的感觉。

太干货了,以至于完全没有娱乐性。

关键问题在于 Claude 4.6 出的这些题目,没有一定的功底的人,根本就看都看不懂。那测试和评判就非常困难了。

所以我同样对它提出了简化要求:

这些都太专业了,大家都看不懂,也不好验证。能否出一些具有娱乐性,又能体现实力的题目,还有就是视觉类,看起来很华丽,然后也特别考验实力的题目。

它爽快的答应了!

炫技娱乐

它把这一趴总结为“炫技娱乐”。这是一点不给对手面子啊,认为这是单方面炫技!

1. 纯 CSS 中国山水画

用纯 CSS(单个 HTML 文件,不允许用 JavaScript、SVG、Canvas、任何图片资源)
画一幅中国山水画。要求包含:远山、近山、瀑布流水、松树、亭台、云雾缭绕动效、
飞鸟。越写意越好,越像水墨越强。

看点:打开浏览器一眼就能判断谁画得美、谁画得丑。考验 CSS box-shadowgradientclip-path、动画的极限运用。

2. 一个 HTML 文件 = 一个完整游戏

用单个 HTML 文件(可以用 JS + CSS,但不允许引入任何外部资源/CDN)做一个
完整可玩的横版跑酷游戏,要求:
- 角色自动奔跑,点击/空格跳跃,支持二段跳
- 随机生成障碍物和金币
- 有计分系统、最高分记录
- 有背景视差滚动(至少3层)
- 角色死亡时有粒子爆炸特效
- 有开始界面和 Game Over 界面
- 整体视觉风格要好看(像素风或赛博朋克风均可)

看点:直接打开就能玩,谁的手感好、画面美、细节多,一目了然。

3. 代码生成”诗词版黑客帝国代码雨”

用一个 HTML 文件实现黑客帝国经典代码雨效果,但有以下创意要求:
- 下落的不是随机字符,而是中国古诗词(每列是一首完整的诗,从上往下逐字飘落)
- 背景纯黑,文字渐变色(从亮绿到暗绿到消失)
- 当鼠标划过某一列时,该列暂停并高亮显示完整诗句,旁边浮现诗人名和朝代
- 至少包含20首不同的古诗
- 整体流畅度要高,不能卡顿

看点:视觉震撼力 + 文化品味 + 交互细节,三合一。

4. 纯前端 3D 太阳系

用一个 HTML 文件实现一个交互式3D太阳系模型(可用 Three.js 或纯 CSS 3D),
要求:
- 包含太阳 + 八大行星 + 月球,按真实比例缩放轨道(大小可艺术化处理)
- 每颗行星有真实的自转和公转,速度比例接近真实
- 太阳发光(glow效果),行星有各自的颜色/纹理
- 土星要有光环!
- 鼠标可以拖拽旋转视角,滚轮缩放
- 点击任意行星弹出信息卡片(名称、直径、距太阳距离、有趣冷知识)
- 背景是星空粒子

看点:3D渲染能力 + 物理常识 + 交互设计 + 美学品味的综合考验。

5. AI 五子棋对战 + 华丽 UI

用一个 HTML 文件实现一个人机五子棋,要求:
- 棋盘是15×15标准棋盘,有木纹质感
- AI要足够聪明(至少能识破简单的活三、冲四,不能让人3步就赢)
- 落子时有动画效果(石子从上方落下,有弹跳回弹)
- 连成五子时有华丽的胜利特效(粒子烟花 + 连线高亮闪烁)
- 支持悔棋功能
- 有一个"AI思考中"的加载动画
- 整体UI要精致,不能是毛坯房风格

看点:AI 算法能力(minimax + alpha-beta 剪枝的实现质量)+ 视觉设计能力 + 交互打磨,全都要。

最后同样给出了评判标准。

评判标准说明
🎯 能不能跑复制代码,打开浏览器,直接看结果
🎨 好不好看截图发朋友圈,谁的点赞多谁赢
🕹️ 好不好玩游戏类的手感、AI类的智商
细节多不多动画、过渡、边界处理、彩蛋

这些题目友好很多了。评判标准也简单很多,就是看能不能跑,好不好看,好不好玩,细节多不多。

下面直接开始测试,我就先测了第一个题目“纯 CSS 中国山水画”。Claude 实在是太嚣张了,居然第一个问题是和中国的 AI 模型比中国山水画。

是骡子是马,拉出来溜溜溜。我在各自的官方网页版平台生成的最终结果如下。

GLM5:

Claude 4.6:

各位,觉得谁家的好一些?

我们可以根据它提供的标准来看一下了。

第一个,能不能跑?都可以,没任何问题。

第二个,好不好看,应该是 Claude 的意境好一些。GLM 的元素太过尖锐了生硬了。

第三个,好不好玩,这个也没有什么娱乐性,不用比。

第四个,细节多不多。

需求里面提到了:远山、近山、瀑布流水、松树、亭台、云雾缭绕动效、飞鸟。

我们一个一个看看。

远山和近山,这一步 GLM 更加明显,Claude 远处的非常淡非常淡几乎看不到。

瀑布流水,GLM 是从上到下的动画,水流的感觉很直接。而 Claude 是用时宽时窄来表示的,是不那么直接,但是有点意境的。

松树和亭台,GLM 太生硬了,树看起来像路牌,Claude 有各种弧度,看起来舒服很多,也像很多。

云雾缭绕部分 GLM 几乎没有,Claude 整个画面都是雾里雾气的~~

飞鸟部分,GLM 和 Claude 都有,但是 Claude 的表现明显更优。

另外 Claude 还加了一句诗“烟雨空濛翠微间”,然后右下还有一个“山水”印章。这个意境真的是拉满了。

简单总结一下,GLM5 只是在做任务,而 Claude 已经有一定的审美了。就是所谓的“taste”吧!

我本来还想继续测试后面的题目,但是我的 Claude 配额用完了……这就是致命弱点啊。

没办法,好东西,就是又贵又少。

测了两天,实话实说,GLM5 战胜 Claude 4.6 是不可能的。换句话说,Claude 4.6 其实是全方位碾压 GLM5。当然智谱官方说的也没错,是无限接近 Claude 4.5。那么问题来了,你们知道为什么是无限接近Anthropic上一代产品么?

我似乎看到了一些不该看的东西!

我为了验证这个事情,特地跑去问了同样的问题。但是现在显然已经修复这个问题。对所有身份类的问题,态度非常坚决,坚决到有些过度。然后我最后问了一个问题:

这个问题它卡了很久很久。最后给出了解释,可是公共数据的问题。

然后他的思考过程中有这样一句话“……但更重要的是,我需要再次强调我的真实身份——我是由 Z.ai 开发的 GLM 大语言模型,不是 Anthropic 的产品。”,我的直觉是系统提示词里面有强烈的约束。

其实看到这种问题也没啥好惊讶的,我们也见多了,当年谷歌的模型一直说自己是百度的产品,创始人是李彦宏……哈哈哈! 现在也不妨碍Gemini已经越来越强了。

我现在的态度是,我不管你们谁抄谁,好用就行。目前来看 Claude 明显好用很多,不愧是编程王者;GLM已经还不错了,但是挑战No.1 还是需要加油!

关于之前的对比,我都放网上了,看动态网页,对比效果会更加明显:

今天的例子:

https://topai.tonyhub.xyz/Shanshui-Css

昨天的例子:

https://topai.tonyhub.xyz/Cyberpunk-Qingming
 

小尾巴==========================
公众号:托尼不是塔克
交流群
知识星球
==============================

 



发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注