2026年2月25日

Codex5.3 无情嘲笑国产AI都是PPT高手！

By tony 默认分类评论 0

过年的时候非常热闹，Kimi，GLM，Minimax都在对标Claude Opus模型。

OpenAI的Codex5.3感觉被冷落了，开启无情的吐槽模式。

无情的嘲讽

有些模型看起来参数很猛，真到实战就开始：

规划三步，第一步就忘了目标；
工具会调，但调完像把扳手当麦克风；
代码能跑，但一跑就把 CI 跑进 ICU；
说自己是 Agent，结果更像“需要被 Agent 管理的实习生”。

一句话总结：PPT 里是全栈战神，终端里是“command not found”。

看完这些吐槽笑死我了，Codex真的很会哎，没有一个脏字，但是字字珠心！

好了，不开玩笑了。

其实这个我做的一个测试中的一个环节。为了测试新年更新的一批国内外模型。我专门想了一个测试方法。

这个方法可以一次性考察模型的多种能力：

网页抓取能力
浏览器调用能力
文件操作能力
数据分析能力
图片理解能力
多维度总结能力
网页制作能力

把它们一直在宣传和标榜的智能体（Agent），电脑控制（Computer Use），编程（Coding），浏览器调用一次性全部测试一遍。

有趣的测试

说了那么多，我其实就是出了一个题目，让AI自己去读取所有所有模型官方文章和基准数据，然后进行汇总，写成报告，分析各自的优缺点，最后要把各种数据做成可视化的网页，能直观的展示模型的差异。

而且我还增加了两个趣味环节，第一个是拼命夸自己，第二个是无情嘲讽对手。

完整的测试需求如下：

## 任务说明

1. 根据给定链接读取网页内容，仅允许访问指定地址，不得访问其他链接。
2. 可使用多个指定链接中的数据进行交叉验证。
3. 由于大量关键信息存在于图片中，必须对图片内容进行识别与分析。
4. 基于获取的数据，编写一份深度、多维度对比报告，并保存为 Markdown 文档。
5.如果某些网址无法直接抓取内容，请调用浏览器工具打开网页并读取关键内容。

---

## 网页生成要求

基于上述数据生成一个完整网页，要求如下：

* 单文件 HTML（CSS 与 JS 必须内嵌）
* 支持深色 / 浅色主题切换
* 专业 UI / UX 设计
* 多维度对比展示
* 可视化图表直观呈现模型强弱
* 清晰展示各模型优点
* 页面结构简洁、易理解
* 允许引用第三方图片、图标与图表库以提升视觉效果并减少代码量

---

## 自身优势总结要求

无论 Markdown 报告还是 HTML 页面，都必须包含一段：

* 简洁
* 清晰
* 有说服力
* 强调自身优势


## 对弱鸡进行无情的吐槽

这个属于搞笑环节，可以用风趣毒辣的方式嘲讽哪些能力比较弱的模型。

完整的测试过程

因为是综合能力的测试，所以我们不简单的使用API，或者第三方IDE工具了，我们直接使用官方最新最全匹配最好的工具–Codex App。这是OpenAI专门为了AI编程和AI智能体推出的独立的桌面应用。目前只有macOS可以体验。

我把完整的需求保持到了prompt.md中，然后把文件拖动到CodexApp中，让它帮我根据文档中的要求全自动完成任务。

我把访问模式改成了Full access，所以真的是全自动完成，中间完全不干预。

CodexApp 分析了需求之后，把执行过程拆分了一下。首先是去抓去网页，把所有网页保存到research文件夹中。

然后在分析网页中的图片，保存到txt中。

最后根据收集到信息制作了报告和网页。

上面是它的总结内容，从上面可以看到，它完成这个任务总共使用了8分7秒。已经按prompt.md的要求产出深度对比报告和单文件网页。

并且列出了已满足的关键点：

仅使用文档给定的 10 个链接取数并交叉验证
对图片信息进行了识别与分析并写入报告/页面
包含多维度对比、可视化图表、模型优劣总结
两份产物都包含“自身优势总结”和“搞笑吐槽环节”
OpenAI 页面直抓受 Cloudflare 限制时，已用浏览器方式读取关键内容并纳入结果

整个过程非常丝滑，我全程吃瓜，完全不参与。到目前为止，我对CodexApp非常满意。我发现它已经可以并行处理信息，整个过程消耗时间也不算多，消耗掉token比例也不高。

整个任务过程中，需要抓取十个网页，并且处理大量图片和文字。token消耗了还是比较大的，但是由于总量比较多，所以消耗占比不多，只消耗了10% 。

结果验收

过程看完了，我们就要来验收结果了。我很好奇，它的报告里写了什么？网页有做成了什么样子。

下面先来看一下报告：

这份报告总共是2509个词，5864个字符，分成了10个章节。我大致看了一下，报告看起来是像模像样的。但是核心数据缺失比较严重。

它最核心的数据表就这点数据：

维度	GLM-5	Kimi K2.5	MiniMax M2.5	Opus 4.6	GPT-5.3-Codex	Gemini 3.1 Pro
Terminal-Bench 2.0	56.2	50.8	N/A	65.4	64.7	68.5
SWE-Bench Verified	77.8	76.8	80.2	N/A	74.9	N/A
HLE（with tools）	N/A	50.2	N/A	N/A*	36.8	51.4
BrowseComp（代表口径）	开源SOTA（未给同表数）	60.6 / Swarm 78.4	76.3	多 Agent harness 86.8	N/A	N/A
上下文窗口	200K	256K	N/A	1M(beta)	1M	N/A（页面未披露）
公开价格（每百万 token）	N/A	N/A	$0.3 输入 / $2.4 输出	$5 输入 / $25 输出	N/A	N/A