AI提前过年!Codex 5.3 和Opus4.6 更新内容总结
今天一打开 X,就同时接收到两个重磅消,目前 AI 领域最强的两家公司同时发布更新!

大概在 8 个小时之前,Anthropic 发布了 Opus 4.6,OpenAI 发布了 GPT-5.3-Codex。
Opus 4.6 的公告已经获得了 509 万的浏览,GPT-5.3 是 149 万的浏览量。在技术领域一个帖子,能上百万,绝对是顶流了。AI 编程模型之间的厮杀已经白热化了。
Anthropic 和 OpenAI 也完全不装了,就是正面开干!
下面我们就来逐个分析一下,他们这一波更新到底更新了什么?
GPT-5.3-Codex
GPT-5.3-Codex 的更新公告非常简单,就一句话:
GPT-5.3-Codex is now available in Codex. You can just build things.
翻译过来就是:
GPT-5.3-Codex 现已在 Codex 中提供。您可以直接构建各种事物。
除此之外就放了一个博客的链接。这篇博客的内容还是挺长,我们要学会抓重点,重点就是放在最前面的部分。
博客的第一句话是:GPT-5.3-Codex,迄今为止功能最强大的智能编码模型。
博客的第二句话是:GPT-5.3-Codex,是我们第一个能够自我构建的模型。
放的第一张截图是:SWE-Bench Pro 的基准测试图:

SWE-Bench Pro 是一个用来测试 “真实软件工程修 Bug 能力” 的基准测试。就是给你一个真实开源项目 + 一个真实 Bug + CI 测试,你能不能像工程师一样把它修好并通过测试。
接下来是为了证明它的编程能力,举了两个例子。

一个是赛车游戏,一个是潜水游戏。
最后 OpenAI 又提了一下,说这不仅仅是一个编程模型,而且还能做很多其他事情。
第一个例子就是做 PPT。

果然 PPT 是兵家必争之地。
另外的例子是零售培训文档,净现值分析电子表格,时尚展示 PDF。
这属于 Office 的工作。
简单总结一下,OpenAI 这次更新主要是针对软件和办公场景。目前人群自然是软件工程师,还包括了设计师,产品经理,数据科学家,当然还有广大的 Office 打工人。
Opus 4.6
Claude 的公告内容是这样的:
Introducing Claude Opus 4.6. Our smartest model got an upgrade. Opus 4.6 plans more carefully, sustains agentic tasks for longer, operates reliably in massive codebases, and catches its own mistakes. It’s also our first Opus-class model with 1M token context in beta.
翻译一下就是:
介绍 Claude Opus 4.6。我们最智能的模型获得了升级。Opus 4.6 规划得更周密,能够更长时间地维持代理任务,在大型代码库中可靠运行,并能发现自己的错误。它还是我们首款 Opus 级模型,支持 100 万 token 上下文窗口,目前处于 beta 阶段。
除了文字内容之外,还配了一个视频,大概就是讲述各行各业人和工作都在使用 Claude。

Claude 的发布信息好像更多一些,更加深思熟虑一些。
从首条推文我就可以看出,Claude 提到了两个核心关键点,一个是规划更加周密,另一个是 100 万上下文。
这两个特点是懂的都懂,Claude Code 在补齐它的短板,木桶的装水量大幅上升。
除了首条推文之外,Claude 还跟了好几个官方推文。
第二条内容是:
Opus 4.6 在多项评估中均处于领先水平,包括智能编码、多学科推理、知识工作和智能搜索。我们还在 Claude in Excel、Claude in PowerPoint、Claude Code 和我们的 API 中发布了新功能,使 Opus 4.6 能够执行更多操作。

这个就说得非常细致了。
而且是毫不留情的把对手都给挂起来了。
Claude 家的模型在 13 项测试中只有 3 个短板,其他全是长板。
而 Gemini 和 GPT,只剩下在视觉和多语言方面有一些优势。
从这里可以看到 Claude 在所有智能体分类基准中都遥遥领先,智能体是真的能用的那种模型之上的另一个维度的能力。所以从这里看得出来,在工程实战中 Claude 真的是很强。
接下来,Claude 又重点展示了一下 表格,幻灯片,编程方面的能力。

从上面的介绍不难看出,他们已经到了短兵相接的地步了。全部在发力编程,办公两个重点场景。而且在各自补齐短板。
Opus 的关键提升:
| 特性 | Opus 4.5 | Opus 4.6 |
|---|---|---|
| 上下文窗口 | 200K tokens | 1M tokens(beta,约 75 万字 / 1500 页) |
| Agent 模式 | 单 Agent 串行 | Agent Teams(多 Agent 并行协作) |
| ARC AGI 2 | 37.6% | 68.8%(近乎翻倍) |
| MRCR v2(长上下文) | 18.5% | 76% |
| 自适应思维 | 无 | 根据任务复杂度自动调整推理深度 |
GPT-5.3 的关键提升:
| 特性 | GPT-5.2-Codex | GPT-5.3-Codex |
|---|---|---|
| 速度 | 基准 | 快 25% |
| Terminal-Bench 2.0 | 64.0% | 77.3% |
| OSWorld | 38.2% | 64.7% |
| SWE-Bench Pro | SOTA | 新 SOTA(行业最高) |
| 自我参与构建 | 无 | 首个参与自身构建的模型 |
OpenAI 在提升模型速度,Claude 在提升宏观规划能力。
大家可以根据自己的使用场景来选择:
| 场景 | 推荐模型 | 原因 |
|---|---|---|
| 复杂/开放性编程问题 | Opus 4.6 | 更高上限、更强探索能力 |
| 长时间自主编码任务 | Codex 5.3 | 可靠性更强、自主运行不退化 |
| 大型代码库理解 | Opus 4.6 | 1M 上下文窗口优势 |
| 日常稳定编码 | Codex 5.3 | 输出更可预测、更少意外 |
| 多学科推理/金融法律 | Opus 4.6 | 专业领域 Elo 评分更高 |
| 需要像人一样操作电脑 | Codex 5.3 | OSWorld 64.7% 领先 |
| 写作/文档生成 | Opus 4.5(而非 4.6) | 4.6 写作质量有争议性退化 |
| 快速原型/样式迭代 | Opus 4.6 | 速度更快、更有创意 |
目前看 OpenAI 在工程管理方面比较强,比如找 bug 啊,代码 review 啊,工程管理啊。
Claude 在工程实战和智能体方面已经强到可怕了。这次增强了规划能力和上下文,应该会很强。
官方博客: