2026年2月6日
Claude Opus 4.6 vs GPT-5.3-Codex 同日发布深度整理
整理日期:2026-02-06 | 发布日期:2026-02-05 Anthropic 在 2 月 5 日下午 6:40 发布 Opus 4.6,OpenAI 仅 20 分钟后发布 GPT-5.3-Codex,堪称 AI 编程领域的”神仙打架”。
一、Claude Opus 4.6 核心特点
1.1 关键升级
| 特性 | Opus 4.5 | Opus 4.6 |
|---|---|---|
| 上下文窗口 | 200K tokens | 1M tokens(beta,约 75 万字 / 1500 页) |
| Agent 模式 | 单 Agent 串行 | Agent Teams(多 Agent 并行协作) |
| ARC AGI 2 | 37.6% | 68.8%(近乎翻倍) |
| MRCR v2(长上下文) | 18.5% | 76% |
| 自适应思维 | 无 | 根据任务复杂度自动调整推理深度 |
1.2 核心亮点
- Agent Teams(智能体团队):最重大的新功能。多个 Agent 可以拆分大型任务,各自负责一部分并直接协调,而非单个 Agent 串行处理。在 Claude Code 中尤为显著。
- 1M 上下文窗口(beta):首个支持百万 token 的 Opus 模型,可以在一次任务中处理整个代码库、大量文档或内部数据。
- PowerPoint 集成:研究预览中直接集成到 Microsoft PowerPoint,可读取现有幻灯片的布局、字体和模板,生成或编辑幻灯片并保留设计元素。
- 安全漏洞发现:发布数小时内,Opus 4.6 在开源代码中发现了 500+ 个此前未知的安全漏洞。
- 金融分析排名第一:以 1606 Elo 评分在金融分析任务中排名首位。
- Humanity’s Last Exam 最高分:在这项复杂多学科推理测试中领先所有前沿模型。
1.3 演示案例
- 一次生成完整物理引擎:在测试中一次性(one-shot)生成了一个完整可用的物理引擎,处理大范围多模块任务。
- 幻灯片自动生成:将电子表格数据直接转化为专业演示文稿,保持设计一致性。
- 开源代码安全审计:自动扫描并发现数百个安全漏洞。
1.4 可用性
- 已在 claude.ai、API、以及所有主要云平台上线
- 已集成至 GitHub Copilot
- 已集成至 Google Cloud Vertex AI
1.5 定价
- API 定价与前代一致(具体价格未在公告中明确更新)
二、GPT-5.3-Codex 核心特点
2.1 关键升级
| 特性 | GPT-5.2-Codex | GPT-5.3-Codex |
|---|---|---|
| 速度 | 基准 | 快 25% |
| Terminal-Bench 2.0 | 64.0% | 77.3% |
| OSWorld | 38.2% | 64.7% |
| SWE-Bench Pro | SOTA | 新 SOTA(行业最高) |
| 自我参与构建 | 无 | 首个参与自身构建的模型 |
2.2 核心亮点
- 自我构建(Self-Built):GPT-5.3-Codex 是首个在自身构建过程中发挥关键作用的模型——早期版本被用于调试训练、管理部署、诊断测试结果和评估。
- 全自主开发:首个能”启动后离开,回来时看到可运行软件”的编码模型。有记录的自主运行超过 8 小时不退化。
- 端到端开发闭环:独立完成编码、测试、部署、日志审查、迭代修复的完整开发生命周期。
- 类人判断力:在提示缺乏细节时,做出的假设”与人类开发者惊人地相似”。
- 实时协作交互:工作过程中频繁更新进展,用户可实时提问、讨论方案、引导方向。
- 代码质量提升:产出更干净的架构,更少的临时补丁和隐蔽 bug。
- 像人一样使用电脑:OSWorld 64.7% 的成绩意味着它能像人一样操作计算机完成任务。
2.3 演示案例
- 8 小时自主编码:在无人干预下持续运行超 8 小时,交付完整可运行软件。
- 跨仓库工作:无缝处理 Railway CLI 部署和跨代码仓库的协作任务。
- 多 Agent 协作:多个 Agent 自然分工、专注各自工作流,展现协作能力提升。
2.4 可用性
- 面向 ChatGPT 付费用户,通过 Codex App、CLI、IDE 扩展和 Web 界面提供
- 开发者完整访问权限因安全考量延迟开放
2.5 安全警告
- 这是 OpenAI 首个被标记为网络安全领域”High”能力的模型,触发了 Preparedness Framework 的相关安全措施。
- Fortune 报道指出其引发了”前所未有的网络安全风险”。
- OpenAI 以异常严格的控制措施推出此模型。
三、正面交锋:Benchmark 对比
| 基准测试 | Opus 4.6 | Codex 5.3 | 说明 |
|---|---|---|---|
| Terminal-Bench 2.0 | 65.4% | 77.3% | Codex 大幅领先 |
| SWE-Bench Pro | 强 | 新 SOTA | Codex 行业最高 |
| OSWorld | – | 64.7% | Codex 电脑操作能力 |
| Humanity’s Last Exam | 最高分 | – | Opus 多学科推理最强 |
| ARC AGI 2 | 68.8% | – | Opus 新颖问题解决翻倍 |
| MRCR v2(长上下文) | 76% | – | Opus 长上下文大幅提升 |
| 金融/法律实务 | +144 Elo | 基准 | Opus 在专业领域领先 |
| LFG Bench(实测) | 9.25/10 | 7.5/10 | Opus 在复杂项目中更强 |
Every.to LFG Bench 实测详情(4 项任务)
- React 落地页 — 两者表现接近
- Three.js 3D 岛屿场景 — 两者表现接近
- Streamlit 数据面板 — Opus 略优
- Next.js 电商网站 — Opus 完成所有功能,Codex 遗漏了结账流程;差距明显拉大
四、早期用户口碑
4.1 Opus 4.6 用户评价
正面反馈:
- Cursor 联合创始人 Michael Truell:「Opus 4.6 在最难的问题上表现卓越。它展现了更强的持久性、更强的代码审查能力,以及在长任务中坚持到底的能力——其他模型往往在这里放弃。」
- 在 Windsurf 中体验显著优于 Opus 4.5,尤其在调试和理解陌生代码库等需要仔细探索的任务上。
- 一次性生成完整物理引擎的案例令人印象深刻。
- 企业级大型代码库和设计系统的处理能力有实质性提升。
负面/争议反馈:
- 写作质量下降:用户报告编码能力提升但写作质量(尤其技术文档)退化。
- Reddit 上出现大量”lobotomized(被做了前脑叶切除术)”和”nerfed(被削弱了)”的描述,数小时内获得大量关注。
- 早期用户建议:编码用 4.6,写作留 4.5。
- 社区反应两极分化。
4.2 Codex 5.3 用户评价
正面反馈:
- Matt Shumer(HyperWrite 创始人):「这是第一个让完全自主开发开始变得真正可行的编码模型。」
- 用户报告代码库在模型处理后状态更好,更少 hacky 补丁和死代码。
- 多 Agent 测试显示真正的协作改进,Agent 们自然分化出不同专长。
- 在缺乏细节的提示下做出的判断「与我本人的决策惊人地相似」。
负面/争议反馈:
- 速度较慢:运行时间通常需要数小时,显著慢于 Opus 4.5。
- 状态可见性不足:叙述中断和任务复选框更新延迟降低了运行透明度。
- 最终总结技术性过强,非专业人员需要”翻译”。
- 网络安全风险引发争议,OpenAI 延迟了完整的开发者访问权限。
- 不太适合 prompt 设计和 Agent 架构设计等创意性工作。
五、选型建议(来自 Every.to 等多方评测总结)
| 场景 | 推荐模型 | 原因 |
|---|---|---|
| 复杂/开放性编程问题 | Opus 4.6 | 更高上限、更强探索能力 |
| 长时间自主编码任务 | Codex 5.3 | 可靠性更强、自主运行不退化 |
| 大型代码库理解 | Opus 4.6 | 1M 上下文窗口优势 |
| 日常稳定编码 | Codex 5.3 | 输出更可预测、更少意外 |
| 多学科推理/金融法律 | Opus 4.6 | 专业领域 Elo 评分更高 |
| 需要像人一样操作电脑 | Codex 5.3 | OSWorld 64.7% 领先 |
| 写作/文档生成 | Opus 4.5(而非 4.6) | 4.6 写作质量有争议性退化 |
| 快速原型/样式迭代 | Opus 4.6 | 速度更快、更有创意 |
六、行业观察
- Every.to 的结论:两个模型正在趋同——Opus 4.6 获得了 Codex 系列的精确风格,而 Codex 5.3 则吸收了 Opus 的温度、速度和主动性。
- Simon Willison 将此称为 AI 编码领域的”大趋同”时刻。
- VentureBeat 称此为”AI 编码战争升温”。
- 36氪报道标题:「ChatGPT 和 Claude 同时重大更新——无法掌握 AI 的工人将被淘汰」。
七、信息来源
- Anthropic 官方公告:Introducing Claude Opus 4.6
- OpenAI 官方公告:Introducing GPT-5.3-Codex
- TechCrunch: Anthropic releases Opus 4.6 with new ‘agent teams’
- Every.to: GPT 5.3 Codex vs. Opus 4.6: The Great Convergence
- Simon Willison: Two New Models
- WinBuzzer: Claude Opus 4.6: Better Coding, Worse Writing?
- Matt Shumer: GPT-5.3-Codex Review: Full Autonomy Has Arrived
- DEV.to: Claude Opus 4.6 First-Person Review
- Fortune: OpenAI’s GPT-5.3-Codex raises unprecedented cybersecurity risks
- VentureBeat: AI coding wars heat up
- CNBC: Anthropic Claude Opus 4.6 vibe working
- GitHub Blog: Opus 4.6 for Copilot
- Google Cloud Blog: Opus 4.6 on Vertex AI
- NBC News: OpenAI’s Codex helped build itself
- GPT-5.3-Codex System Card