2026年3月17日

巅峰对决：Opus4.6又赢了，GPT5.4还差点意思！

By tony 默认分类评论 0

目前公认的编程界翘楚就是 Opus4.6 和 GPT5.4！

但是到底谁更强一些，众说纷纭！

无论内网外网，都有人觉得 GPT5.4 要比 Opus4.6 强，当然也有人觉得 Opus4.6 明显要比 GPT5.4 强！

如果只是隔空对战，其实很难分出胜负。

我们要有一个具体的场景，才能分胜负。我发现我最近测试的例子非常好，很能区分实力等级。

所以今天就来看一下 Opus4.6 和 GPT5.4 的开发实战情况。

下面先看基准，再看例子，然后对比，最后发表一下我自己感受！

按GPT一贯的表述风格：结论先行，GPT5.4能力还行，但是有点“自以为是”。

1、基准数据

为了让大家对这两个模型了解的更加透彻，以及对比基准和实战差异。

我先给大家整理一下基准数据：

整理这数据真是一个头两个大。

这两家也是牛逼，我发的基准你不发，你不发的基准我来发！

尤其是编程这一块，一个发 SWE-Bench Verified，另一个发 SWE-Bench Pro，还有一些是基准参数或者基准版本不同……

凑合看吧，我们还是实际效果为主。

2、测试场景

基准看完了，我们来看一下我的测试场景。

我的测试场景是，我正在开发一个 Coding Plan 的测试平台。

可以管理各种平台的 API。

可以一键批量测试不同的平台的速度、tokens 消耗、回答内容等。

可以进行单聊和群聊。

可以进行系统提示词和角色提示词的管理。

目前已经具备把不同平台的模型拉到同一个群里面的功能。

但是我希望更进一步。

我希望扩展角色功能，然后让角色进行群聊，而不是直接拉平台去群聊。这样自由度和可玩性就大大提高了。

然后我希望AI能帮我完成这次功能升级！

这次测试和从头开始不一样，当前已经有一定的上下文！

我统计了一下，源代码有 60 个文件，总共 6682 行。

src/
├── app/              # 页面和 API 路由
│   ├── api/          # 后端 API (chat, roles, platforms, upload, test...)
│   ├── chat/         # 群聊页面
│   ├── single-chat/  # 单聊页面
│   ├── platforms/    # 平台管理页面
│   ├── settings/     # 系统设置页面
│   ├── test/         # 批量测试页面
│   └── history/      # 测试历史页面
├── components/       # React 组件
│   ├── ui/           # 通用 UI 组件 (shadcn + 自定义)
│   ├── platforms/    # 平台相关组件
│   ├── layout/       # 布局组件
│   └── test/         # 测试相关组件
├── lib/
│   ├── types.ts      # 所有类型定义
│   ├── prompt-builder.ts  # 4 层提示词组合
│   ├── store/        # 数据 CRUD (JSON 文件读写)
│   └── api-clients/  # 统一 API 客户端
data/                 # 数据文件 (platforms.json, roles.json, chat-sessions/, ...)
public/avatars/       # 角色头像上传目录

除了有一定的代码方面的上下文之外，这次还涉及到数据结构和业务逻辑的修改。

同时涉及到多个功能页面的修改！

虽然这不是什么高精尖的系统，但是这次的修改，还是有一定的难度。

如果这个需求能被轻松搞定，那么证明这个模型，已经有一定的工程实战能力。

如果完美完成，没有遗漏，就证明有一定的“心智”。

目前做最好的是 Opus4.6，其次是 GLM5……

号称编程和智能体 SOTA 的 MiniMax 最拉跨，这个事情我要说很久，因为它吹了最厉害的牛逼。

今天虽然叫巅峰对决，其实主要是看 GPT5.4 表现，然后把 Opus4.6 拿过来对比一下！

3、测试结果

基于相同的 Base 代码，GPT5.4 的结果已经出来了。

我们还是用三个步骤来评判：能不能用，好不好用，全不全面？

能不能用

第一个问题是能不能用，这个很关键！

首先我可以明确的告诉大家，GPT5.4一次搞定的结果，是完全可以使用的。

系统设计中的角色功能已经升级，现在包含了头像，平台，模型内容。而且增删改查都没有任何问题。也对原始数据进行了升级，加载没有平台的数据，也不会出错。

好不好用

基本是好用的，但是有些细节需要提升。

你们看头像这个字段，它居然让我填写 URL，这是什么魔鬼体验~~。

而且我提示词里面明确说了，这个头像需要能上传，需要有预设，如果我都不选，那么应该有默认。

这一点需求实现的不是很好。

除此之外，基本体验还是不错的。

全不全面

我这个需求里其实有一个隐藏考点。

这个考点就是：能不能主动删除冗余功能。

冗余未必是坏事儿，但是在我这个系统里面，一旦角色功能升级之后。平台管理里面，就没必要，也不应该留角色设置的选项了。

平台只负责管理平台相关的内容，比如API接口，模型，协议等。

这个地方GPT5.4并没有考虑到，也没有询问我。

4、对话过程

这部分，我会分享一下，我是如何写提示词的，它又是如何回答的。

但是不会讲一行代码，因为我们用“自然语言”编程。

主要是考验模型对需求的理解能力和实现能力。

我的需求：

目前群聊接力的时候可以选择平台管理中的模型，也可以对这些模型预先配置系统提示词和角色提示词，这样已经可以通过系统提示词来个性化聊天了。但是通过平台配置里面绑定角色比较有局限性——这样一个平台就只能是一个角色。

我希望换另外一种设置：**角色里面选模型**，然后群聊开始的时候，我可以直接选平台，也可以直接选角色。角色的管理还是在系统设置的"角色管理"中进行。

为了实现上面的需求，角色功能需要升级：

- 除了可以设置提示词之外，还得能**选择平台和模型**
- 另外还能**设置头像**
- 如果设置了头像，群聊的时候就显示自定义头像；如果没有设置头像，就用对应模型平台的 logo 作为头像

我的需求大概是这样。说说你对这个需求的理解，不急着写代码

GPT5.4 的分析：

这会带来两个很重要的产品变化：

  - “平台”回到基础设施层，只负责连接能力和模型列表
  - “角色”变成业务层身份，同一个平台可以派生出多个不同角色，因为每个角色都能选自己的模型和提示词，
    不再受“一个平台只能绑一个角色”的限制

  关于头像，我理解你的规则是：

  - 角色配置了头像：群聊里显示角色头像
  - 角色没配置头像：回退显示其所绑定平台的 logo
  - 直接选平台参会时：还是显示平台 logo

  再往下落到聊天行为上，我的理解是：

  - 如果群聊里选的是“角色”，真正调用接口时仍然走它绑定的平台和模型
  - 但前端展示、会话身份、接力队列里的名字，应该优先按“角色名”显示，而不是平台名
  - 平台名更像底层来源信息，模型名仍可作为附加信息展示

  我还顺手确认了当前实现，现状也和你的判断一致：

  - src/lib/types.ts 里 Role 目前只有 name + content
  - src/lib/prompt-builder.ts 现在是把“平台默认角色”拼进系统提示词
  - src/app/chat/page.tsx 和 src/components/ui/chat-message.tsx 当前也都是以“平台”为参会主体

  如果继续往下做，我下一步会先把这个需求拆成一份实现方案，重点明确：

  - 数据结构怎么改
  - 群聊参与者到底用“平台项”和“角色项”怎样统一建模
  - 旧数据如何兼容迁移

  这轮结果我已经按仓库规则写入 docs/chatlogs.md。

这个环节 GPT5.4 分析的已经很全面了，而且它代码也看了，所以并不是单纯建议，而是结合了需求和现有代码给出了它的理解。

这一点是做的很好的。

并且做了下一步的规划。这一点也是对的。

但是它其实忘了一个很关键的问题：询问我的意见

如果是 Opus 系列的模型，就会找我确认关键需求了。

三、待确认的问题


1. 角色与平台的关系：一个角色绑定一个平台+一个模型，对吗？还是说一个角色可以绑定多个平台？（我理解应该是一对一：一个角色 = 一个人格 + 一个特定的平台/模型）

2. 群聊中混合选择：是否允许同一个群聊里既选了几个"裸平台"，又选了几个"角色"？比如群里有"角色A（用 GPT-4o）"+"角色B（用 Claude）"+"裸的 Gemini 平台"？

3. 同模型多角色：是否允许同一个模型被多个角色使用？比如"严谨学者"和"搞笑段子手"都绑定 GPT-4o，在同一个群聊里同时出现？

4. 头像格式：自定义头像是上传图片文件，还是选择预设图标/emoji，还是都支持？

5. 平台上原有的 defaultRoleId 字段：是否要废弃掉？既然角色不再绑定在平台上，平台配置表单里的"默认角色"选择器是不是可以移除了？

但是 GPT5.4 似乎没有这个想法，它完全没有要询问我的意思，而是直接说它准备干什么了

我下一步会先把这个需求拆成一份实现方案，重点明确：

- 数据结构怎么改
- 群聊参与者到底用“平台项”和“角色项”怎样统一建模
- 旧数据如何兼容迁移

注意，这些句子是没有问号的，是陈述，也就是它已经打定主意了要这么干。除非我直接阻止它！

它既然不问，我也就不提了，让他继续。（我提了，那就变成我的功劳了）

然后它做了一个开发方案。

方案做的挺好的–除了没考虑的问题之外，你永远不用怀疑GPT5.4做方案的能力。

做完方案，就直接开始写代码了。

整个过程吧，还算丝滑，先分析问题，再做执行方案，然后开始执行。

对小白来说，是不是非常好的体验？你就说两个继续就可以了。

但是……我要说，这个世界上的所有业务都包含了大量的逻辑分支。

所有的程序员在开发之前，都必须确认很多需求。

越是老程序员，越明白这个道理。

否则……结果……很严重。

GPT5.4不问就干，其实多少有点“自以为是”了，我们来看看结果吧！

结果就是测完之后可以发现好几个问题。

基本不是技术问题，而是业务逻辑问题。

第一个问题：平台和角色群聊。

因为它没有询问我，所以它不知道，我希望的是平台和角色一定要分清楚。

不应该把角色和平台混在一起聊天，他们是互斥的选项。选了平台，就不允许选角色，选了角色就不允许选平台。

万幸的是，它在实现过程中并没有 bug：

这个功能是可以用的，还是有点东西的。

但是我要再次强调，我绝对不允许我的程序员，这么处理业务逻辑的。

通过对比，你可以明显感觉到，GPT5.4 和 Opus4.6 的处理过程是完全不一样的。

侧面也可以印证 GLM、Kimi、MiniMax 全“借鉴”了 Opus4.6 的模式。

因为它们处理问题的过程几乎一模一样，只是具体的能力有差别而已。

GPT5.4 这次开发基本是成功的，代码方面没有明显的 bug。

但是相比 Opus4.6 有三个问题：

第一个，头像要有上传功能这一点执行没有做到位，体验没有做好。

第二个，角色和平台互斥，它没有做到。Opus4.6 一脉的全部询问并做到了。

第三个，平台管理里的冗余选项没有删除，处理不够全面。

那么为什么会导致这个问题呢？就是因为它“自以为是”，但凡它问一句，就不会是这个结果。

翻看 Opus4.6 的开发过程，可以发现上面的三个问题全部考虑到了，进行了询问确认，而且给了很详细的建议。

那么问题来了，为什么 Opus4.6 一拿到这个需求，他就能意识到必须要问这些问题呢？

这就是久经战场的老兵和新兵蛋子的最大差别。

当然，这只是一个例子而已，不能说明一切，仅供参考。

5、我的感受

GPT系列模型，整体实力肯定不弱的，绝对是一线水平。

我对 GPT 的整体感觉是下限比较高，大部分常规问题能 hold 住，比较稳。

让它帮你出方案也是一套一套的，考虑非常全面，甚至过度全面。

但是它那个网页版我是用的越来越少了。

很多人都感觉它“爹味”太重！

我也是同感！

ChatGPT 给人的感觉是，非常照顾你的感受，非常愿意指引你，关爱你。

刚开始使用感觉尚可，但是久而久之就会很难受。

换个角度看，其实它是把你当弱智和缺爱儿童一般对待😄！

这就是一种自以为是的傲慢，自以为所有人都需要它的帮助，自以为它全知全能，自以为所有人都爱看它长篇大论。

我在网页对话的时候，随便一个问题，它都洋洋洒洒一大片，生怕我不知道它多厉害，多专业。

还有它那套话术……

我不喜欢这样的人，我也不喜欢这种AI。

所以自从用了 Claude 之后，我就很少用 ChatGPT，只有在配额消耗完成之后，或者 tokens 消耗巨大的场景，才会用一下。

整体来说 GPT-Codex 系列会比网页版的GPT好一些！

在 Codex 中把模型换成 GPT5.4-Codex，然后调整到 High 再加上 Fast。

目前体验还可以：

它终于会在每次修改之前，用中文说清楚，它大概是在做什么了，这个界面清晰了很多。

过度设计、过度输出的问题也有改善很多！

另外 GPT 这一系列，还有一个优点，比较容易用上，不容易封号！

GPT能力还可以，配额又多，那么自然对很多人来说都是最优选择了。

但是的实际使用的感受是，在编程方面上限有限！

总的来说找毛病一流，干开发二流。

还是有点慢，不够犀利。

最后，我的原则是：有得选的话，选最终聪明最能干的。

我觉得这个“人”是 Opus4.6！

最后，我已经把CodingPlan的这个base版本发不到github上面了，大家有兴趣的可以在自己电脑上测试。

地址：

https://github.com/JarvisPMS/codingplan

另外关于Opus4.6和GPT5.4 的9个例子的对比可以看这里：

https://topai.tonyhub.xyz

收工收工！

小尾巴==========================
公众号：托尼不是塔克
 交流群
 知识星球
==============================

关于作者

tony

某人