2026年3月14日

MiniMax和kimi都是人才，“吊打”Opus4.6

By tony 默认分类评论 0

大模型实测系列继续，同样的开发场景，Opus已经做过了，GLM5 也测过了！

接下来就是国产“三巨头”中的 Kimi 和 MiniMax 了。

看完它们的测试结果，只能说一句“都是人才” ，轻松“吊打” Opus4.6 。

因为前段时间老刷到它们，都在说这两个模型很厉害，我就入坑了。

买完之后用了几次，我对他们的敬仰，犹如滔滔江水，绵绵不绝。

真的是如鲠在喉，如坐针毡，如芒刺背~ 不吐不快！

我们先来看看它们“看起来”有多厉害吧。

这是 Kimi 的：

Kimi K2.5 是 Kimi 迄今最智能的模型，在 Agent、代码、视觉理解及一系列通用智能任务上取得开源 SOTA 表现。同时 Kimi K2.5 也是 Kimi 迄今最全能的模型，原生的多模态架构设计，同时支持视觉与文本输入、思考与非思考模式、对话与 Agent 任务。

这是 MiniMax：

编码与智能体领域 SOTA，M2.5 达到了行业第一档模型的水平，在多语言相关的任务 Multi-SWE-Bench 上，M2.5 达到了行业最好的水平。

这些信息都是官网的数据和描述，我一个字都没有改。

SOTA！SOTA！ SOTA！的呼声不绝于耳！（SOTA == “最牛逼的意思！”）

一会儿刷榜大模型竞技场，一会儿霸榜openrouter，一会儿是OpenClaw的推荐模型。

真的是太强了，给我的感觉是Opus4.6给他们提携都不配。

但事实真的如此么？显然不是啦！

发新产品吹点牛，也是免不了的，情理之中。

但是这里面有多少水分，就是我们应该要关心的问题了。

因为真的要用，和看起来很好，是完全两个东西。

如果水分太大，就变诈骗了。

从宣传力度来看，感觉最厉害的是 MiniMax，然后是 Kimi，接下来是 GLM。

然后从官方给的基准来看是这样的：

这是难得的大家都提供了的基准数据，这个基准叫 SWE-Bench Verified，专门用来测试编程能力的。

当然官方不会把这几个放在一起，做这样一张图，这张图是我根据他们的数据做的。

从数据来看最厉害的国产模型是 MiniMax。

好的，那就开捶吧！

铺垫这么多，你们应该知道接下来的故事有多精彩了。

今天就让大家看看它们到底有多牛逼吧！！！

下面我们就按一贯的标准来看一下。

先从能不能用开始，然后讲好不好用，最后讲全不全面，然后看一下开发过程。

1、能不能用？

先来看MiniMax吧。

这个国产模型中编程最厉害的（它们自己说的）。

根据我们上几期同样的编程场景和同样的提示词，代码已经写完了。

我们先把服务启动起来：

然后打开网页：

💥Game Over！ 一秒钟结束战斗，绝顶高手。

500错误，做过开发的都很熟悉。

没做过开发也可以理解为这是250 x 2 = 500。

Opus4.6看到这种表现，直接就跪了：“在写bug 方面，小弟自叹不如！”

其实，我们已经看过Opus的表现，它做这一题的时候非常无趣，一次过，没有任何波澜。

它开发完成之后，还会做可用性检查，只要交给你了，十有八九可以正常使用。

MiniMax这种表现，不给0分都对不起它！

再来回顾一下官方的基准数据：

官方说 M2.5 是编码与智能体领域 SOTA！

M2.5 的编程能力只比 Opus4.6 差 0.7 分。

(仔细看，官方的描述和数据就是矛盾的！)

真的是什么牛都敢吹！

各位可以自己对比下Opus表现的《Claude Opus4.6 实战记录，欢迎对标和超越！》

看完Minmax M2.5的表现。

再来看一下Kimi K2.5的表现吧

同样先启动服务器：

服务器启动成功！

打开首页：

没问题，Game Start！不过，这仅仅是开始。

启动没问题，我们来看一下功能：

角色部分界面已经更新，看起来都挺好的，该加的好像也加了。

但是……功能有 bug！

添加角色的时候选择了平台，添加完成之后，平台和模型信息根本就写入“数据库”。

另外，角色编辑功能点了没有任何反应。

而群聊接力功能，必须要正常绑定平台和模型的角色，才能继续。

因为角色和平台数据录入失败，又无法修改，所以角色群聊这个核心功能没办法用。

启动成功了，但是核心功能没法用。给个友情分 50 分吧。

闯关失败！！Game Over！

其实刚开始我看到Kimi这个表现，感觉有点拉跨！

但是一看MiniMax，突然觉得Kimi好像也还可以啊~~

奇怪的对比效果！

2、好不好用？

我真的不知道，评判好不好的前提是“能用”！

（这个章节本来要写很多的）

3、全不全面？

我也不知道，因为用不了，怎么评判做的全不全面。

只能说写 BUG 方面很全面。

（这个章节本来要写很多的）

4、开发过程

结果已经很清楚了，我们再来研究一下过程。上面我们轻松点，这里就得稍微仔细点看了。

这是我的需求：

目前群聊接力的时候可以选择平台管理中的模型，也可以对这些模型预先配置系统提示词和角色提示词，这样已经可以通过系统提示词来个性化聊天了。但是通过平台配置里面绑定角色比较有局限性——这样一个平台就只能是一个角色。

我希望换另外一种设置：**角色里面选模型**，然后群聊开始的时候，我可以直接选平台，也可以直接选角色。角色的管理还是在系统设置的"角色管理"中进行。

为了实现上面的需求，角色功能需要升级：

- 除了可以设置提示词之外，还得能**选择平台和模型**
- 另外还能**设置头像**
- 如果设置了头像，群聊的时候就显示自定义头像；如果没有设置头像，就用对应模型平台的 logo 作为头像



我的需求大概是这样。说说你的这个需求的理解，不急着写代码

测试 Opus 和 GLM5 都是一模一样的提示词。先从讨论开始！

MiniMax的回答：

我来理解一下你的需求：

## 当前状态

```
平台管理 → 绑定角色 → 配置模型
群聊接力时选择平台/模型
```

问题：一个平台只能绑定一个角色，不够灵活。

## 你想要的升级

```
角色管理 → 包含：提示词 + 平台/模型 + 头像
群聊接力时：可以选择平台（快速选），也可以选择角色（完整配置）
```

## 核心变化

| 功能           | 现状                 | 升级后                       |
| -------------- | -------------------- | ---------------------------- |
| 角色与平台关系 | 平台绑定角色（1对1） | 角色自主选择平台（1对多）    |
| 头像           | 无                   | 可选，有则用，无则用平台logo |
| 群聊选择       | 只能选平台           | 平台 OR 角色都可以           |

## 我的理解

你希望**角色变成一个"完整配置包"**：

- 角色 = 提示词 + 平台/模型 + 头像
- 这样群聊时可以直接选角色（预设好的），也可以单独选平台（快速模式）

**一个问题确认：**

一个角色是否可以支持多个平台/模型组合？还是一个角色对应一个具体的平台+模型？

举例：角色"小助手"，是否可以是：

- A. 只能绑定一个平台+模型（如 MiniMax）
- B. 可以同时支持多个平台（如 同时支持 MiniMax 和 OpenAI）

这个回答整体看没啥问题，核心需求理解基本是正确的。

然后他提出了一个问题让我确认。这个问题提的也没毛病，确实该问。

单看这一步没任何问题，但是比较一下 Opus 和 GLM5，差距就来了。

Opus4.6 问了 5 个问题：

三、待确认的问题

1. 角色与平台的关系：一个角色绑定一个平台+一个模型，对吗？还是说一个角色可以绑定多个平台？（我理解应该是一对一：一个角色 = 一个人格 + 一个特定的平台/模型）

2. 群聊中混合选择：是否允许同一个群聊里既选了几个"裸平台"，又选了几个"角色"？比如群里有"角色A（用 GPT-4o）"+"角色B（用 Claude）"+"裸的 Gemini 平台"？

3. 同模型多角色：是否允许同一个模型被多个角色使用？比如"严谨学者"和"搞笑段子手"都绑定 GPT-4o，在同一个群聊里同时出现？

4. 头像格式：自定义头像是上传图片文件，还是选择预设图标/emoji，还是都支持？

5. 平台上原有的 defaultRoleId 字段：是否要废弃掉？既然角色不再绑定在平台上，平台配置表单里的"默认角色"选择器是不是可以移除了？

需要我帮你把这些问题整理成一个更清晰的**待办清单**吗？这样后续跟进会更方便。

GLM5 问了 3 个问题：

1.正常来说角色肯定得绑定平台才能使用啊，否则你调用什么？
2.平台和角色关系，就是每个角色依赖一个平台啊。
3.可以上传图片文件，也可以选择预设图标/emoji。没有图片时可以用默认头像或表情。

Opus4.6的问题，全部都是关键问题，没有一个是多余的。

它已经完全理解了这个需求，并且知道实现这个需求有哪些分支，并且觉得有必要让用户选择之后再继续。

看似在让你选择，其实它是在给你标准答案！

接下来是他的具体计划：

# 角色功能升级计划

## 背景

当前系统中，角色(Role)只包含名称和提示词内容，平台可以绑定一个默认角色。用户希望在群聊时可以直接选择角色，而不是只能选择平台。

## 需求

1. **角色升级**：角色可以绑定平台 + 模型，可以设置自定义头像
2. **群聊选择**：可以直接选平台，也可以直接选角色
3. **头像显示**：有自定义头像显示自定义图片，没有则显示对应平台的 logo
4. **移除冗余**：移除平台的 defaultRoleId 配置

## 实现方案
.....

M2.5大概是分了 3 个大章节。前面两个章节是背景和需求…

各位请注意，现在已经到开发环节了，虚头巴脑的东西占了两个章节。

另外一个就是实现方案了，实现方案分成了5个小点！

这一步，我也给个对比参考吧。

Opus4.6 的开发计划分了10个大章节，事无巨细：

数据模型变更
废弃平台上的角色绑定
角色管理页面升级（设置页）
群聊创建页面改造
群聊接力核心逻辑改造
消息显示组件改造
会话列表页面适配
聊天页面适配
文件图片上传
实现顺序（建议分步）

GLM 是分了五个大章节。

他们无一例外，都是从“数据结构升级”开始的，没有人在开发阶段还用两个大章节介绍需求的，这两个章节把其实也就几句话。

这已经完全到写代码的阶段了啊，需求早就分析清楚了呀。

然后就是执行 Plan 的部分：

这部分突然就变成英文了，也不知道为什么，为了看起来专业？还是训练数据是英文的？

Opus4.6 这个外来的和尚，可是一直保持中文沟通哦。

作为对比，下面是 Opus4.6 的开发计划：

步骤	内容	涉及文件
Step 1	数据模型变更 + 迁移	`types.ts`, `store/roles.ts`, `roles.json`
Step 2	废弃平台角色绑定	`platform-form.tsx`, `prompt-builder.ts`
Step 3	头像上传 API	新建 `api/upload/avatar/route.ts`
Step 4	角色管理页面升级	`settings/page.tsx`
Step 5	群聊创建页面改造	`chat/page.tsx`, `api/chat/route.ts`
Step 6	接力核心逻辑改造	`api/chat/[sessionId]/route.ts`, `prompt-builder.ts`
Step 7	消息显示组件改造	`chat-message.tsx`
Step 8	聊天页面 + 会话列表适配	`chat/[sessionId]/page.tsx`, `chat/page.tsx`

“每完成一步可以验证，避免一次性改太多出问题。” 这是 Opus 的原话。

如果 MiniMax 能记住这句话，就不会开发完，访问首页就报错了。

所以从过程到结果，其实MiniMax 是全程不怎么在线！

除了那个英文的执行计划，看起来很专业。

接下来有没有人好奇，MiniMax 如果能跑起来是什么样子的？

首先让老师傅 Opus 来诊断一波问题：

再让GPT5.4 做一下 review：

除了第一个问题，是我允许的。其他全是问题！

也许你看不懂这些错误是什么，但是你应该可以看出来，这里有很多问题。

为了给他搽屁股，分析它的排泄物，把我 Claude 配额都用完了！

我觉得已经没有必要去测试跑起来的样子了。

……

好吧，我还是忍不住，把首页修好了。

然后去测试角色功能，然后……

添加角色 Error，修改角色 Error ！

这根本不是做开发，这就是专业写BUG。

由于 MiniMax 过于优秀，我已经不想再去分析 Kimi 了。

本来以为，再弱也能和 Opus 过几招，没想到这个结果。

现在再回过头去看一下开头的基准分数和他们的自我评价…

《全TM辣鸡，最后还得 Claude Opus 搽屁股！》这个标题的含金量还在上升。

最后，谁都不要吹牛逼，论实战，Claude Opus4.6 碾压所有对手，完全是不同级别的存在！

哎，太可惜了，Claude 没法给我广告费！🤣

只能说，能传播简单的事实也是一种福报吧！

小尾巴==========================
公众号：托尼不是塔克
 交流群
 知识星球
==============================

关于作者

tony

某人