开发实战:MiniMax开发Windows C#应用!是骡子是马?

Anthropic 突然发报告指出国产模型“蒸馏” Claude 模型,其中 MiniMax “偷师”最多次!

原文:

MiniMax

Scale: Over 13 million exchanges (1300万次交互)

The operation targeted:

  • Agentic coding (编程)
  • Tool use and orchestration (工具调用与任务编排)

刚开始,我以为大家会 DIS 这种行为,没想到一边倒的在批斗 Anthropic,连马斯克都加入了!

其中听到一个最有趣的评论是:“这就是我选择 MiniMax 的原因”。

理由是:因为它学的多,水平肯定高。

卧槽,还能有这种角度,真他娘的人才啊。

这让我对 MiniMax 充满了好奇感,必须多测试测试了,是骡子是马,得拉出来溜溜。是大智慧还是小聪明了,我们要用事实说话。

那么测试什么项目好呢?

如果只测官方例子肯定毫无意义,如果测试网上的热门例子,也没啥意义,都被训练过了。另外简单的前端测试已经很难区分水平了。

所以我决定测试一些基于操作系统的应用开发。

最近一直和娃在玩双人成行(It Takes Two)和双影奇境(Split Fiction)。游戏很好玩,最大的问题,停不下来。

所以我决定开发一个软件,要求是:能设定游戏时间,显示倒计时,时间到了强制关闭游戏,不带商量的。

基于这个需求,我编写了一个开发提示词:

做一个倒计时关闭游戏的工具,我和小孩子约定了,每天一起玩游戏,但是常常忘了时间,或者到时间了有拖拖拉拉不肯退出。所以我希望开发个工具。可以在角落上显示倒计时,然后时间快到了会有提醒,时间到了直接退出游戏。我主要是在 Windows 上玩,我希望你用 Windows 的原生开发技术来实现这个功能。我希望先讨论方案,讨论下运行逻辑啊,交互细节啊,UI 设计啊。

我没有直接让它开发,而是先讨论方案,这样有利于激发它的能力。别看这个需求简单,其实涉及到好多系统层面的技术,也很考验 UI 设计,因为桌面软件,原始 UI 都很丑,而且美化框架没有 Web 那么多。

有了思路,我们就立马开干!

先打开 cc-switch 切换到 MiniMax。我用的是他们的 Coding Plan。

入口:

https://platform.minimaxi.com/subscribe/coding-plan?code=cps3nv7Ojk&source=link

然后打开 Claude Code,直接输入需求:

首先我们可以确认一下,Claude Code 中已经切换到了 MiniMax-M2.5。然后是全新的一个对话,直接输入我们的需求开干。

开始之后,MiniMax 成功进入了计划模式(plan mode):

这一点非常不错啊。Plan 模式可以帮你细化需求,然后按细化的需求分步完成开发计划。

它主要是询问了一下几个关键问题:

  • 倒计时设置
  • 提醒方式
  • 退出机制
  • 游戏识别

对于这几个问题的拆分是比较到位的,开发这个应用确实需要涉及到这些关键问题。

下面是问题和我的回答:

Q1: 你希望如何设置倒计时时长?是否需要提前配置好固定时长,还是每次使用时再设置?

-> 回答:预设选项 – 提前设置几个固定时长(如15/30/60分钟),点击快速启动

Q2: 时间快到了时,你希望如何提醒?(可多选)

-> 回答:组合提醒(推荐) – 同时使用弹窗+声音+托盘变化

Q3: 倒计时结束后的退出机制应该如何处理?

-> 回答:强制退出 – 倒计时结束直接强制关闭游戏进程

Q4: 如何识别和退出游戏?

-> 回答:全屏检测 – 自动检测任何全屏运行的程序

这一趴基本上表现还不错的。

我一般习惯把开发计划存档,所以在我回答完这些需求之后,我就叫他存档了。但是,它只是更新一下这个计划,却没有帮我存档,直接就开始开发了。

这一点,不是太满意。

开发过程是否顺利?

开发挺顺利的,但是编译出错了。

错误1:

错误2:

错误3:

我只截了三张错误截图,三个以上的就不截图了。

中途错误不少,但是它自己解决了。最后开发反馈信息如下:

这个信息还是可以的,简洁明了。

还自动帮我搞了两个版本,一个是框架依赖版只有 139 KB,另一个是自包含版 147 MB,这个版本就完全可以独立运行了。

这里还提到了使用方法,系统托盘和右键倒计时。

既然开发好了,就帮我直接运行一下呗:

运行过程又遇到了错误,还好自己能解决,否则我就要骂娘了。

程序写完了,我们看看token的消耗情况。

我购买的是一年的Starter套餐 ,开发玩这个程序使用了大概10%的额度。 这个消耗了还可以,不是太高。

终于全部讲完,程序也搞定了,我们要进入激动人心的测试环节了,没事开发我都是充满期待的,就像开盲盒一样。

它说启动完了,但是界面上好像没有任何变化。

因为它是开发了托盘程序,所以软件启动之后界面上没有任何提醒。只有打开右下角的托盘,才能看到一个图标。 这个设计其实有一点点问题,大部分软件启动之后都会有一个主界面,没有的话记忆会很奇怪。

先不管这些,找到托盘图标,右键就可以看到具体的菜单和功能了。

它主要是设计了五个菜单,一个是启动倒计时,一个是停止倒计时,一个是设置 ,一个是关于,一个是退出。

这个菜单比较中规中矩,能用,但是不好看,应该是原生界面,没有任何美化,现在的软件很少有这么“毛胚”的。

其实这些都不是关键,关键是他的核心界面,好像有点崩!

你们看看它的倒计时功能,连数字都显示不全,然后下面的游戏中也显示不全,另外太靠右边了,感觉扎入了屏幕边框。

而且这个框无法拖动,看起来非常难受。

对于 UI 和布局有要求的人看到这种设计,内心 OS 肯定是“什么垃圾”。

我只能说骂早了,它的设计美学,还没有展示完。

下面请看它的设置界面:

根本看不清楚,按钮也看不全,由于无法改变窗口大小,这个功能基本无法使用。

我就问一句,你们愿意使用这样的软件么?

如果一个程序员说自己是顶尖的程序员,然后交付了这样一个产品,你们内心感受是什么?

不幸中的万幸,这个核心功能,能用。

我把游戏打开,测试了 15 分钟,时间到了之后,正常关闭游戏。

我写文章的时候,其实已经把几个主流模型都测试过一遍了。既然 MiniMax M2.5 是对标 Claude Opus 4.6,我就给大家看一下 Opus 4.6 的作品。

核心界面如下。

启动之后的界面:

点击开始计时后的界面:

然后打开游戏,按 Ctrl+F12 就开始工作了。

开始后会有一个半透明的倒计时,在不同的时间段会有不同的状态。刚开始是简单的半透明,到了 5 分钟之后,会变成橙色,1 分钟开始变红色闪烁,最后 10 秒退出提醒。而且它的倒计时是可以拖动的,能放在任意位置。

不得不说,师傅还是师傅,考虑到太周全了。UI 设计和运行逻辑都比较完善,写代码也是一次过,没有看到过标红。

最后简单总结一下。

根据 MiniMax 的宣传资料,它的 Coding 核心测评分达到了 SOTA 水平(最佳)。

其中 SWE-Bench 得到了 80.2 分,和 Opus 4.6 的 80.9 只差了 0.7 。Multi-SWE 甚至比 Opus 还要高出 1.3 。单看这个基准确实非常牛逼了。

但是,MiniMax在我们这个编程任务上,可能和它的基准测试结果相去甚远。

首先,实话实说肯定是没法和 Claude 比,大概是 60 分和 90 分的差别,绝对不是 0.7 的差别,所以骡子和马还是有点不同的。

其次,为了我这篇文章能长久存在,我也说些“客观积极”的点。

MiniMax 完全可以根据需求,完成一个应用的开发。虽然过程有点曲折,但是成功运行起来了,这已经很了不起了。

MiniMax 思考过程和计划虽然很简单。但是它绝对是独立思考的,完全不同于 Claude,也不同于 Kimi 和 GLM。

MiniMax 虽然界面离谱了一点,体验差了一点,但是最最核心的功能是可以正常工作的。

MiniMax 的开发时间和 token 消耗占比都吊打 Claude 呢,而且我用的还是最基础的版本!

最后,基于他是国产之光,敢于挑战国外顶尖模型,我要再给它加30分。

我单方面宣布它的实力和 Claude Opus 4.6 旗鼓相当。我们要对国产模型宽容一些,给它们进步空间。蒸馏怎么了,谷歌也干过,Claude 也扫描过大量书籍,还说自己是 deepseek 呢……

别笑,我是“认真”的!我已经充了一年 Coding Plan,你们呢?

我再放一次链接:

https://platform.minimaxi.com/subscribe/coding-plan?code=cps3nv7Ojk&source=link

建议直接上 Ultra-极速版,也“不是很贵”,只要 8990!

另外,你们想看其他国产模型的效果么?或者想不想看Claude完整的思考开发过程?

 

小尾巴==========================
公众号:托尼不是塔克
交流群
知识星球
==============================

 



发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注