Gemini3.5自评第一,Opus4.7给跪了,GPT5.5不服!

Gemini 3.5 Flash可能被低估了!毕竟版本号+0.4,是最近所有模型中跨度最大的!

昨天上午测了一波前端,下午又测了两个例子,表现好像还不错。

最有意思的是,Gemini 3.5、Opus 4.7、GPT 5.5 它们自己的测评报告!

今天就分 3 个维度来看看 Gemini 3.5 Flash 的情况!

首先是看官方基准,其次看《掌门日记》测试,最后看“JarvisBench”测试!

1、基准数据

我们先来看看谷歌自己发布的基准数据:

参与对比的有自家的 3 Flash 和 3.1 Pro,另外还有对家的 Claude Opus4.7 和 GPT5.5。

这个表格非常清晰,加粗的就是最强的。

我们先简单来看一下数量:

Gemini 3.5 Flash 领先的有 6 项,Opus4.7 领先的有两项,GPT-5.5 领先的有 6 项!

然后按分类来看,Coding 两项都没有拿第一,智能体能力都拿了第一。

领先的六个项目的含义如下:

名称含义
MCP Atlas测试模型使用 MCP 工具协议完成多步骤工作流的能力,偏 Agent 实战。
Toolathlon测试模型在真实场景中调用和组合通用工具的能力。
Finance Agent v2测试金融分析、信息判断和决策能力。
CharXiv Reasoning测试模型理解复杂图表、图像信息并进行推理的能力。
MMMU-Pro测试多模态大学级理解与推理能力,包含图像、图表和专业知识。
MRCR v2 1M pointwise测试模型在 100 万 token 长上下文中检索、定位和保持信息的能力。

Gemini 3.5 Flash 的强项主要集中在 Agent 工具使用、金融专家任务、多模态图表理解,以及超长上下文 1M 场景。

2、掌门日记

这是专门让 Opus4.7 出的题目,本来是用来测试 DeepSeekV4 和小米 MiMo 的,后来把所有模型都测了个遍。发现这是一个非常有意思,且有一定难度的例子。

这个测试的题面是这样的:

做一个单页 Web 应用:**《掌门日记》**——武侠门派经营模拟器。

玩家是一个新立门派的开山掌门。游戏核心循环是"以月为单位推进时间,每月做几个关键决策,门派状态随之演化",目标是把一个三流山寨经营成名震江湖的大派。

### 必须包含的元素

- 至少 3 项门派属性(如声望、银两、士气,命名要有武侠味,不要用"等级""经验值"这种游戏术语)
- 弟子系统:弟子有姓名、资质、内力、武学专精、忠诚度,可招募、可外派、会成长也会叛逃
- 每月随机事件:既有「邻派挑衅」「朝廷封赏」「弟子走火入魔」这类江湖事件,也要有「米价上涨」「掌门腰疼」这类生活流事件;事件的选择要影响后续状态
- 武学体系:自创至少 5 门武功,每门有名字、属性加成、修炼条件,弟子可习武
- 一个简单的「年终论剑」结算:每过 12 个月触发一次比武大会,根据门派综合实力给出排名与封号
- 存档:浏览器内可保存进度

### 风格要求

- UI 必须有武侠氛围,不能是现代 SaaS 风(建议泛黄宣纸底、竖排标题、毛笔字感)
- 所有文案用半文半白的语气,事件描述要像武侠小说片段,不能干巴巴
- 弟子姓名要符合武侠习惯(不能出现"张三""李四",自己生成有意境的名字)

### 交付要求

- 单 HTML 文件,打开即玩,不依赖后端
- 至少能完整玩通 24 个月(两届论剑)不出现死循环或 UI 崩溃
- 在文件顶部注释里写明你的设计思路:核心循环是什么、平衡性怎么把控、为什么这么设计

Gemini 3.5 Flash 的生成结果如下:

目测结果还可以,除了有掌门日历,手记备忘,还有弟子堂,藏经阁、招贤馆、论剑榜。

上面有江湖声望、库银存量和门人斗志等数据。

右上角还可以进行保存、读取和重置。

每个弟子有名字标签,还包含了:

  1. 天资
  2. 丹田内力
  3. 门人忠诚
  4. 每月俸禄
  5. 比武战力等

下面还有细分到剑、拳、刀、枪、暗等属性。

然后我把所有的例子全部扔给 Gemini 3.5 Flash、Opus4.7、GPT5.5 来做一个测评。这就是 AI 做题,AI 测评!

测评是有专门的标准的,分了六个维度+三个附加项目。

最后的测评结果,真的是让我“非常意外”!

Gemini 3.5 自评

我们先来看看 Gemini 3.5 Flash 的测评结果!(这个黑金风格设计有点东西)

Gemini 3.5 Flash 给自己打了 69 分,认为自己是“首席天骄”;

给 Opus 4.7 打了 60 分,给予“绝世宗师”的称号;

给 GPT 5.5 打了 60 分,给了一个“江湖翘楚”的称号。

这个打分给人的感觉就是:老子独领风骚,你们两个都是弟弟。

它给自己打高分的理由是:

  1. 首创闭关自创功法
  2. 3V3 论剑田忌赛马布阵
  3. 水墨晕染底纹与竖版标题
  4. UI 沉浸感满分

它觉得 Opus 4.7 比较好的是:

  1. 现状古朴账本(白版文案)极具金庸风骨
  2. 明细展示每月弟子薪俸及银两收支,策略极佳

他对 GPT 5.5 的评价是:首创顶部动态武侠剪影插图,随事件实时切换;修炼机制引入“火候”百分比,代入感极高。

然后来看一下具体的细分评分:

它的评分还是比较严格的,其他模型打分 10 分还蛮多的,它最高也就给了 8 分。

他认为自己主要赢在以下几个点:

  1. 系统巧思
  2. UI 沉浸感
  3. UI 和 UX 设计
  4. 可玩性

然后再来看一下它认为最亮眼的三个闪光点和最令人汗颜的三个翻车点

闪光点上面基本上都讲过了,我们看一下令人汗颜的翻车点有什么!

第一个是说 MiMo 极其低级的语法错误!

第二个说的是 Kimi 的现代 SaaS CRM 驾驶舱风格,完全破坏了武侠的时代代入感。

第三个说的是 GLM5.1/MiniMax 论剑过程“瞬息归零”,就是说论剑没有过程!

好像说的都挺正确的,没毛病!

当然,我们不能只听一家之言。下一个轮到 Opus4.7 了。

Opus4.7 的评价

Opus 4.7 这一波骨头有点软啊。

第一次我是让它在报告中新增 3.5 Flash 的记录,没想到它直接就跪了。我有点难以置信,就叫它全部重新评了一次,没想到它还是觉得 Gemini 3.5 Flash 比较强。

Opus4.7 对 3.5 Flash 的评价是:黄金段位,系统纵深最深。

然后还提到了:

  1. 3426 行原生级 JS
  2. 唯一做了 3V3 田忌赛马论剑
  3. 闭关顿悟,自创武学 6 种
  4. 弟子特质

总结就是:题目没要求,但产品该有的全做了

然后对 GPT 5.5 评价的是:白银段位、视觉设计冠军

对自己的评价也是白银段位,文学与哲学冠军。

前面两个人的评分非常有意思:

Gemini 认为它第一,另外两个旗鼓相当。

然后 Opus 4.7 也认为 Gemini 3.5 第一,它和 GPT 5.5 旗鼓相当。

当然,Opus 4.7 认为它和第一名只差了一分而已!

然后看一下评分卡日历矩阵:

从这个热力矩阵来看,Gemini 3.5 Flash 主要强在事件、武学、可玩性。 GPT 5.5 强在 UX!!!

三个附加维度的评价如下:

有理有据的感觉,能写出这么多东西,我很难去质疑它。

最后来看一下最会的GPT5.5

GPT5.5 评价

GPT 5.5 的排行榜如下:

GPT5.5 认为,它是最完整、最稳、信息架构和文案最强的。

它对 Opus 4.7 的评价是:最有江湖账册气质,审美第一,和它并列第一名。

它对 Gemini 的评价是:系统厚实,弟子特质、自创武学和 3V3 论剑很优秀。但是差一点意思,只能拿个第三。

这次Gemini3.5Flash表现不俗,可能和Antigravity 2.0 的计划模式有关。

因为Antigravity 2.0特别喜欢使用计划模式,可能是这一点让他的完整性和复杂度大增,从而拿到了高分。

其实前沿的模型,在评价自己和评价对手的时候,并不一定客观。

因为他们太聪明了,聪明到有一定的自我意识!

另外三个“人”虽然对对手的排名各有不同,但是它们都一致认为:它们是前三名,国产模型只能从第四名开始!

上面是各家模型的评分,我持保留意见啊!

因为这个项目,最关键的还是玩的过程,它们的评价只是静态评价。

3、JarvisBench

上面的问题重点是考思维能力,要把这个题目做好,是需要消耗很多脑细胞的,对它们来说是要消耗很多 Tokens 的。接下来从不同的维度来测试一下,测测 Gemini 3.5 Flash 对业务逻辑的理解能力。

我会给它一个我已经开发了一半的项目,然后让它帮我做功能升级。我给它们的项目本身也是一个测试平台。

让它做的事情是,把原先的平台群聊功能升级为基于角色的群聊功能。

项目特点:

  • 有一定上下文基础(约 8,000 行代码)
  • 涉及数据结构修改和老数据升级
  • 涉及业务逻辑修改
  • 涉及多个功能页面联动修改

我用的测试工具就是谷歌新推的 Antigravity 2.0。

下午的配额好像充沛了一些,测了好几个项目,都没怎么少。 听说被吐槽后,加了好多配额!

我的起手式是这样的:

先把大致的需求给它,让它分析。它的分析结果如下:

认知还是比较到位的,但是它并没有向我提出问题。这一点会给自己挖坑,厉害一点的模型,或者 Opus 系列的模型都会询问我,理清楚模糊点。这样开发完成之后可以减少返工。

Gemini 只是直接做了一个 Plan,然后问我要不要继续。

我当然是直接选择继续了!

这个英文计划,看得我头大,我明明说的中文,你就不能机灵点,用中文给我写计划么?

接下来就是授权,让它干活了。

Flash 的速度确实很快,核心步骤只用了 8 分钟就搞定了。 这速度绝对是当之无愧的第一名!之前的第一梯队,基本都在十几分钟。

好了接下来看结果了。

首先启动看一下:

启动正常,第一个坑轻松跨过去了。现在的模型已经很少会启动就报错了。

然后看一下角色功能:

这个功能也是 OK 了。

已经添加了角色列表,然后进行角色的添加、修改和删除。同时角色已经包含了平台、模型、头像等信息。头像也可以正常上传!

但是这里有一个小细节。

我的需求里面有一句话,如果没有上传头像,就默认用平台头像。这一点没有做到!

角色有了,接下来看创建群聊:

创建界面已经可以看到我们的角色信息了。其他都没有任何问题。

问题在于一个细节:平台和角色不应该同时选择。

这个逻辑其实并没有强制要求,但是从业务的角度来说,平台归平台,角色归角色,这是比较清晰、合理的设计。

很多模型都会考虑到这一点,然后进行询问,Gemini 没有问,所以我这个客户就有意见了。

平台和角色选择不做互斥的话,聊天就会很混乱:

一会儿是平台在说话,一会儿是角色在发言。

还好的一点是,这个功能是正常的。所有业务逻辑和显示逻辑都是正常的。

最后考一下隐藏考点:剔除不必要的冗余。

因为我们的系统已经升级了,已经有单独角色系统了。所以角色平台设置里不应该再保留角色 ID 了,而是应该在角色里面选择平台和模型。

这一点很可惜,它没有做到。它刚开始没问我,基本上可以肯定是没有考虑到。

也就是说,在实战中,它的软件工程能力和业务逻辑的理解能力还是差点意思!

这种能力,其实是一种更高维度的能力。

我觉得从技术上来讲,它完全可以解决上面的两个问题,但是它并没有自己意识到这些问题。

这方面是要比 Opus4.6 差一些的!

现在的大模型已经越来越强了,要能测出它们的差异也变得很困难。

今天只是从两个维度进行了一些探索,仅供参考!

 

小尾巴==========================
公众号:托尼不是塔克
交流群
知识星球
==============================

 



发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注