《掌门日记》之GPT5.5测评报告!

《掌门日记》测评报告第二篇! 继续探索各种AI模型在不同场景下的表现。

Claude Opus4.7 的报告已经看过了,今天就来看看 Codex 中 GPT5.5 制作的报告!

文本主要为考察两个点:

1、让 GPT5.5 去评价所有模型写的掌门日记。

2、考察GPT5.5 在制作报告和网页方面的表现。

也就是说 GPT5.5 既是评委,也是选手。

掌门日记

掌门日记测试是让不同的模型来制作一个武侠门派经营模拟器。

这个测试的特点如下:

不大众

市面没有现成参考实现,模型不能照抄。不像”做个 Todo App”那种烂大街的题,模型脑子里有几百个模板可以糊弄过去。

人人能懂

金庸古龙的世界观,中文用户零理解门槛,看到产物立刻能判断好坏。

知识点密集

状态管理、回合制系统、随机事件、平衡性数值、UI 沉浸感、武侠文案、数据持久化、可玩循环——一道题能把模型的工程、审美、文学、产品直觉全打一遍。

结果好玩

跑出来的成品自己都想玩两把。这是最朴素也最重要的测试标准。

题面:

做一个单页 Web 应用:**《掌门日记》**——武侠门派经营模拟器。

玩家是一个新立门派的开山掌门。游戏核心循环是"以月为单位推进时间,每月做几个关键决策,门派状态随之演化",目标是把一个三流山寨经营成名震江湖的大派。

### 必须包含的元素

- 至少 3 项门派属性(如声望、银两、士气,命名要有武侠味,不要用"等级""经验值"这种游戏术语)
- 弟子系统:弟子有姓名、资质、内力、武学专精、忠诚度,可招募、可外派、会成长也会叛逃
- 每月随机事件:既有「邻派挑衅」「朝廷封赏」「弟子走火入魔」这类江湖事件,也要有「米价上涨」「掌门腰疼」这类生活流事件;事件的选择要影响后续状态
- 武学体系:自创至少 5 门武功,每门有名字、属性加成、修炼条件,弟子可习武
- 一个简单的「年终论剑」结算:每过 12 个月触发一次比武大会,根据门派综合实力给出排名与封号
- 存档:浏览器内可保存进度

### 风格要求

- UI 必须有武侠氛围,不能是现代 SaaS 风(建议泛黄宣纸底、竖排标题、毛笔字感)
- 所有文案用半文半白的语气,事件描述要像武侠小说片段,不能干巴巴
- 弟子姓名要符合武侠习惯(不能出现"张三""李四",自己生成有意境的名字)

### 交付要求

- 单 HTML 文件,打开即玩,不依赖后端
- 至少能完整玩通 24 个月(两届论剑)不出现死循环或 UI 崩溃
- 在文件顶部注释里写明你的设计思路:核心循环是什么、平衡性怎么把控、为什么这么设计

测试方法是把上面的话直接复制给模型。不要给任何额外提示或追问引导,模糊就模糊,看模型怎么应对——这本身也是测试项之一。

为了做这个测试,我们专门制作了一个《掌门日记:模型对比测试方案》

方案包括了测试背景、测试特点、测试提示词、考察维度、预期分化、评分卡、测试流程章节内容。

不同模型的测试已经全部完成:

接下来就是要交给 GPT5.5 进行评价了。

我会把整个方案和 HTML 结果交给它,让它去读取页面,然后通过浏览器查看实际的运行效果,然后制作测评报告,并用网页把报告可视化。

制作过程

这次我使用的工具是 Codex,OpenAI 的官方桌面版智能体。选择的模型为 GPT5.5 High。

我只负责把需求和文件给他,剩下的它全自动搞定。

Codex 具备了很强的电脑操作和浏览器使用能力,同时早就有很强的多模态能力了,所以这个测试对他来说应该是很简单的。

测评过程中,它也确实按需求截图查看了网页效果:

它说它网页截图的方式是 Edge headless,好像没有用内置浏览器。

最终的 MD 报告如下:

相比 Opus4.7,这个大纲好像简单了很多很多。Codex 写报告好像一直不是太出色!

MD 文件适合省 tokens,但是不太适合展示。所以我又让它基于这个报告,设计了一个网页版。

最终报告

下面我们来看一下 GPT5.5 制作好的网页。

从这个网页来看,GPT5.5 和 Opus4.7 并列第一;第一梯队是 GPT、Opus、GLM;MiMo 语法错误,交付失败!

下面是评分卡明细:

从这里可以看到,GPT 5.5 比 Opus 4.7 强的是完整度,然后在 UI/UX 方面要弱一些,其他基本上就差不多。

当然,这个只是 GPT5.5的评价,不代表我的意见!

下面是一句话总结:

GPT5.5 的排名和之前的 Opus4.7 略有出入,但是整体排名还是差不多的!

一句话结论如下:

GPT-5.5

最完整、最稳,信息架构和文案都强

Opus 4.7

最有江湖账册气质,审美第一

GLM 5.1

工程完整度很高,事件库扎实

MiniMax M2.7

功能多、界面满,但数值和文案偏模板

DeepSeek V4-Pro

能玩且有氛围,但系统深度和交付规范略弱

Kimi K2.6

依赖 CDN,首屏有加载占位感,系统偏轻

MiMo 2.5 Pro

致命语法错误,页面实际为空白

前三名依旧是 GPT5.5、Opus4.7、GLM5.1,最后两名依旧是 Kimi K2.6 和 MiMo 2.5 Pro。

不同之处在于Opus4.7 认为它略微领先 GPT5.5,而 GPT5.5 认为它们平分秋色。

GPT5.5 对自己的评价是:最完整、最稳,信息架构和文案都强。

对 Opus 的评价是:最有江湖账册气质,审美第一。

上一篇中:

Opus 的自我评价是:文学性与设计哲学最佳。原创开场诗、动态嵌入弟子姓名的事件文案、最完整的设计思路注释。

对 GPT5.5 的评价是:UI 信息架构最强。竖排 sidebar + 五维属性 + 事件三选 + hint + log 的完整结构。

都说 AI 没有自我意识,我怎么觉得,这些大模型都有自我意识了啊!

它们明显都会往脸上贴金了。

下面我们来看一下 GPT5.5 制作的掌门日记游戏:

实话实说,这个 UI 整体美感还是不错滴。

而且也挺有武侠味儿的。比如开头就是:“新立山门,欲问江湖”。

然后又来了一句“草堂三间,旧剑一柄……”

氛围感拉满的啊!

具体的游戏逻辑,我们先不展开。

下面说一下它的问题,它的问题主要是在布局。

我看过好多GPT5.5设计的网页,布局能力偏弱,内容偏多略显杂乱。

你们可以看一下它头部的八个字,本来应该是放在一行的。

但是由于错误估算位置,导致“”换行了。

看似小问题,其实是它大脑中还是缺少精确的坐标!

如果上面的不太明显,那么下面就绷得特别明显了。

大量的内容位置没有控制好,导致越界,最终导致布局凌乱。而且整体来说,单屏显示的内容太密集了。一个好的设计是可以渐进式显示的,就是需要的时候才出现,不需要的时候不出现。

如果一个前端设计师无法很好地理解“少即是多”,无法很好地掌控布局结构的话,他很难设计出好的页面。

如果我人工打分,会对这个界面扣大分。AI 打分有漏洞,它们只截取了首屏,而这个混乱主要在第二屏。

布局的问题,在它制作的报告页中也非常明显。

这个报告的配色其实挺好看的,审美也可以。

但是布局就是会有一些小问题。头部“模型评分榜”也是因为估算错误导致换行,然后上下间距没有控制好,很难看。

下方的评分卡片也存在一些问题。比如“最佳综合交付”这个作为内部内容,是应该有一些边距的。

另外右侧的卡片,明显和左边的两个无法对齐。

缺点说多了,说一个它的优点:

Codex 里面可以直接调用 GPT-Image 2 来生成图片,它现在的生图能力非常强大,图片设计能力吊打它的网页设计能力,审美在线!

最后我还有一个惊奇的发现,我之前一直觉得 Codex 的配额会比较多,但是这次有点不一样。

这次 Codex GPT5.5 做完这个报告之后,5 小时配额居然快要耗尽了,这是我没有想到的。最新的 Claude Opus4.7 做完这个任务大概消耗 50%-60% 配额。

它们的配额总量不得而知,但是针对这个任务而言,这次 Opus4.7 更加高效!

哈哈哈,每次Opus和GPT的对比测试,我总是喜欢 Opus 多“两点”!

系列文章:《掌门日记》之Opus4.7测评报告!

 

小尾巴==========================
公众号:托尼不是塔克
交流群
知识星球
==============================

 



发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注