2026年5月19日

《掌门日记》之GPT5.5测评报告！

By tony 默认分类评论 0

《掌门日记》测评报告第二篇！ 继续探索各种AI模型在不同场景下的表现。

Claude Opus4.7 的报告已经看过了，今天就来看看 Codex 中 GPT5.5 制作的报告！

文本主要为考察两个点：

1、让 GPT5.5 去评价所有模型写的掌门日记。

2、考察GPT5.5 在制作报告和网页方面的表现。

也就是说 GPT5.5 既是评委，也是选手。

掌门日记

掌门日记测试是让不同的模型来制作一个武侠门派经营模拟器。

这个测试的特点如下：

不大众

市面没有现成参考实现，模型不能照抄。不像”做个 Todo App”那种烂大街的题，模型脑子里有几百个模板可以糊弄过去。

人人能懂

金庸古龙的世界观，中文用户零理解门槛，看到产物立刻能判断好坏。

知识点密集

状态管理、回合制系统、随机事件、平衡性数值、UI 沉浸感、武侠文案、数据持久化、可玩循环——一道题能把模型的工程、审美、文学、产品直觉全打一遍。

结果好玩

跑出来的成品自己都想玩两把。这是最朴素也最重要的测试标准。

题面：

做一个单页 Web 应用：**《掌门日记》**——武侠门派经营模拟器。

玩家是一个新立门派的开山掌门。游戏核心循环是"以月为单位推进时间，每月做几个关键决策，门派状态随之演化"，目标是把一个三流山寨经营成名震江湖的大派。

### 必须包含的元素

- 至少 3 项门派属性（如声望、银两、士气，命名要有武侠味，不要用"等级""经验值"这种游戏术语）
- 弟子系统：弟子有姓名、资质、内力、武学专精、忠诚度，可招募、可外派、会成长也会叛逃
- 每月随机事件：既有「邻派挑衅」「朝廷封赏」「弟子走火入魔」这类江湖事件，也要有「米价上涨」「掌门腰疼」这类生活流事件；事件的选择要影响后续状态
- 武学体系：自创至少 5 门武功，每门有名字、属性加成、修炼条件，弟子可习武
- 一个简单的「年终论剑」结算：每过 12 个月触发一次比武大会，根据门派综合实力给出排名与封号
- 存档：浏览器内可保存进度

### 风格要求

- UI 必须有武侠氛围，不能是现代 SaaS 风（建议泛黄宣纸底、竖排标题、毛笔字感）
- 所有文案用半文半白的语气，事件描述要像武侠小说片段，不能干巴巴
- 弟子姓名要符合武侠习惯（不能出现"张三""李四"，自己生成有意境的名字）

### 交付要求

- 单 HTML 文件，打开即玩，不依赖后端
- 至少能完整玩通 24 个月（两届论剑）不出现死循环或 UI 崩溃
- 在文件顶部注释里写明你的设计思路：核心循环是什么、平衡性怎么把控、为什么这么设计

测试方法是把上面的话直接复制给模型。不要给任何额外提示或追问引导，模糊就模糊，看模型怎么应对——这本身也是测试项之一。

为了做这个测试，我们专门制作了一个《掌门日记：模型对比测试方案》

方案包括了测试背景、测试特点、测试提示词、考察维度、预期分化、评分卡、测试流程章节内容。

不同模型的测试已经全部完成：

接下来就是要交给 GPT5.5 进行评价了。

我会把整个方案和 HTML 结果交给它，让它去读取页面，然后通过浏览器查看实际的运行效果，然后制作测评报告，并用网页把报告可视化。

制作过程

这次我使用的工具是 Codex，OpenAI 的官方桌面版智能体。选择的模型为 GPT5.5 High。

我只负责把需求和文件给他，剩下的它全自动搞定。

Codex 具备了很强的电脑操作和浏览器使用能力，同时早就有很强的多模态能力了，所以这个测试对他来说应该是很简单的。

测评过程中，它也确实按需求截图查看了网页效果：

它说它网页截图的方式是 Edge headless，好像没有用内置浏览器。

最终的 MD 报告如下：

相比 Opus4.7，这个大纲好像简单了很多很多。Codex 写报告好像一直不是太出色！

MD 文件适合省 tokens，但是不太适合展示。所以我又让它基于这个报告，设计了一个网页版。

最终报告

下面我们来看一下 GPT5.5 制作好的网页。

从这个网页来看，GPT5.5 和 Opus4.7 并列第一；第一梯队是 GPT、Opus、GLM；MiMo 语法错误，交付失败！

下面是评分卡明细：

从这里可以看到，GPT 5.5 比 Opus 4.7 强的是完整度，然后在 UI/UX 方面要弱一些，其他基本上就差不多。

当然，这个只是 GPT5.5的评价，不代表我的意见！

下面是一句话总结：

GPT5.5 的排名和之前的 Opus4.7 略有出入，但是整体排名还是差不多的！

一句话结论如下：

GPT-5.5

最完整、最稳，信息架构和文案都强

Opus 4.7

最有江湖账册气质，审美第一

GLM 5.1

工程完整度很高，事件库扎实

MiniMax M2.7

功能多、界面满，但数值和文案偏模板

DeepSeek V4-Pro

能玩且有氛围，但系统深度和交付规范略弱

Kimi K2.6

依赖 CDN，首屏有加载占位感，系统偏轻

MiMo 2.5 Pro

致命语法错误，页面实际为空白

前三名依旧是 GPT5.5、Opus4.7、GLM5.1，最后两名依旧是 Kimi K2.6 和 MiMo 2.5 Pro。

不同之处在于Opus4.7 认为它略微领先 GPT5.5，而 GPT5.5 认为它们平分秋色。

GPT5.5 对自己的评价是：最完整、最稳，信息架构和文案都强。

对 Opus 的评价是：最有江湖账册气质，审美第一。

上一篇中：

Opus 的自我评价是：文学性与设计哲学最佳。原创开场诗、动态嵌入弟子姓名的事件文案、最完整的设计思路注释。

对 GPT5.5 的评价是：UI 信息架构最强。竖排 sidebar + 五维属性 + 事件三选 + hint + log 的完整结构。

都说 AI 没有自我意识，我怎么觉得，这些大模型都有自我意识了啊！

它们明显都会往脸上贴金了。

下面我们来看一下 GPT5.5 制作的掌门日记游戏：

实话实说，这个 UI 整体美感还是不错滴。

而且也挺有武侠味儿的。比如开头就是：“新立山门，欲问江湖”。

然后又来了一句“草堂三间，旧剑一柄……”

氛围感拉满的啊！

具体的游戏逻辑，我们先不展开。

下面说一下它的问题，它的问题主要是在布局。

我看过好多GPT5.5设计的网页，布局能力偏弱，内容偏多略显杂乱。

你们可以看一下它头部的八个字，本来应该是放在一行的。

但是由于错误估算位置，导致“湖”换行了。

看似小问题，其实是它大脑中还是缺少精确的坐标！

如果上面的不太明显，那么下面就绷得特别明显了。

大量的内容位置没有控制好，导致越界，最终导致布局凌乱。而且整体来说，单屏显示的内容太密集了。一个好的设计是可以渐进式显示的，就是需要的时候才出现，不需要的时候不出现。

如果一个前端设计师无法很好地理解“少即是多”，无法很好地掌控布局结构的话，他很难设计出好的页面。

如果我人工打分，会对这个界面扣大分。AI 打分有漏洞，它们只截取了首屏，而这个混乱主要在第二屏。

布局的问题，在它制作的报告页中也非常明显。

这个报告的配色其实挺好看的，审美也可以。

但是布局就是会有一些小问题。头部“模型评分榜”也是因为估算错误导致换行，然后上下间距没有控制好，很难看。

下方的评分卡片也存在一些问题。比如“最佳综合交付”这个作为内部内容，是应该有一些边距的。

另外右侧的卡片，明显和左边的两个无法对齐。

缺点说多了，说一个它的优点：

Codex 里面可以直接调用 GPT-Image 2 来生成图片，它现在的生图能力非常强大，图片设计能力吊打它的网页设计能力，审美在线！

最后我还有一个惊奇的发现，我之前一直觉得 Codex 的配额会比较多，但是这次有点不一样。

这次 Codex GPT5.5 做完这个报告之后，5 小时配额居然快要耗尽了，这是我没有想到的。最新的 Claude Opus4.7 做完这个任务大概消耗 50%-60% 配额。

它们的配额总量不得而知，但是针对这个任务而言，这次 Opus4.7 更加高效！

哈哈哈，每次Opus和GPT的对比测试，我总是喜欢 Opus 多“两点”！

系列文章：《掌门日记》之Opus4.7测评报告！

小尾巴==========================
公众号：托尼不是塔克
 交流群
 知识星球
==============================

关于作者

tony

某人