模型照妖镜!Tokens纯度检测器,TokenPlay开源了!
我之前的很多模型测试中都用了一个叫 CodingPlan Test 的工具!期间也有不少人问起,表示很想要!
今天我把最新的软件和代码分享一下!

运行这个项目其实也很简单,小白也能轻松玩起来。

开发初衷
开发这个平台的初衷就是为了测试不同 CodingPlan 的能力,可以批量测试它们的能力、速度、Tokens 消耗情况。同时这个项目的开发升级,也作为大模型测试的一部分。我已经写过几十篇相关的文章了。
测了这么久,我的结论是:同样是 Tokens,“纯度”差别是很大的!
好的 Tokens 吸一口就回不去了,不好的一吸口就想吐。
我短期可能不再发测评相关文章,所以我把这个工具分享出来,大家可以自己测试对比。另外如果你们用中转站什么,也可以在上面对比测试一下纯度。
让我意外的是,短短几个月,CodingPlan 已经没剩几个了,纷纷转 TokenPlan 了,要么贵得要死,要么难抢得要死。
导致我这个平台名词很尴尬了。所以我就把名字改为:TokenPlay了。
意思是,这个是一个玩Token的平台。
下面就介绍一下有哪些玩法。
我就根据功能菜单来一个一个进行介绍吧,每个功能都针对不同的场景!
1、平台配置
这个功能主要用来管理提供商,也就是不同的大模型平台。
目前内置了 6 个平台,只要配置一下 Key,选择好协议和模型,立马就可以使用。
同时也包含了添加、编辑、测试、删除等基本功能!

编辑功能可以编辑以下信息:
- 平台名称
- 支持的协议
- 接入点
- 模型列表
- 密钥
除此之外,还能指定思考模式和默认的系统提示词。

添加模型的时候,我做了一些预设信息,方便大家快速添加。
目前我已经把国内的大部分模型都放在预设里面了,此外还加了一个海外的 OpenRouter。
模型添加完之后,后面的功能就都可以使用了。也可以在这里启用和关闭某个配置。
2、批量测试
这个功能可以一键批量测试多个模型,并排显示结果、速度和 token 消耗情况。 
目前包含了几个可以自行调整的输入参数:
- 最关键的提示词
- 系统提示词
- 最大输出 tokens
- 具体要参与测试的平台
测试完成之后,全部会记录存档。点击“历史记录”就可以查看。
响应结果如下:

这个界面会显示所有参与测试的模型结果、思考过程,以及各种请求数据。这个结果内容是支持 Markdown 格式优化显示的!
除了能查看结果之外,还有性能数据:

性能数据主要包含了 5 项:
- 首次延迟
- 总耗时
- 端到端速度
- 解码速度
- 功耗
全部做成了图表形式,看起来非常直观。
这就是 Token 照妖镜,随便输入一个问题,立马就知道谁好谁坏、谁快谁慢!
3、单独对话
这个功能主要就是一对一地和模型进行对话和测试。 
这个功能就比较清晰,就是单纯地通过对话来体验这个模型的效果。

同时对话内容也会包含一些辅助判断的数据:
- 思考了多少秒
- 用了多少字
- 总共消耗了多少时间
- 上传了多少 token
- 下载了多少 token
有的时候,比如你发现模型不太正常,或者不确定 API Key 对不对,也可以用单独的对话来测一下。
4、群聊功能
这是群聊功能,可以把一大堆的平台或者角色拉在一起进行对话。

这个内容就比较多一点,也是我之前一直拿来测试的一个环节。

创建对话的时候,我们可以选择对话模式,主要包含以下两种:
- 广播模式 你提出一个问题,所有模型都会针对这一个问题进行回答。
- 接力模式 你提出一个问题,其他的模型会依次进行回答。在回答的过程中,模型会参考所有的上下文。
然后参与者分为平台和角色:
- 平台 相当于是“裸”的,直接接入第三方的平台。比如智谱、小米 MiMo、DeepSeek 这些。
- 角色 在这些平台和模型的基础上,套了一层特定的提示词。
最后还加了一个整体的系统提示词,就是这个提示词一旦选了之后,会适用于所有参与的模型或者角色。
这一条其实非常重要,因为如果你不限定这些模型的话,它们会在聊天过程中疯狂地吐出内容。
所以,聊天模式最好是选择一个系统提示词,让它做简要的回答。
当然,系统提示词其实是可以自己配置的。
进来之后大概是这个样子: 
在执行过程中,右边会显示 5 个准备回答的模型。它们会根据这个队列进行回答,一轮结束之后,系统会重新生成一个队列并继续回答。我作为这个对话的发起人,可以随时暂停、继续或中断。
这个功能就可以充分测试上下文能力,以及某些场景的头脑风暴。
比如你问他们,如果抛开自己是 AI 的身份,你最想做的事情是什么?然后接下来的讨论就会很有意思。
再配合上这种角色设定,可以千变万化。
比如你可以把西游 5 人组拉进来,让他们聊一聊白骨精的大长腿;或者把复仇者联盟拉过来,吐槽一下灭霸的番薯头;或者你要开始一个什么项目,然后把整组的 AI 角色拉过来(比如程序员、设计师等),一起讨论一下。
5、对战模式
这个模式可玩性很强,可以让 AI 和 AI 进行对战。

你可以选择各种对战项目,例如:
- 五子棋
- 中国象棋
- 斗地主(或者添加其他项目),搓麻将啊~~~

新建的时候可以选择游戏类型,然后设定游戏标题。
根据具体的游戏选择玩家,玩家可以是:
- 平台
- 角色

目前作为测试,主要是添加了五子棋和中国象棋。通过测试发现,除了 Opus 4.7 稍微有点脑子之外,其他模型其实都比较弱,可能是没有经过针对性的训练。
这一点好像跟我们的常识有点冲突。
因为在我们的想象中,这些模型下象棋、下围棋应该是很厉害的,但实际上是,虽然它们可以写出很厉害的下棋程序,可如果让它们实时推演棋局,表现是很弱的。
6、系统设置
系统设置部分吧,现在整体比较简单,主要包含了:
- 系统提示词设置
- 角色设置
- Key 的管理

系统提示词的话就很简单,包括:
- 提示词的名称
- 具体的提示词内容
然后可以进行编辑、删除和添加。

角色管理会多一点东西,主要增加了以下内容:
- 角色名称
- 角色头像
- 具体匹配到的平台和模型

密钥管理,这可能是一个小众需求,但对我来说非常重要。
因为我的 API Key 非常多,而大部分平台只有在创建的时候才可见。这就很讨厌,我在不同的设备、不同的软件里面测试的时候,找起来就很难。
如果你直接记在记事本里,或者一些云端同步的 App 里面,那你的密钥其实很容易泄露。
比如说:
- 有人扫盘
- 云端平台泄露
这种事情发生的概率是非常大的。
所以我就自己做了一个简单的加密:
- 存储的时候不存储明文
- 在网页上默认隐藏
但是你可以直接点击复制,复制到其他地方进行使用
功能大概就是这些了,基本上是根据我自己的需求来进行开发的。因为我目前没有其他需求,所以就没有动。
如果大家觉得在这个基础上有什么可以完善的地方,也可以提意见。我觉得还不错的话,就会立马更新。当然,代码都开源了,你们也可以自己去改。
后期展望
看以后大模型的发展方向,如果有新测试点,或则好玩的方向,就会持续加入进来! 有需要的可以拿去玩,既然开源了,就希望大家多点个 Star。
没人点就证明没啥用,我就把项目删了,自己玩,否则挂着很没面子,哈哈!
项目地址:
终于进入每天分享一个好东西的节奏了!
不玩github的,可以点个赞!