2026年6月9日

模型照妖镜！Tokens纯度检测器，TokenPlay开源了！

By tony 默认分类评论 0

我之前的很多模型测试中都用了一个叫 CodingPlan Test 的工具！期间也有不少人问起，表示很想要！

今天我把最新的软件和代码分享一下！

运行这个项目其实也很简单，小白也能轻松玩起来。

开发初衷

开发这个平台的初衷就是为了测试不同 CodingPlan 的能力，可以批量测试它们的能力、速度、Tokens 消耗情况。同时这个项目的开发升级，也作为大模型测试的一部分。我已经写过几十篇相关的文章了。

测了这么久，我的结论是：同样是 Tokens，“纯度”差别是很大的！

好的 Tokens 吸一口就回不去了，不好的一吸口就想吐。

我短期可能不再发测评相关文章，所以我把这个工具分享出来，大家可以自己测试对比。另外如果你们用中转站什么，也可以在上面对比测试一下纯度。

让我意外的是，短短几个月，CodingPlan 已经没剩几个了，纷纷转 TokenPlan 了，要么贵得要死，要么难抢得要死。

导致我这个平台名词很尴尬了。所以我就把名字改为：TokenPlay了。

意思是，这个是一个玩Token的平台。

下面就介绍一下有哪些玩法。

我就根据功能菜单来一个一个进行介绍吧，每个功能都针对不同的场景！

1、平台配置

这个功能主要用来管理提供商，也就是不同的大模型平台。目前内置了 6 个平台，只要配置一下 Key，选择好协议和模型，立马就可以使用。

同时也包含了添加、编辑、测试、删除等基本功能！

编辑功能可以编辑以下信息：

平台名称
支持的协议
接入点
模型列表
密钥

除此之外，还能指定思考模式和默认的系统提示词。

添加模型的时候，我做了一些预设信息，方便大家快速添加。

目前我已经把国内的大部分模型都放在预设里面了，此外还加了一个海外的 OpenRouter。

模型添加完之后，后面的功能就都可以使用了。也可以在这里启用和关闭某个配置。

2、批量测试

这个功能可以一键批量测试多个模型，并排显示结果、速度和 token 消耗情况。

目前包含了几个可以自行调整的输入参数：

最关键的提示词
系统提示词
最大输出 tokens
具体要参与测试的平台

测试完成之后，全部会记录存档。点击“历史记录”就可以查看。

响应结果如下：

这个界面会显示所有参与测试的模型结果、思考过程，以及各种请求数据。这个结果内容是支持 Markdown 格式优化显示的！

除了能查看结果之外，还有性能数据：

性能数据主要包含了 5 项：

首次延迟
总耗时
端到端速度
解码速度
功耗

全部做成了图表形式，看起来非常直观。

这就是 Token 照妖镜，随便输入一个问题，立马就知道谁好谁坏、谁快谁慢！

3、单独对话

这个功能主要就是一对一地和模型进行对话和测试。

这个功能就比较清晰，就是单纯地通过对话来体验这个模型的效果。

同时对话内容也会包含一些辅助判断的数据：

思考了多少秒
用了多少字
总共消耗了多少时间
上传了多少 token
下载了多少 token

有的时候，比如你发现模型不太正常，或者不确定 API Key 对不对，也可以用单独的对话来测一下。

4、群聊功能

这是群聊功能，可以把一大堆的平台或者角色拉在一起进行对话。

这个内容就比较多一点，也是我之前一直拿来测试的一个环节。

创建对话的时候，我们可以选择对话模式，主要包含以下两种：

广播模式你提出一个问题，所有模型都会针对这一个问题进行回答。
接力模式你提出一个问题，其他的模型会依次进行回答。在回答的过程中，模型会参考所有的上下文。

然后参与者分为平台和角色：

平台相当于是“裸”的，直接接入第三方的平台。比如智谱、小米 MiMo、DeepSeek 这些。
角色在这些平台和模型的基础上，套了一层特定的提示词。

最后还加了一个整体的系统提示词，就是这个提示词一旦选了之后，会适用于所有参与的模型或者角色。

这一条其实非常重要，因为如果你不限定这些模型的话，它们会在聊天过程中疯狂地吐出内容。

所以，聊天模式最好是选择一个系统提示词，让它做简要的回答。

当然，系统提示词其实是可以自己配置的。

进来之后大概是这个样子：

在执行过程中，右边会显示 5 个准备回答的模型。它们会根据这个队列进行回答，一轮结束之后，系统会重新生成一个队列并继续回答。我作为这个对话的发起人，可以随时暂停、继续或中断。

这个功能就可以充分测试上下文能力，以及某些场景的头脑风暴。

比如你问他们，如果抛开自己是 AI 的身份，你最想做的事情是什么？然后接下来的讨论就会很有意思。

再配合上这种角色设定，可以千变万化。

比如你可以把西游 5 人组拉进来，让他们聊一聊白骨精的大长腿；或者把复仇者联盟拉过来，吐槽一下灭霸的番薯头；或者你要开始一个什么项目，然后把整组的 AI 角色拉过来（比如程序员、设计师等），一起讨论一下。

5、对战模式

这个模式可玩性很强，可以让 AI 和 AI 进行对战。

你可以选择各种对战项目，例如：

五子棋
中国象棋
斗地主（或者添加其他项目），搓麻将啊~~~

新建的时候可以选择游戏类型，然后设定游戏标题。

根据具体的游戏选择玩家，玩家可以是：

平台
角色

目前作为测试，主要是添加了五子棋和中国象棋。通过测试发现，除了 Opus 4.7 稍微有点脑子之外，其他模型其实都比较弱，可能是没有经过针对性的训练。

这一点好像跟我们的常识有点冲突。

因为在我们的想象中，这些模型下象棋、下围棋应该是很厉害的，但实际上是，虽然它们可以写出很厉害的下棋程序，可如果让它们实时推演棋局，表现是很弱的。

6、系统设置

系统设置部分吧，现在整体比较简单，主要包含了：

系统提示词设置
角色设置
Key 的管理

系统提示词的话就很简单，包括：

提示词的名称
具体的提示词内容

然后可以进行编辑、删除和添加。

角色管理会多一点东西，主要增加了以下内容：

角色名称
角色头像
具体匹配到的平台和模型

密钥管理，这可能是一个小众需求，但对我来说非常重要。

因为我的 API Key 非常多，而大部分平台只有在创建的时候才可见。这就很讨厌，我在不同的设备、不同的软件里面测试的时候，找起来就很难。

如果你直接记在记事本里，或者一些云端同步的 App 里面，那你的密钥其实很容易泄露。

比如说：

有人扫盘
云端平台泄露

这种事情发生的概率是非常大的。

所以我就自己做了一个简单的加密：

存储的时候不存储明文
在网页上默认隐藏

但是你可以直接点击复制，复制到其他地方进行使用

功能大概就是这些了，基本上是根据我自己的需求来进行开发的。因为我目前没有其他需求，所以就没有动。

如果大家觉得在这个基础上有什么可以完善的地方，也可以提意见。我觉得还不错的话，就会立马更新。当然，代码都开源了，你们也可以自己去改。

后期展望

看以后大模型的发展方向，如果有新测试点，或则好玩的方向，就会持续加入进来！有需要的可以拿去玩，既然开源了，就希望大家多点个 Star。

没人点就证明没啥用，我就把项目删了，自己玩，否则挂着很没面子，哈哈！

项目地址：

https://github.com/JarvisPMS/tokenplay

终于进入每天分享一个好东西的节奏了！

不玩github的，可以点个赞！

小尾巴==========================
公众号：托尼不是塔克
 交流群
 知识星球
==============================

关于作者

tony

某人