模型照妖镜!Tokens纯度检测器,TokenPlay开源了!

我之前的很多模型测试中都用了一个叫 CodingPlan Test 的工具!期间也有不少人问起,表示很想要!

今天我把最新的软件和代码分享一下!

运行这个项目其实也很简单,小白也能轻松玩起来。

开发初衷

开发这个平台的初衷就是为了测试不同 CodingPlan 的能力,可以批量测试它们的能力、速度、Tokens 消耗情况。同时这个项目的开发升级,也作为大模型测试的一部分。我已经写过几十篇相关的文章了。

测了这么久,我的结论是:同样是 Tokens,“纯度”差别是很大的!

好的 Tokens 吸一口就回不去了,不好的一吸口就想吐。

我短期可能不再发测评相关文章,所以我把这个工具分享出来,大家可以自己测试对比。另外如果你们用中转站什么,也可以在上面对比测试一下纯度。

让我意外的是,短短几个月,CodingPlan 已经没剩几个了,纷纷转 TokenPlan 了,要么贵得要死,要么难抢得要死。

导致我这个平台名词很尴尬了。所以我就把名字改为:TokenPlay了。

意思是,这个是一个玩Token的平台。

下面就介绍一下有哪些玩法。

我就根据功能菜单来一个一个进行介绍吧,每个功能都针对不同的场景!

1、平台配置

这个功能主要用来管理提供商,也就是不同的大模型平台。 目前内置了 6 个平台,只要配置一下 Key,选择好协议和模型,立马就可以使用。

同时也包含了添加、编辑、测试、删除等基本功能!

编辑功能可以编辑以下信息:

  1. 平台名称
  2. 支持的协议
  3. 接入点
  4. 模型列表
  5. 密钥

除此之外,还能指定思考模式和默认的系统提示词。

添加模型的时候,我做了一些预设信息,方便大家快速添加。

目前我已经把国内的大部分模型都放在预设里面了,此外还加了一个海外的 OpenRouter。

模型添加完之后,后面的功能就都可以使用了。也可以在这里启用和关闭某个配置。

2、批量测试

这个功能可以一键批量测试多个模型,并排显示结果、速度和 token 消耗情况。

目前包含了几个可以自行调整的输入参数:

  1. 最关键的提示词
  2. 系统提示词
  3. 最大输出 tokens
  4. 具体要参与测试的平台

测试完成之后,全部会记录存档。点击“历史记录”就可以查看。

响应结果如下:

这个界面会显示所有参与测试的模型结果、思考过程,以及各种请求数据。这个结果内容是支持 Markdown 格式优化显示的!

除了能查看结果之外,还有性能数据:

性能数据主要包含了 5 项:

  1. 首次延迟
  2. 总耗时
  3. 端到端速度
  4. 解码速度
  5. 功耗

全部做成了图表形式,看起来非常直观。

这就是 Token 照妖镜,随便输入一个问题,立马就知道谁好谁坏、谁快谁慢!

3、单独对话

这个功能主要就是一对一地和模型进行对话和测试。

这个功能就比较清晰,就是单纯地通过对话来体验这个模型的效果。

同时对话内容也会包含一些辅助判断的数据:

  1. 思考了多少秒
  2. 用了多少字
  3. 总共消耗了多少时间
  4. 上传了多少 token
  5. 下载了多少 token

有的时候,比如你发现模型不太正常,或者不确定 API Key 对不对,也可以用单独的对话来测一下。

4、群聊功能

这是群聊功能,可以把一大堆的平台或者角色拉在一起进行对话。

这个内容就比较多一点,也是我之前一直拿来测试的一个环节。

创建对话的时候,我们可以选择对话模式,主要包含以下两种:

  1. 广播模式 你提出一个问题,所有模型都会针对这一个问题进行回答。
  2. 接力模式 你提出一个问题,其他的模型会依次进行回答。在回答的过程中,模型会参考所有的上下文。

然后参与者分为平台和角色:

  1. 平台 相当于是“裸”的,直接接入第三方的平台。比如智谱、小米 MiMo、DeepSeek 这些。
  2. 角色 在这些平台和模型的基础上,套了一层特定的提示词。

最后还加了一个整体的系统提示词,就是这个提示词一旦选了之后,会适用于所有参与的模型或者角色。

这一条其实非常重要,因为如果你不限定这些模型的话,它们会在聊天过程中疯狂地吐出内容。

所以,聊天模式最好是选择一个系统提示词,让它做简要的回答。

当然,系统提示词其实是可以自己配置的。

进来之后大概是这个样子:

在执行过程中,右边会显示 5 个准备回答的模型。它们会根据这个队列进行回答,一轮结束之后,系统会重新生成一个队列并继续回答。我作为这个对话的发起人,可以随时暂停、继续或中断。

这个功能就可以充分测试上下文能力,以及某些场景的头脑风暴。

比如你问他们,如果抛开自己是 AI 的身份,你最想做的事情是什么?然后接下来的讨论就会很有意思。

再配合上这种角色设定,可以千变万化。

比如你可以把西游 5 人组拉进来,让他们聊一聊白骨精的大长腿;或者把复仇者联盟拉过来,吐槽一下灭霸的番薯头;或者你要开始一个什么项目,然后把整组的 AI 角色拉过来(比如程序员、设计师等),一起讨论一下。

5、对战模式

这个模式可玩性很强,可以让 AI 和 AI 进行对战。

你可以选择各种对战项目,例如:

  1. 五子棋
  2. 中国象棋
  3. 斗地主(或者添加其他项目),搓麻将啊~~~

新建的时候可以选择游戏类型,然后设定游戏标题。

根据具体的游戏选择玩家,玩家可以是:

  1. 平台
  2. 角色

目前作为测试,主要是添加了五子棋和中国象棋。通过测试发现,除了 Opus 4.7 稍微有点脑子之外,其他模型其实都比较弱,可能是没有经过针对性的训练。

这一点好像跟我们的常识有点冲突。

因为在我们的想象中,这些模型下象棋、下围棋应该是很厉害的,但实际上是,虽然它们可以写出很厉害的下棋程序,可如果让它们实时推演棋局,表现是很弱的。

6、系统设置

系统设置部分吧,现在整体比较简单,主要包含了:

  1. 系统提示词设置
  2. 角色设置
  3. Key 的管理

系统提示词的话就很简单,包括:

  1. 提示词的名称
  2. 具体的提示词内容

然后可以进行编辑、删除和添加。

角色管理会多一点东西,主要增加了以下内容:

  1. 角色名称
  2. 角色头像
  3. 具体匹配到的平台和模型

密钥管理,这可能是一个小众需求,但对我来说非常重要。

因为我的 API Key 非常多,而大部分平台只有在创建的时候才可见。这就很讨厌,我在不同的设备、不同的软件里面测试的时候,找起来就很难。

如果你直接记在记事本里,或者一些云端同步的 App 里面,那你的密钥其实很容易泄露。

比如说:

  1. 有人扫盘
  2. 云端平台泄露

这种事情发生的概率是非常大的。

所以我就自己做了一个简单的加密:

  1. 存储的时候不存储明文
  2. 在网页上默认隐藏

但是你可以直接点击复制,复制到其他地方进行使用

功能大概就是这些了,基本上是根据我自己的需求来进行开发的。因为我目前没有其他需求,所以就没有动。

如果大家觉得在这个基础上有什么可以完善的地方,也可以提意见。我觉得还不错的话,就会立马更新。当然,代码都开源了,你们也可以自己去改。

后期展望

看以后大模型的发展方向,如果有新测试点,或则好玩的方向,就会持续加入进来! 有需要的可以拿去玩,既然开源了,就希望大家多点个 Star。

没人点就证明没啥用,我就把项目删了,自己玩,否则挂着很没面子,哈哈!

项目地址:

https://github.com/JarvisPMS/tokenplay

终于进入每天分享一个好东西的节奏了!

不玩github的,可以点个赞!

 

小尾巴==========================
公众号:托尼不是塔克
交流群
知识星球
==============================

 



发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注