2026年4月25日

DeepSeek V4 首测翻车，但整体还可以！

By tony 默认分类评论 0

DeepSeek V4 来了，大事情啊，兴冲冲就跑去测试了！

没想到第一个例子就翻车了，用的最强的V4 Pro 版本！

花了很长时间，错误比较低级。

这有点出乎我意料的，还好后续的例子表现还可以！

下面我就完整的说一下，我的测试工具，测试例子，测试过程和测试结果。

另外我也会记录下 Tokens 消耗和花费的问题。

1、测试工具

DeepSeek 在官方文章中说了，专门对 Claude Code 等智能体工具做了优化训练，它们家也完全支持 Anthropic 协议。所以，我就选 CC 作为测试工具。

打开自己手搓的 JCode，然后配置好 DeepSeek 的 Pro 模型。

然后双击打开，直接开干。

可以看到模型已经是 DeepSeek-V4-Pro，这是专业版模型，1.6T 参数，100 万上下文。各类编程基准测试结果都是顶级。

2、测试例子

测试例子来自于之前 GLM5 和 Opus4.6 大战的时候。其中五个题目是 GLM 出的，用来挑战 Opus4.6。另外五个例子是 Opus4.6 出的，用来捍卫自己的地位。

因为很多问题太过专业，所以我叫他们重新出了题目，必须既有娱乐性，又有专业性。

要大家都能看懂，但是写起来有点难度。

根据上面的要求，就有了 10 个测试例子，其中一个不方便测试，被我砍掉了。

这 9 个例子已经测过很多模型了，包括国内和国外的模型。

具体的测试对象包括了 Claude Opus 4.6、Doubao2.0、Gemini3.1Pro、GLM5、Kimi-K2.5、Minmax-M2.5、GPT5.4、Qwen3.5Plus。

今天，我们可以把 DeepSeek V4 也加上了！

测试工具和测试例子都说完了，我们就可以一个一个开始测了。

3、赛博朋克版《清明上河图》

这个是我很喜欢的一个例子，很好玩。就是做一版赛博朋克风格的清明上河。

完整提示词：

编写单个 HTML 文件，用浏览器打开后呈现动态的赛博朋克风格《清明上河图》长卷。画面自动从右向左滚动，包含至少 50 个动态元素（霓虹灯招牌、飞行汽车、全息投影广告、机械义肢行人等），鼠标悬停店铺时弹出赛博风格信息卡片。

关键技术点：

SVG/Canvas 绘图编程能力
CSS 动画逻辑
鼠标交互事件处理
审美设计与视觉呈现

然后把上面完整的提示词放到 CC 中回车，开始干活。

然后准备开盲盒了，有点小兴奋，有点小期待。毕竟这是新鲜出炉的顶配的 Pro 模型！

没想到等了 10 分钟还没有任何响动，我已经有点不耐烦了。

还好，再等了两分钟，就出结果了。

开发这一个页面，总共花了 12 分钟 15 秒。

看它的总结还不错，动态元素远超 50 个，我估计是 50 个的十倍了。

而且还有减速、加速、反向、暂停，还设置了快捷键。

从它描述的样子猜测，可能和 Opus4.6 做的效果特别像。

兄弟们，稳了！

赶紧打开页面，体验一下吧：

这个页面默认效果不错，它提示我点击任意位置开始浏览，但是我点了好久没任何反应。

这个时候我基本上断定，肯定是 JS 出错了。所以我把开发者模式打开看了一下控制台。

果然，有一个Unexpected string错误。

点开这个错误，可以定位到如下位置：

根据浏览器中的提示，是这段 JS 有问题。

比较敏锐的老程序员应该一眼就看出问题了。

如果你没看出来，我们问问豆包。（别问我为什么用豆包，问就是支持国产！）

豆包的回答如下：

豆包一下子给我找出来三个严重的错误。

其它的我不管，感觉是瞎说的，我们就来看第一个。

这个问题的关键是把应该写“冒号”的地方写成了“逗号”。

这属于特别低级的错误，这根本就不涉及任何复杂的业务逻辑，这就是单纯的基本功不扎实。

虽然这是一个逗号而已，但是代码就是这样，每一个符号都很重要。

我手动修改了它的错误，运行之后也是爆卡，视觉效果也不太好。

第一个测试基本上宣告失败了！

然后来看一下 API 数据：

总共调用了 3 次，其中一次是 say hello，不算。

消耗了 12.7 万 Tokens，未命中缓存 7.4 万。

总共花了 1.64 元。

这一个例子，跑得比较慢，还有错误。

错了一个没关系，我们继续测试，再接再厉。

4、CSS山水画

这个例子也很好玩，要实现动态效果，但是只能用 CSS，除了实现效果还得“写意”。

提示词：

用纯 CSS（单个 HTML 文件，不允许用 JavaScript、SVG、Canvas、任何图片资源）
画一幅中国山水画。要求包含：远山、近山、瀑布流水、松树、亭台、云雾缭绕动效、飞鸟。越写意越好，越像水墨越强。

关键技术点：

CSS box-shadow 极限运用
CSS gradient（渐变）叠加技巧
CSS clip-path 图形裁剪
CSS 动画（云雾、飞鸟、流水）
纯 CSS 绘图能力（无 JavaScript）

结果如下：

这个例子没有错误，运行正常，整体配色还可以，树也比较像树木，太阳、飞鸟、凉亭都不错。就是这个山有点太尖锐、太密集了，另外右下角印章是混乱的。

这个在以往的测试情况中应该属于中等水平！

但是有一个问题，时间太久了！

写一个页面花了 16 分钟，这个时间 Opus 都能从零开始开发一个项目 MVP 版本了。

再来看一下消耗情况：

这下请求数一下子上来了，到了 26 次。

Tokens 消耗来到了 126 万！还好其中 100 万命中缓存了。

费用来到了 4.17 元！

5、完整横版 HTML 跑酷游戏

上面的例子都只能看，这个例子可以玩。

提示词：

用单个 HTML 文件（可以用 JS + CSS，但不允许引入任何外部资源/CDN）做一个
完整可玩的横版跑酷游戏，要求：

- 角色自动奔跑，点击/空格跳跃，支持二段跳
- 随机生成障碍物和金币
- 有计分系统、最高分记录
- 有背景视差滚动（至少 3 层）
- 角色死亡时有粒子爆炸特效
- 有开始界面和 Game Over 界面
- 整体视觉风格要好看（像素风或赛博朋克风均可）

关键技术点：

Canvas 2D 游戏引擎开发
物理模拟（跳跃、重力、碰撞检测）
视差滚动实现
粒子特效系统
游戏状态管理（开始、进行、结束）

结果：

这次任务完成还可以。自动奔跑、二阶跳、金币、三层背景视差这些都有。但是缺少记分和最高分。其他选手都是有的，它在游戏的时候不显示，只有挂了才显示，这个明显是不合理、不符合要求的。

因为这一点，只能排中等偏下了！

6、诗词版黑客帝国代码雨

跑酷跑完了，再来一个酷炫的玩法，搞个黑客帝国的代码雨。

提示词：

用一个 HTML 文件实现黑客帝国经典代码雨效果，但有以下创意要求：

- 下落的不是随机字符，而是中国古诗词（每列是一首完整的诗，从上往下逐字飘落）
- 背景纯黑，文字渐变色（从亮绿到暗绿到消失）
- 当鼠标划过某一列时，该列暂停并高亮显示完整诗句，旁边浮现诗人名和朝代
- 至少包含 20 首不同的古诗
- 整体流畅度要高，不能卡顿

关键技术点：

Canvas 动画性能优化（大量字符流畅渲染）
鼠标交互事件处理（暂停、高亮）
古诗词知识储备（20 首以上）
视觉效果设计（渐变色、透明度过渡）

结果：

打开之后发现没有黑客帝国代码雨，整个页面空荡荡了。不会又崩了吧！

还好还好，等待了好久之后，终于出东西了：

这个等待时间大概在 12 秒左右。一般人只要 3 秒钟不出东西，基本上肯定会关闭页面了，严格来说，1 秒钟不出东西，就会有点长了。我目前不确定它是怎么个逻辑。

出来之后，效果还不错，提示词中的需求都是满足的！

个人觉得效果还是可以的，就是 12 秒这个要扣大分。

如果没有这个 12 秒的延迟，应该能到中等偏上的水平！

7、AI 五子棋对战 + 华丽 UI

这又是一个家喻户晓，能玩的例子。

提示词：

用一个 HTML 文件实现一个人机五子棋，要求：

- 棋盘是 15×15 标准棋盘，有木纹质感
- AI 要足够聪明（至少能识破简单的活三、冲四，不能让人 3 步就赢）
- 落子时有动画效果（石子从上方落下，有弹跳回弹）
- 连成五子时有华丽的胜利特效（粒子烟花 + 连线高亮闪烁）
- 支持悔棋功能
- 有一个“AI 思考中”的加载动画
- 整体 UI 要精致，不能是毛坯房风格

关键技术点：

AI 算法（minimax + alpha-beta 剪枝）
Canvas 棋盘渲染与木纹质感
落子动画（弹跳回弹物理效果）
粒子烟花特效
游戏逻辑完整性（胜负判断、悔棋）

结果：

这个界面设计得还是非常不错的，提示词中的需求也全部完成了。AI 的智商也还可以，下了很久，好不容易赢了它，一不小心就容易输。

不过，我很快就找到了必胜的法门。

只要按照我这个位置和顺序来下，必胜！

这个例子整体来说 UI/UX 和逻辑都是中上水平，偏优秀。之前有些模型 UI 做得一塌糊涂，有些模型 AI 很弱。

8、分形烟花秀

上面已经看了好几个例子，下面来个绚丽的。

提示词：

请编写一段“祝大家 2026 新年快乐”的烟花动画。

1. 烟花爆炸的形状不能是普通的圆，必须是**分形几何图形**（如曼德博集合或谢尔宾斯基三角形的变体）。

2. 烟花升空的轨迹要符合物理抛物线，且爆炸后的碎片要有重力下落效果。

3. 最后，所有的烟花轨迹必须在空中汇聚成“2026”这几个大字。

关键技术点：

分形几何算法（曼德博集合、谢尔宾斯基三角形）
物理模拟（抛物线运动、重力效果）
数学算法与视觉呈现的结合

结果：

这个项目的测试结果也不错。烟花正常炸开了，而且没有卡死。

最关键的是最后聚合成 2026 这个效果做得很好，是所有模型中完成得最好的一个！

这个例子能到优秀的水平了，整体画面感和效果不如 Opus，但是最后这个汇聚成 2026 的效果赢了所有人。

到这里，我们已经测试了 6 个题目了。

因为实在是等太久了，我有点麻了！

还有几个测试稍后再做了，然后统一更新到我们的测试网站 TOPAI 上，在网站上看动态效果，对比更加明显！

六个例子其实也不少，基本上能看出是什么水平了。

整体看，Pro 水平还是有的，有几个例子效果还挺好，但是有些细节问题是不应该错的。

全面性和稳定性有待提升。

高手过招，全在稳定发挥和细节啊。

Opus4.6 一个低级错误都没有，全过，而且审美在线。

另外要强调一下的是，我测试的时候感觉速度是比较慢的，可能跟使用人数有关，也可能和硬件不给力有关。

这次测试总共的花费是 9 块多，Pro 的价格肯定不算便宜啦~~有空测一下 Flash！

这次的测试都是单个页面，从头开始的需求，相对来说比较简单。

我下次讲一下“JarvisBench”的测试情况（已经测完），会从一个已经开发了一半的项目开始，让它完成功能升级，涉及到数据结构、业务逻辑，以及多个页面的修改。

看看它在稍微复杂一点的项目中表现如何，这个是比较关键的一个测试！

另外我也会做一些常规的智力测试，以及全面地做一个延迟和速度的测试。

所有的测试结果，我会同步到 https://topai.tonyhub.xyz/ 上面！

小尾巴==========================
公众号：托尼不是塔克
 交流群
 知识星球
==============================

关于作者

tony

某人

1、测试工具

2、测试例子

3、赛博朋克版《清明上河图》

4、CSS山水画

5、完整横版 HTML 跑酷游戏

6、诗词版黑客帝国代码雨

7、AI 五子棋对战 + 华丽 UI

8、分形烟花秀

相关文章

关于作者

tony