DeepSeek V4 首测翻车,但整体还可以!

DeepSeek V4 来了,大事情啊,兴冲冲就跑去测试了!

QQ20260425-000807

没想到第一个例子就翻车了,用的最强的V4 Pro 版本!

花了很长时间,错误比较低级。

这有点出乎我意料的,还好后续的例子表现还可以!

下面我就完整的说一下,我的测试工具,测试例子,测试过程和测试结果。

另外我也会记录下 Tokens 消耗和花费的问题。

1、测试工具

DeepSeek 在官方文章中说了,专门对 Claude Code 等智能体工具做了优化训练,它们家也完全支持 Anthropic 协议。所以,我就选 CC 作为测试工具。

打开自己手搓的 JCode,然后配置好 DeepSeek 的 Pro 模型。

然后双击打开,直接开干。

可以看到模型已经是 DeepSeek-V4-Pro,这是专业版模型,1.6T 参数,100 万上下文。各类编程基准测试结果都是顶级。

2、测试例子

测试例子来自于之前 GLM5 和 Opus4.6 大战的时候。其中五个题目是 GLM 出的,用来挑战 Opus4.6。另外五个例子是 Opus4.6 出的,用来捍卫自己的地位。

因为很多问题太过专业,所以我叫他们重新出了题目,必须既有娱乐性,又有专业性。

要大家都能看懂,但是写起来有点难度。

根据上面的要求,就有了 10 个测试例子,其中一个不方便测试,被我砍掉了。

这 9 个例子已经测过很多模型了,包括国内和国外的模型。

具体的测试对象包括了 Claude Opus 4.6、Doubao2.0、Gemini3.1Pro、GLM5、Kimi-K2.5、Minmax-M2.5、GPT5.4、Qwen3.5Plus。

今天,我们可以把 DeepSeek V4 也加上了!

测试工具和测试例子都说完了,我们就可以一个一个开始测了。

3、赛博朋克版《清明上河图》

这个是我很喜欢的一个例子,很好玩。就是做一版赛博朋克风格的清明上河。

完整提示词:

编写单个 HTML 文件,用浏览器打开后呈现动态的赛博朋克风格《清明上河图》长卷。画面自动从右向左滚动,包含至少 50 个动态元素(霓虹灯招牌、飞行汽车、全息投影广告、机械义肢行人等),鼠标悬停店铺时弹出赛博风格信息卡片。

关键技术点:

  • SVG/Canvas 绘图编程能力
  • CSS 动画逻辑
  • 鼠标交互事件处理
  • 审美设计与视觉呈现

然后把上面完整的提示词放到 CC 中回车,开始干活。

然后准备开盲盒了,有点小兴奋,有点小期待。毕竟这是新鲜出炉的顶配的 Pro 模型!

没想到等了 10 分钟还没有任何响动,我已经有点不耐烦了。

还好,再等了两分钟,就出结果了。

开发这一个页面,总共花了 12 分钟 15 秒

看它的总结还不错,动态元素远超 50 个,我估计是 50 个的十倍了。

而且还有减速、加速、反向、暂停,还设置了快捷键。

从它描述的样子猜测,可能和 Opus4.6 做的效果特别像。

兄弟们,稳了!

赶紧打开页面,体验一下吧:

这个页面默认效果不错,它提示我点击任意位置开始浏览,但是我点了好久没任何反应。

这个时候我基本上断定,肯定是 JS 出错了。所以我把开发者模式打开看了一下控制台。

果然,有一个Unexpected string错误。

点开这个错误,可以定位到如下位置:

根据浏览器中的提示,是这段 JS 有问题。

比较敏锐的老程序员应该一眼就看出问题了。

如果你没看出来,我们问问豆包。(别问我为什么用豆包,问就是支持国产!)

豆包的回答如下:

豆包一下子给我找出来三个严重的错误。

其它的我不管,感觉是瞎说的,我们就来看第一个。

这个问题的关键是把应该写“冒号”的地方写成了“逗号”。

这属于特别低级的错误,这根本就不涉及任何复杂的业务逻辑,这就是单纯的基本功不扎实。

虽然这是一个逗号而已,但是代码就是这样,每一个符号都很重要。

我手动修改了它的错误,运行之后也是爆卡,视觉效果也不太好。

第一个测试基本上宣告失败了!

然后来看一下 API 数据:

总共调用了 3 次,其中一次是 say hello,不算。

消耗了 12.7 万 Tokens,未命中缓存 7.4 万。

总共花了 1.64 元。

这一个例子,跑得比较慢,还有错误。

错了一个没关系,我们继续测试,再接再厉。

4、CSS山水画

这个例子也很好玩,要实现动态效果,但是只能用 CSS,除了实现效果还得“写意”。

提示词:

用纯 CSS(单个 HTML 文件,不允许用 JavaScript、SVG、Canvas、任何图片资源)
画一幅中国山水画。要求包含:远山、近山、瀑布流水、松树、亭台、云雾缭绕动效、飞鸟。越写意越好,越像水墨越强。

关键技术点:

  • CSS box-shadow 极限运用
  • CSS gradient(渐变)叠加技巧
  • CSS clip-path 图形裁剪
  • CSS 动画(云雾、飞鸟、流水)
  • 纯 CSS 绘图能力(无 JavaScript)

结果如下:

这个例子没有错误,运行正常,整体配色还可以,树也比较像树木,太阳、飞鸟、凉亭都不错。就是这个山有点太尖锐、太密集了,另外右下角印章是混乱的。

这个在以往的测试情况中应该属于中等水平!

但是有一个问题,时间太久了!

写一个页面花了 16 分钟,这个时间 Opus 都能从零开始开发一个项目 MVP 版本了。

再来看一下消耗情况:

这下请求数一下子上来了,到了 26 次。

Tokens 消耗来到了 126 万!还好其中 100 万命中缓存了。

费用来到了 4.17 元!

5、完整横版 HTML 跑酷游戏

上面的例子都只能看,这个例子可以玩。

提示词:

用单个 HTML 文件(可以用 JS + CSS,但不允许引入任何外部资源/CDN)做一个
完整可玩的横版跑酷游戏,要求:

- 角色自动奔跑,点击/空格跳跃,支持二段跳
- 随机生成障碍物和金币
- 有计分系统、最高分记录
- 有背景视差滚动(至少 3 层)
- 角色死亡时有粒子爆炸特效
- 有开始界面和 Game Over 界面
- 整体视觉风格要好看(像素风或赛博朋克风均可)

关键技术点:

  • Canvas 2D 游戏引擎开发
  • 物理模拟(跳跃、重力、碰撞检测)
  • 视差滚动实现
  • 粒子特效系统
  • 游戏状态管理(开始、进行、结束)

结果:

这次任务完成还可以。自动奔跑、二阶跳、金币、三层背景视差这些都有。但是缺少记分和最高分。其他选手都是有的,它在游戏的时候不显示,只有挂了才显示,这个明显是不合理、不符合要求的。

因为这一点,只能排中等偏下了!

6、诗词版黑客帝国代码雨

跑酷跑完了,再来一个酷炫的玩法,搞个黑客帝国的代码雨。

提示词:

用一个 HTML 文件实现黑客帝国经典代码雨效果,但有以下创意要求:

- 下落的不是随机字符,而是中国古诗词(每列是一首完整的诗,从上往下逐字飘落)
- 背景纯黑,文字渐变色(从亮绿到暗绿到消失)
- 当鼠标划过某一列时,该列暂停并高亮显示完整诗句,旁边浮现诗人名和朝代
- 至少包含 20 首不同的古诗
- 整体流畅度要高,不能卡顿

关键技术点:

  • Canvas 动画性能优化(大量字符流畅渲染)
  • 鼠标交互事件处理(暂停、高亮)
  • 古诗词知识储备(20 首以上)
  • 视觉效果设计(渐变色、透明度过渡)

结果:

打开之后发现没有黑客帝国代码雨,整个页面空荡荡了。不会又崩了吧!

还好还好,等待了好久之后,终于出东西了:

这个等待时间大概在 12 秒左右。一般人只要 3 秒钟不出东西,基本上肯定会关闭页面了,严格来说,1 秒钟不出东西,就会有点长了。我目前不确定它是怎么个逻辑。

出来之后,效果还不错,提示词中的需求都是满足的!

个人觉得效果还是可以的,就是 12 秒这个要扣大分。

如果没有这个 12 秒的延迟,应该能到中等偏上的水平!

7、AI 五子棋对战 + 华丽 UI

这又是一个家喻户晓,能玩的例子。

提示词:

用一个 HTML 文件实现一个人机五子棋,要求:

- 棋盘是 15×15 标准棋盘,有木纹质感
- AI 要足够聪明(至少能识破简单的活三、冲四,不能让人 3 步就赢)
- 落子时有动画效果(石子从上方落下,有弹跳回弹)
- 连成五子时有华丽的胜利特效(粒子烟花 + 连线高亮闪烁)
- 支持悔棋功能
- 有一个“AI 思考中”的加载动画
- 整体 UI 要精致,不能是毛坯房风格

关键技术点:

  • AI 算法(minimax + alpha-beta 剪枝)
  • Canvas 棋盘渲染与木纹质感
  • 落子动画(弹跳回弹物理效果)
  • 粒子烟花特效
  • 游戏逻辑完整性(胜负判断、悔棋)

结果:

这个界面设计得还是非常不错的,提示词中的需求也全部完成了。AI 的智商也还可以,下了很久,好不容易赢了它,一不小心就容易输。

不过,我很快就找到了必胜的法门。

只要按照我这个位置和顺序来下,必胜!

这个例子整体来说 UI/UX 和逻辑都是中上水平,偏优秀。之前有些模型 UI 做得一塌糊涂,有些模型 AI 很弱。

8、分形烟花秀

上面已经看了好几个例子,下面来个绚丽的。

提示词:

请编写一段“祝大家 2026 新年快乐”的烟花动画。

1. 烟花爆炸的形状不能是普通的圆,必须是**分形几何图形**(如曼德博集合或谢尔宾斯基三角形的变体)。

2. 烟花升空的轨迹要符合物理抛物线,且爆炸后的碎片要有重力下落效果。

3. 最后,所有的烟花轨迹必须在空中汇聚成“2026”这几个大字。

关键技术点:

  • 分形几何算法(曼德博集合、谢尔宾斯基三角形)
  • 物理模拟(抛物线运动、重力效果)
  • 数学算法与视觉呈现的结合

结果:

这个项目的测试结果也不错。烟花正常炸开了,而且没有卡死。

最关键的是最后聚合成 2026 这个效果做得很好,是所有模型中完成得最好的一个!

这个例子能到优秀的水平了,整体画面感和效果不如 Opus,但是最后这个汇聚成 2026 的效果赢了所有人。

到这里,我们已经测试了 6 个题目了。

因为实在是等太久了,我有点麻了!

还有几个测试稍后再做了,然后统一更新到我们的测试网站 TOPAI 上,在网站上看动态效果,对比更加明显!

六个例子其实也不少,基本上能看出是什么水平了。

整体看,Pro 水平还是有的,有几个例子效果还挺好,但是有些细节问题是不应该错的。

全面性和稳定性有待提升。

高手过招,全在稳定发挥和细节啊。

Opus4.6 一个低级错误都没有,全过,而且审美在线。

另外要强调一下的是,我测试的时候感觉速度是比较慢的,可能跟使用人数有关,也可能和硬件不给力有关。

这次测试总共的花费是 9 块多,Pro 的价格肯定不算便宜啦~~有空测一下 Flash!

这次的测试都是单个页面,从头开始的需求,相对来说比较简单。

我下次讲一下“JarvisBench”的测试情况(已经测完),会从一个已经开发了一半的项目开始,让它完成功能升级,涉及到数据结构、业务逻辑,以及多个页面的修改。

看看它在稍微复杂一点的项目中表现如何,这个是比较关键的一个测试!

另外我也会做一些常规的智力测试,以及全面地做一个延迟和速度的测试。

所有的测试结果,我会同步到 https://topai.tonyhub.xyz/ 上面!

 

小尾巴==========================
公众号:托尼不是塔克
交流群
知识星球
==============================

 



发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注