去年初 DeepSeek 风光无限,把英伟达股价都干崩了,大有国产模型碾压一切的趋势!

一年多后 DeepSeek 却几乎销声匿迹了,苦等的 V4 也没来。

别人都是一路狂奔,一个月都能更新一个版本,它倒好,玩起了岁月静好。

最近用一个编程实例把国内外各种模型都测了个遍:

只有 DeepSeek V3.2 没测了。

我一直没有测试,我其实不太想测,因为我大致有数。

但是有朋友强烈要求测一下,好像很多人的心中 DeepSeek 还是世界最强的存在!

好吧,那就测一下,专门去官网充值了 API,然后配置到 Claude Code 中测试。

然后,试试就逝世了:

项目写到一半直接蹦了!

继续了几次都不行,就卡在这里了!

我上面说了,我这是官方正版 API,特地充值的,而且采用了它家最强的推理模型!

国内的主流模型我都试了,没有一个中途撂挑子的。即便是 MiniMax 也不会卡在这个环节。

仔细看了一下错误提示大概是上下文超了。

最大上下文 102400?这是什么鬼!

查了一下资料大概是这么说的:

deepseek-chat(非思考模式,基于 DeepSeek-V3.2) 上下文长度128K tokens(131,072 tokens)

deepseek-reasoner(思考模式 / 推理模型,基于 DeepSeek-V3.2) 上下文长度128K tokens(131,072 tokens)

首先,128K 不是也还没到啊。

其次,都 2026 年了还有旗舰模型上下文是 128K?

这么小的上下文够干什么?

GLM5、Kimi、MiniMax 都 200K+ 了。

Opus 和 Sonnet 都 1M(1024K)上下文了。

便宜是真的便宜,但是这东西根本没法用啊!!!

基于真实项目的编程题太难?那么来个简单的智力测试题:

有 5 个人排成一排,每人帽子颜色为红或蓝。他们可以看到前面的人的帽子,但看不到自己的。主持人宣布:“至少有一顶红帽子。”从最后一人开始,每人依次说“是”或“否”(表示是否知道自己帽子的颜色)。如果第 5 人说“否”,第 4 人说“是”,求所有可能的帽子颜色分布。

结果如下:

消耗时间如下:

题目是回答出来了,但是耗时 120 秒,太久了。Kimi 只花了 20 秒,GLM 只花了 25 秒。

目前在时间和消耗方面,Kimi 和 GLM 确实都不错,基本上每次测试他们都是靠前的!

把 DeepSeek 模型换成 chat 模型,按理说聊天模型会比推理模型快很多。

结果如下:

答案结构混乱,时间消耗还是特别长!

这么一比,小米都变得“眉清目秀”了。

这是要上下文没上下文,要速度没速度啊!

我也让它写了几个网页例子,奇怪得很,明明是国产模型,中文提示词,结果全是英文网页。

写了个五子棋,布局没啥问题,但是它写的 AI 对手非常弱,最高难度都是傻乎乎的。

提示词里专门提了,对战的 AI 要有一定智力程度,它写的这个几乎是“弱智”!

一年前,勉强可以用首图,一年后,只能用这张图了!

这么看来 DeepSeek 没人提起也是正常的,毕竟别人进步太快了,而它却一直止步不前!

我记得 DS 好像和遥遥领先的华为强强联合了吧,结果……停更了?!

群组升级开发测试系列:

Claude Opus 的测试过程和结果

GLM5 的测试过程和结果

MiniMax 2.5 和 Kimi 2.5 的测试过程和结果

GPT5.4 Codex 的测试过程和结果

MiniMax 2.7 的测试过程和结果

小米 MiMo 2 Pro 的测试过程和结果

火山方舟,腾云混元,阿里百炼测试过程和结果

测试的项目地址:

https://github.com/JarvisPMS/codingplan
 

小尾巴==========================
公众号:托尼不是塔克
交流群
知识星球
==============================

 



发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注