方舟 Coding Plan:实话实说有点难评!

上上篇文章,讲了一口气拿下四个国产顶级模型套餐

上篇讲了把模型接入最强编程智能体 Claude Code

接下来就可以测试一下实力如何了,我相信很多人也非常好奇!

怀着一点小激动,测试了一把方舟的 Coding Plan(下面简称“方包”——方舟版豆包。)

但是……结果……有点难评!过程非常酸爽!

我花了 39 分钟,它给我写了一个“`”。

其实我也挺佩服“方包”的,你们知道它为了写出这一个点有多努力吗!😄

你看看,就单纯为了把服务启动起来,花了几十分钟。 从 3000 端口一直干到了 3004 端口。

这是我测试模型以来,第一次见到这么努力的模型,其他模型都是“吊儿郎当”几秒钟就搞完了。

我记得当前对比 GLM 4.7 和 Claude 4.5 的时候,觉得GLM 还是差一点意思

看了一下方包的表现,我觉得GLM 4.7 还是蛮优秀的

下面我还原一下我的测试过程。

我的测试非常简单,我就是叫他帮我开发一个个人博客

我总共测试了两次。

下面是我第一次的开发情况:

它成功激活计划模式,我看他的计划列表,写的非常不错。

我的直观感受是这个计划好像比较接近 Claude 4.5 Opus 了。

这是让我有点惊讶的,我觉得可能这个问题太简单了,测不出实力。

然后,我就悠闲的喝了口水,准备验收了!

没想到的是……它一干就是 40 分钟,最后还是没有把服务启动起来。

我看不下去了就 Ctrl+C,退出了。

然后我重新创建了一个项目,提示词严格按照这一段:

用 React 开发个人博客,要求功能完善,设计美观,专业级 UI 和 UX。

因为上次测试 GLM 4.7 也是这段提示词。

接下来它又开始努力干活了。

但是没多久,我发现它又遇到问题了。

基本和上面一样。它自己写的代码,一启动就报错。

然后疯狂的修改,修改完了又报错。然后又修改,然后又报错……

我觉得我能理解他的心理状态,就是很抓狂

最后就是干了 39 分 33 秒终于把服务启动起来了。

这个总结写的挺好!

然后,打开网页一看,就是页面上啥也没有,只有一个“点”,就是开头那个点。

我这次测试,选择的是 Auto 模式。

就是来让火山方舟智能分配请求。

这个模式的描述是:“智能调度模型,基于效果和速度双维度智能匹配最优算力和模型组合,支持尝鲜字节调整以及生态的最新模型能力。”

听着很厉害,但是这个表现着实有点拉跨!

为了等他给我写一个博客 demo,我花了好几个小时啊。国外几个优秀模型都在十几分钟到 20 分钟的样子。

最后只得到一个启动不了的项目,一个只有一个“点”的项目。

跑了两个项目,全部无法正常运行,肯定是哪里出了问题。

我重点怀疑这个 Auto 模式。

所以就分别尝试了用指定模型完成我的需求。

单独测试了 Doubao、Kimi、GLM、DeepSeek 3.2。

Doubao 正常启动了项目,页面效果中规中矩。

Kimi 也正常启动了项目,界面很丑,好像没有载入 CSS 一样。

DeepSeek v3.2 让我吐血退出!

14 分钟过去了,一行代码没写。一直说文件不存在,然后开始删文件,

然后自己取消自己的操作,初始化项目一直失败!!!

可能 DeepSeek 和 Claude Code 八字不合。

GLM 4.7 蠢到可怕!

我怀疑上面的智能分配,就是分配给它了。

为什么有这种怀疑呢?

我切换的 GLM 4.7 之后,第一次测试,大半个小时,服务没起来。我手动关了。

第二次服务启动了,页面报错。

关键是:它说没有任何问题,页面上全是红色错误。

最后经过我不断的提示(骂人🤬)和鞭策(摔键盘⌨️)!

它开发疯狂的尝试:

Port 5173 is in use, trying another one...Port 5174 is in use, trying another one...Port 5175 is in use, trying another one...Port 5176 is in use, trying another one...Port 5177 is in use, trying another one...Port 5178 is in use, trying another one...Port 5179 is in use, trying another one...

最后,消耗了 81% 的配额:

终于,把页面搞出来了:

页面效果吧,其实还可以。

这个问题就很奇怪了,我之前用智谱官方 GLM Coding Plan 的时候,应该是没有这么差的。

当时测试了两次,全部正常启动,打开网页后,页面也是正常的。

难道是 thinking 的问题?


本该 20 分钟搞定事情,测试了一下午 + 一上午,地狱级的开发体验

编程助手能时刻在线的稳定性太重要了。

一旦陷入错误循环,自己意识不到自己的错了,然后跳不出来,真的是太折磨人了。

仿佛看到小白时候的自己!

由于我实在是太好奇了,上面出错的“方包”(怀疑是 GLM)到底写了什么样的页面。

我就让 Claude Code 原版和 Codex 两位老师傅进行了联合会诊。

两位老师傅一上场,就立马发现了各种问题。

这是 Codex 师傅在诊断其中一个项目。

这是 Claude 师傅在诊断另一个项目:

关键时刻见真章啊。方包搞不定的,两位老师傅一出手,成了!~

重点提一下,Claude 老师傅自己开了浏览器,测试页面效果,成功解决疑难杂症。

最后,终于可以看到页面了。

不知道是不是我被折磨太久了。

看到页面哪一刻,第一个感觉是,哇,这 UI 设计的还可以啊

项目1:

这个 logo 好评,它居然自己给自己加了图形 logo。

我只是把文件夹命名为 huoshan,没想到它把博客名字命名为“火山”,还设计一来个简约的火山 logo。

项目2:

如果上面的属于朴素简约,那么这个就有点华丽了,我体验了动态交互的效果,也很不错。

我查看了每个页面,全部显示正常,界面上没有啥 bug。其实要写成这样,也是需要点水平的!

这个东西就很迷惑啊!!!! 你说它到底是什么水平呢?

你说它厉害,那么小错误一堆,代码都跑不起来。如果没人帮助,跑到明年都跑不起来。

你说它不行,那么修复完之后网页还挺不错的。

最后我做个简单的总结!

首先,默认模型整体工程能力较弱。 其次,所有模型好像速度都偏慢,40 分钟左右启动服务。 最后,无法通过 API 设置模型和思考模式,有点难受。

但是,从上面的 UI 来看,其实页面逻辑是完整的,设计风格也不错。

抛开他最终做的规划,以及写的总结文件,都还可以。

也就是说,也有可取之处。

让老师傅看了它们代码,也是说有可取之处,就是差口气。

目前火山的这批“顶级”的国产模型,基本处于经验不足、精力过剩(token 很多)、工资要求低(价格便宜)的阶段。

这就像一个刚做项目的愣头青,没人带,就是废物,老师傅带一带,就能通宵干项目。

所以现在的问题就是:如果让 Claude 4.5 Opus 和 GPT-5.2 Codex 这些老师傅给这些菜鸟分配和验收任务了。

 

小尾巴==========================
公众号:托尼不是塔克
交流群
知识星球
==============================

 



发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注