Qwen3.7Max 测了一波有点用不起啊!
这几天Qwen3.7的呼声也挺高的,不少报道都说很强。印象比较深刻是说“国产最佳,世界第二”!
我本来是不想碰Qwen系列的闭源模型了!
但是要求测一下的人很多,又成功激起了我的好奇心!

不得不说,Qwen系列每次更新的封面图还是挺好玩,挺好看的!它们家的 Image 系列是否好久没开源了?
1、先看一波价格
我都准备开始测试了,但是找了半天,我手上都没有好的测试途径。
之前买的 CodingPlan 还有 8 天到期,无法续费,也无法使用 Qwen3.7Max。买一个 TokensPlan 的话 198 元/月起步,稍微好点就要 698 元/月!不太合算啊,我 Opus4.8 也才 140 元不到!
没啥好办法,只能是使用官方 API 了。
然后我就看到了下面的价目表:

输入 12 元,输出 36 元,换成 2.4 元。这个价格……好像不便宜啊!还好现在 5 折,还能送个 100 万 Tokens。
注意 100 万 = 1M ~ 一个上下文的长度,不知道够不够塞牙缝!
2、看一波基准
开始测试之前呢,我们一般要先看看它们自己怎么说的!

这么一看,好像确实很厉害啊!
基本上全方位碾压 DSV4、GLM5.1、Kimi K2.6,包括 Opus4.6Max!
下面是官方博客核心描述:
Qwen3.7-Max 致力于成为全能的智能体基座——无论是编写和调试代码、自动化办公流程,还是在跨越数百乃至数千步的长周期任务中持续自主执行,都能胜任。
Qwen3.7-Max 的核心优势在于智能体能力的广度与深度:
- 编程方面,从前端原型开发到复杂的多文件工程均能驾驭;
- 办公与生产力方面,通过 MCP 集成和多智能体协作实现工作流自动化;
- 长周期自主执行方面,在一项长达 35 小时、超过 1,000 次工具调用的全自主内核优化实验中保持了连贯推理,充分验证了其持久稳定的执行能力;
- 此外,无论部署在 Claude Code、OpenClaw、Qwen Code 还是其他框架下,都能稳定发挥出色的跨框架泛化能力。
抓关键词:“全能的智能体基座,核心优势在智能体能力的广度与深度”!
好了基准、价格、卖点都看完了!开始测一波!
3、开始测试
Qwen 虽然是自家的工具,但是上场测试不是太理想,我还是统一用 Claude Code!
只要稍微配置一下就可以开干了。
配置方式也很简单,打开 JCode,添加配置:
填写 API Key、BaseURL,添加 qwen3.7-max 模型,然后保存!
然后一键调用 CC:

确认配置已经应用成功,然后开搞:

这次测试一个是创建一个叫《江湖百晓生》的网站!这个项目的测试背景,我已经在之前的几篇文章中做了比较详细的介绍。
因为这次 Qwen3.7Max 据说在前端方面表现出众,竞技场上排名前列。

所以这个项目也很合适,这个项目非常考验数据处理能力、个性化设计,以及主题匹配度。
同时最近刚好测试了 Gemini3.5Flash、MiMo、Opus4.7,可以拿来做一个横向对比。
4、结果对比
为了方便大家快速 GET 信息,我就先上结果,再来说过程吧!
Qwen3.7Max 开发的网站首屏如下:

我第一眼看到,整体感觉还可以,小清新淡雅风格。
首先布局上是完全正确的,没有混乱的地方,样式、字体、配色中规中矩,找不出什么大毛病,内容方面不多不少。
其实好不好,主要是看比较。
我们来看看其他选手的首屏。
下面是小米 MiMo2.5Pro 的效果:

下面是 Gemini3.5 做的效果:

下面是 Opus4.7 做的效果:

对比下来大家是什么感受?
MiMo 是有点难看的,它的首轮结果无论布局,还是审美,亦或是数据都非常不理想,无法进一步评价了。
详见:《小米MiMo花了6400万Tokens,结果有点难看!》
Qwen3.7的话整体没任何问题,四平八稳。
但是感觉太平,太淡了!黑色按钮偏现代风!配色不突出,字体不突出,每个页面基本上看起来也差不多,没有太多让人眼前一亮的设计。
武侠最大的魅力就是“仗剑走江湖”,少不了路不平一声吼,也少不了打打杀杀。太过平淡不符合主题!
首屏的描述也比较机械“纵览金庸古龙武侠世界,收录35部经典武侠小说,131位江湖人物,101门绝世武功,52件传世兵器”。
Gemini3.5的话,整体来说比较奔放,充满了情绪!
字体和配色都很大胆。
这金、红、黑配色是要点魄力的!
另外配文也很到位:
第一句点题:
“知天下人、悉天下兵、辨天下武、记天下事”
第二句是各种名言:
“桃花影落飞神剑,碧海潮生按玉箫。” – 黄药师《射雕英雄传》
我是很喜欢这种一句一句的,一句话,就能让你想起一个人,想起一件事儿,悟出一个道理。
它标题的名字也挺有那味儿的。首页叫“江湖首卷”。
它的藏书阁设计的也很有韵味儿:

把每一本书真的设计成了书的样子,只是有简单的几个线条就做到了。
另外还有专门的人物卡片,设计的也挺好的。
详见:《Gemini3.5Flash “吊炸天”!还要啥设计师和前端》
Opus 4.7 就是很精致,很全面,很稳。
它连tab栏的小图标都设计好了,头部的字体也非常有武侠味儿,金庸古龙两个主体也非常明显。
“飞雪连天射白鹿,笑书神侠倚碧鸳”。
再配上这一段:
集金庸古龙两宗笔耕于一阁。一者构千年江湖大势,写侠之大者;一者勾人性悲喜深处,状 孤独浪子。自人物、武学、兵器、门派、地舆五脉而入,或寻一人之传奇,或溯一派之渊源,皆 有迹可循。
这段序文,很有功底。
各种包边设计,就看起来精致,很内敛。
Opus 4.7 这个“死变态”连武林地图和年表都给搞出来了。

这个还可以添加长江黄河。还可以选门派、皇帝、名山、岛屿……选中每一个都有介绍!
Opus 不论做什么系统,只要你要求到位,它都可以做出中上水平!而且是前端设计后端逻辑都没有明显短板。
详见:《还没发布~~》
厉害的选手,做出来的网页,基本上是可以直接上线发布的!
比较菜的就得改很久,可能也改不好。
5、开发过程
结果已经看完了,我们来看看过程!
Qwen3.7Max 的过程整体来说还是比较稳健的。
得到需求之后成功激活了 Plan 模式。然后从技术栈、数据源、设计风格、数据格式等方面进行了询问。

我基本上是根据它的推荐来做选择:

这应该也是当前场景下的优选了!
其实计划部分,现在的模型都可以做的不错,包括 MiMo 也做的很好。就是执行环节完全拉了。
计划的核心内容大致如下:
🏗️ 技术栈:Next.js + React + TypeScript + Tailwind CSS
🎨 设计风格:水墨古风(宣纸底色、墨色朱砂配色、毛笔字体)
📊 数据规模:金庸 15 部 + 古龙 20 部经典,每部整理人物/武功/兵器/场景
📄 页面数量:约 10 种页面类型,含人物关系图谱等特色交互
💾 数据格式:结构化 JSON,约 80-100 个数据文件
下面是它的执行过程和 Todo:

这个安排也是合理的!先基础架构,然后搜集数据,然后核心页面开发,然后特殊功能开发,然后收尾验收。
最终汇报如下:

全程消耗时间 38 分钟!这个脑补的数据来还可以,作为第一个开发测试版本是够用的。
然后全程消耗 37 块钱:

刚好 1 分钟一块钱的样子。
我全程都没有让上网抓数据,完全是让它凭记忆写的。但是这个消耗还是有点大的!
刚开始的1M免费配额秒没,然后钱刷刷刷往上涨!我本来预估10块钱封顶了,毕竟只是一轮测试而已。实际上达到了预期的3倍多接近4倍。
所以第二轮我就不搞了,让他完善数据的话,Tokens又得狂飙!
有点用不起的感觉。
对比而言,DeepSeek 的话,我测了 N 多例子,才消耗了 20 多块钱。价格差这么多,能力并没有那么大的差距。
6、9个前端测试
除了测试上面的项目之外,我也测试了很多其他例子。

比如我们有一套既有趣又有料的题目,总共是 9 个例子,每个例子都有专门的关注点。
比如赛博朋克版清明上河图:

比如古诗版黑客帝国汉字雨:

比如华丽版人机对战五子棋:

最后的测试结果是:9 个例子,翻车 1 个。翻车的是出现了 JS 错误!其中一个“分型烟花秀”开发过程多次卡死!
最终 8 个例子正常拿到结果,做的还不错。整体来说页面布局和设计感,确实中上水平。
当然这个可能跟我的生成环境也有关系。我是在 Qwen 官网的网页设计功能里生成的。可能系统提示词优化!
掌门日记
另外我也测试了《掌门日记》。这个例子有点烧脑。

之前 MiMo 脑烧坏了,直接失败。
Qwen3.7 成功显示了首页:

但是……出现了 JS 错误,导致输入内容无效,无法进入主界面!
Uncaught SyntaxError: Missing } in template expression (括号没有闭合)
看样子还是不太稳,容易出现低级错误。
修复完成之后界面如下:

这个布局和风格还可以!
我感觉他的审美有一点 GPT5.5 的感觉,方方正正,略精致,布局能力比 GPT5.5 应该要好一些!
而且这里还有一个非常有意思的点,它生成网页的时候,居然还配了背景图片。比如五子棋的棋盘,掌门日记的大背景和窗口背景!
我不确定它是基于什么逻辑,但是生成图片的风格和定位做得挺不错的。
有图片背景的话,有时候界面质感会提升一个档次。
毕竟是 Max,能力还是可以的,界面也不错!
但是,代码稳定性还有待提升,遇到几个低级错误!
另外,现在厉害一点的模型,已经会深度分析需求了,并且和主题做完美的结合,具有较强的审美能力。
比如像 Opus4.7 和 Gemini3.6 在设计武侠百科的时候,会自动说一些很有武侠味儿的话,配上特殊的字体,在设计细节上也会很好地融入武侠风格。
这一方面,Qwen3.7 还比较糙,需要慢慢搓。
现在的模型,进步确实是很快的!
Qwen3.7 测起来还是挺无趣,没有太大的槽点,但是也没有那种眼前一亮的感觉。
再看看价格……不打折的话,我一次测试得 80 多?毫无性价比啊!
如果我手里有 Opus4.8 Pro、GPT5.5 Plus、GLM5.1 专业版,还有便宜的 DeepSeek API 的话,我有什么理由选它呢?因为它贵么!
其实这篇我前天就开始写了,最近内容有点多,在排期。现在 Opus4.8 都来了,必须赶紧发掉,测试 Opus4.8 去了,周配额已经重置,两天用一周的量有点爽。Claude 的专业版会员一个月也才 140 元不到啊。