2026年5月29日

Qwen3.7Max 测了一波有点用不起啊！

By tony 默认分类评论 0

这几天Qwen3.7的呼声也挺高的，不少报道都说很强。印象比较深刻是说“国产最佳，世界第二”！

我本来是不想碰Qwen系列的闭源模型了！

但是要求测一下的人很多，又成功激起了我的好奇心！

不得不说，Qwen系列每次更新的封面图还是挺好玩，挺好看的！它们家的 Image 系列是否好久没开源了？

1、先看一波价格

我都准备开始测试了，但是找了半天，我手上都没有好的测试途径。

之前买的 CodingPlan 还有 8 天到期，无法续费，也无法使用 Qwen3.7Max。买一个 TokensPlan 的话 198 元/月起步，稍微好点就要 698 元/月！不太合算啊，我 Opus4.8 也才 140 元不到！

没啥好办法，只能是使用官方 API 了。

然后我就看到了下面的价目表：

输入 12 元，输出 36 元，换成 2.4 元。这个价格……好像不便宜啊！还好现在 5 折，还能送个 100 万 Tokens。

注意 100 万 = 1M ~ 一个上下文的长度，不知道够不够塞牙缝！

2、看一波基准

开始测试之前呢，我们一般要先看看它们自己怎么说的！

这么一看，好像确实很厉害啊！

基本上全方位碾压 DSV4、GLM5.1、Kimi K2.6，包括 Opus4.6Max！

下面是官方博客核心描述：

Qwen3.7-Max 致力于成为全能的智能体基座——无论是编写和调试代码、自动化办公流程，还是在跨越数百乃至数千步的长周期任务中持续自主执行，都能胜任。

Qwen3.7-Max 的核心优势在于智能体能力的广度与深度：

- 编程方面，从前端原型开发到复杂的多文件工程均能驾驭；
- 办公与生产力方面，通过 MCP 集成和多智能体协作实现工作流自动化；
- 长周期自主执行方面，在一项长达 35 小时、超过 1,000 次工具调用的全自主内核优化实验中保持了连贯推理，充分验证了其持久稳定的执行能力；
- 此外，无论部署在 Claude Code、OpenClaw、Qwen Code 还是其他框架下，都能稳定发挥出色的跨框架泛化能力。

抓关键词：“全能的智能体基座，核心优势在智能体能力的广度与深度”！

好了基准、价格、卖点都看完了！开始测一波！

3、开始测试

Qwen 虽然是自家的工具，但是上场测试不是太理想，我还是统一用 Claude Code！

只要稍微配置一下就可以开干了。

配置方式也很简单，打开 JCode，添加配置：

填写 API Key、BaseURL，添加 qwen3.7-max 模型，然后保存！

然后一键调用 CC：

确认配置已经应用成功，然后开搞：

这次测试一个是创建一个叫《江湖百晓生》的网站！这个项目的测试背景，我已经在之前的几篇文章中做了比较详细的介绍。

因为这次 Qwen3.7Max 据说在前端方面表现出众，竞技场上排名前列。

所以这个项目也很合适，这个项目非常考验数据处理能力、个性化设计，以及主题匹配度。

同时最近刚好测试了 Gemini3.5Flash、MiMo、Opus4.7，可以拿来做一个横向对比。

4、结果对比

为了方便大家快速 GET 信息，我就先上结果，再来说过程吧！

Qwen3.7Max 开发的网站首屏如下：

我第一眼看到，整体感觉还可以，小清新淡雅风格。

首先布局上是完全正确的，没有混乱的地方，样式、字体、配色中规中矩，找不出什么大毛病，内容方面不多不少。

其实好不好，主要是看比较。

我们来看看其他选手的首屏。

下面是小米 MiMo2.5Pro 的效果：

下面是 Gemini3.5 做的效果：

下面是 Opus4.7 做的效果：

对比下来大家是什么感受？

MiMo 是有点难看的，它的首轮结果无论布局，还是审美，亦或是数据都非常不理想，无法进一步评价了。

详见：《小米MiMo花了6400万Tokens，结果有点难看！》

Qwen3.7的话整体没任何问题，四平八稳。

但是感觉太平，太淡了！黑色按钮偏现代风！配色不突出，字体不突出，每个页面基本上看起来也差不多，没有太多让人眼前一亮的设计。

武侠最大的魅力就是“仗剑走江湖”，少不了路不平一声吼，也少不了打打杀杀。太过平淡不符合主题！

首屏的描述也比较机械“纵览金庸古龙武侠世界，收录35部经典武侠小说，131位江湖人物，101门绝世武功，52件传世兵器”。

Gemini3.5的话，整体来说比较奔放，充满了情绪！

字体和配色都很大胆。

这金、红、黑配色是要点魄力的！

另外配文也很到位：

第一句点题：

“知天下人、悉天下兵、辨天下武、记天下事”

第二句是各种名言：

“桃花影落飞神剑，碧海潮生按玉箫。” – 黄药师《射雕英雄传》

我是很喜欢这种一句一句的，一句话，就能让你想起一个人，想起一件事儿，悟出一个道理。

它标题的名字也挺有那味儿的。首页叫“江湖首卷”。

它的藏书阁设计的也很有韵味儿：

把每一本书真的设计成了书的样子，只是有简单的几个线条就做到了。

另外还有专门的人物卡片，设计的也挺好的。

详见：《Gemini3.5Flash “吊炸天”！还要啥设计师和前端》

Opus 4.7 就是很精致，很全面，很稳。

它连tab栏的小图标都设计好了，头部的字体也非常有武侠味儿，金庸古龙两个主体也非常明显。

“飞雪连天射白鹿，笑书神侠倚碧鸳”。

再配上这一段：

集金庸古龙两宗笔耕于一阁。一者构千年江湖大势，写侠之大者；一者勾人性悲喜深处，状孤独浪子。自人物、武学、兵器、门派、地舆五脉而入，或寻一人之传奇，或溯一派之渊源，皆有迹可循。

这段序文，很有功底。

各种包边设计，就看起来精致，很内敛。

Opus 4.7 这个“死变态”连武林地图和年表都给搞出来了。

这个还可以添加长江黄河。还可以选门派、皇帝、名山、岛屿……选中每一个都有介绍！

Opus 不论做什么系统，只要你要求到位，它都可以做出中上水平！而且是前端设计后端逻辑都没有明显短板。

详见：《还没发布~~》

厉害的选手，做出来的网页，基本上是可以直接上线发布的！

比较菜的就得改很久，可能也改不好。

5、开发过程

结果已经看完了，我们来看看过程！

Qwen3.7Max 的过程整体来说还是比较稳健的。

得到需求之后成功激活了 Plan 模式。然后从技术栈、数据源、设计风格、数据格式等方面进行了询问。

我基本上是根据它的推荐来做选择：

这应该也是当前场景下的优选了！

其实计划部分，现在的模型都可以做的不错，包括 MiMo 也做的很好。就是执行环节完全拉了。

计划的核心内容大致如下：

🏗️ 技术栈：Next.js + React + TypeScript + Tailwind CSS

🎨 设计风格：水墨古风（宣纸底色、墨色朱砂配色、毛笔字体）

📊 数据规模：金庸 15 部 + 古龙 20 部经典，每部整理人物/武功/兵器/场景

📄 页面数量：约 10 种页面类型，含人物关系图谱等特色交互

💾 数据格式：结构化 JSON，约 80-100 个数据文件

下面是它的执行过程和 Todo：

这个安排也是合理的！先基础架构，然后搜集数据，然后核心页面开发，然后特殊功能开发，然后收尾验收。

最终汇报如下：

全程消耗时间 38 分钟！这个脑补的数据来还可以，作为第一个开发测试版本是够用的。

然后全程消耗 37 块钱：

刚好 1 分钟一块钱的样子。

我全程都没有让上网抓数据，完全是让它凭记忆写的。但是这个消耗还是有点大的！

刚开始的1M免费配额秒没，然后钱刷刷刷往上涨！我本来预估10块钱封顶了，毕竟只是一轮测试而已。实际上达到了预期的3倍多接近4倍。

所以第二轮我就不搞了，让他完善数据的话，Tokens又得狂飙！

有点用不起的感觉。

对比而言，DeepSeek 的话，我测了 N 多例子，才消耗了 20 多块钱。价格差这么多，能力并没有那么大的差距。

6、9个前端测试

除了测试上面的项目之外，我也测试了很多其他例子。

比如我们有一套既有趣又有料的题目，总共是 9 个例子，每个例子都有专门的关注点。

比如赛博朋克版清明上河图：

比如古诗版黑客帝国汉字雨：

比如华丽版人机对战五子棋：

最后的测试结果是：9 个例子，翻车 1 个。翻车的是出现了 JS 错误！其中一个“分型烟花秀”开发过程多次卡死！

最终 8 个例子正常拿到结果，做的还不错。整体来说页面布局和设计感，确实中上水平。

当然这个可能跟我的生成环境也有关系。我是在 Qwen 官网的网页设计功能里生成的。可能系统提示词优化！

掌门日记

另外我也测试了《掌门日记》。这个例子有点烧脑。

之前 MiMo 脑烧坏了，直接失败。

Qwen3.7 成功显示了首页：

但是……出现了 JS 错误，导致输入内容无效，无法进入主界面！

Uncaught SyntaxError: Missing } in template expression (括号没有闭合)

看样子还是不太稳，容易出现低级错误。

修复完成之后界面如下：

这个布局和风格还可以！

我感觉他的审美有一点 GPT5.5 的感觉，方方正正，略精致，布局能力比 GPT5.5 应该要好一些！

而且这里还有一个非常有意思的点，它生成网页的时候，居然还配了背景图片。比如五子棋的棋盘，掌门日记的大背景和窗口背景！

我不确定它是基于什么逻辑，但是生成图片的风格和定位做得挺不错的。

有图片背景的话，有时候界面质感会提升一个档次。

毕竟是 Max，能力还是可以的，界面也不错！

但是，代码稳定性还有待提升，遇到几个低级错误！

另外，现在厉害一点的模型，已经会深度分析需求了，并且和主题做完美的结合，具有较强的审美能力。

比如像 Opus4.7 和 Gemini3.6 在设计武侠百科的时候，会自动说一些很有武侠味儿的话，配上特殊的字体，在设计细节上也会很好地融入武侠风格。

这一方面，Qwen3.7 还比较糙，需要慢慢搓。

现在的模型，进步确实是很快的！

Qwen3.7 测起来还是挺无趣，没有太大的槽点，但是也没有那种眼前一亮的感觉。

再看看价格……不打折的话，我一次测试得 80 多？毫无性价比啊！

如果我手里有 Opus4.8 Pro、GPT5.5 Plus、GLM5.1 专业版，还有便宜的 DeepSeek API 的话，我有什么理由选它呢？因为它贵么！

其实这篇我前天就开始写了，最近内容有点多，在排期。现在 Opus4.8 都来了，必须赶紧发掉，测试 Opus4.8 去了，周配额已经重置，两天用一周的量有点爽。Claude 的专业版会员一个月也才 140 元不到啊。

小尾巴==========================
公众号：托尼不是塔克
 交流群
 知识星球
==============================

关于作者

tony

某人