GLM5.1版“超级玛丽”,有点东西!
Claude Fable 5 轻轻松松地手搓了经典版《超级玛丽》,这还原度有点让人难以置信。

我觉得这个必须要上一个视频了,上一篇槽位都留好了,忘了插入视频。

视频看完了,可能有的人觉得好像也一般。
我要说的是,这个东西主要是看比较。昨天已经发过 MiMo 的效果了,顺带介绍了一下 MiMo Code。
今天来看看 GLM5.1 的效果。
我其实已经把大部分的国产模型和国外模型都测了一遍了!

我实在是太爱测试了,忍不住。AI其实现在还是萌芽阶段,我可以花一年或者两年去做各种测试对比,以后我就是最了解顶级AI的人,等它们觉醒了,还能饶我一命。
说回《超级玛丽》这个例子,除了 Claude 家的之外,整个看下来也就 GLM5.1 的结果还能看。

听说GLM5.2要来了,我们先用5.1做个基准,5.2来了可以再测一波。
下面就一起来看下最终结果,然后我会分享一下制作过程!知其然,也知其所以然!
效果展示
效果大概就是这个样子:

是不是很“牛逼”,充满了“别样”的乐趣。
首先来说说好的地方:

地图基本能看得出超级玛丽的样子。
然后基本操作和逻辑也都是对的,中间不会卡死。
能走到最后,成功完成关卡。
仅这三点已经很厉害了。
然后来说说不太理想的部分:

首先这个跳跃实在是太出众了,跳的比天高。显然不符合原有逻辑!
然后这个地图细节,和原图还是有比较大差异的。
另外有明显的 Bug,两个小蘑菇叠在一起不说,一踩就是一条命没了。
它做到了几分,以及对比 Fable 有多少差异,大家应该是一眼就能看出来的。
Fable 的还原度实在是太高了,基本上在大气层的位置。
细节有很多,然后趣味性也很高,大家可以去TOPAI上在线体验!

目前我已经把8个模型的结果上传了!
制作过程
效果应该已经很直观了,下面看看制作过程,我是怎么一句话做到这个效果的!
我们使用的工具还是 Claude Code,直接通过 JCode 一键配置,一键启动,一键接入 GLM5.1 的官方 API。

打开之后,可以看到模型已经是 GLM-5.1 了,思考强度是 Xhigh。

然后输入需求,需求描述很简单,细节让模型自己去脑补,你说的太清楚,反而会束缚它。
然后一个回车,我们就什么都不用管了。坐等结果就好了!
从截图中可以看到,它整整思考了 6 分 23 秒才开始吐出内容。
这个过程有点久,当然也不算太久。
最终花了 22 分钟搞定整个游戏。

也就是说,整个过程大概花了 28 分钟,好像跟 Claude Fable 差不多时间。
我们上面说了,GLM5.1 的结果,相比其他模型,还是不错的。 它之所以结果比较好,我估计就是因为它中途做了大量的自检和修正。

从整个对话历史中可以看到,有很多这种检测、修正、验证。现在新一批的模型和智能体,都是有这种自我验证的机制的。
它的交付清单是这个样子的:

它这里也说了,单文件,无依赖,约 1982 行。可以看到它做了很多项的状态检测,这一点做得非常好。
所以我一直说,国内比较全面的模型,就是智谱的 GLM 系列,尤其是到了 5.0 版本之后的模型。
当然,跟国际上最顶尖的模型比,那差距还是有的。
从代码行数就能看出个大概。
Claude Fable 当时大概是用了 700 多行就实现了比它更好的效果,它用了将近 2000 行,差不多要接近 3 倍了。
写过程序的人都知道,同样的事情,如果你能用更少的代码实现,那肯定证明你的技术比较强,是吧。而且大部分时候,精简代码是一件非常有难度的事情。要做各种各样的算法优化,或者说是业务逻辑的优化。
GLM 5.1 这一波,相对而言确实还可以,我就不吐槽了!
具体的效果可以直接在网页上体验。如果你想看源代码,右键就可以,没有做压缩处理!

网址:
其他模型的效果我也都传上去了。我会一个一个介绍,你们有兴趣,可以先去玩一下,真的很有意思!
Claude Fable是哪种真的可以玩的,直通四关! 而有些模型,就是来搞笑的,巨抽象,别有乐趣。
既然看到这里了,记得活动一下大拇指,把下面的都点一点,只消耗一粒的能量,不消耗Tokens哦!