开发“360安全卫士”,Opus4.6把GPT5.3吊起来打了?!

现在还有人用 360 安全卫士吗?我最近一次见它是在我叔的电脑上。

看了一眼,热闹得很,“360 拖家带口”,被我撵走了,卸载了好久!

最近 Opus 和 GPT 都更新了,我想着让他们以 360 为榜样,开发一个“电脑管家”,看看他们的水平如何。

我们先简单地定一个规则:一样的提示词,只做一轮,只测一次,一把定胜负。

如果对话多了,我的因素就会影响结果,次数多了,我的配额就扛不住。

提示词只做宏观描述,给他们自我发挥的空间。

完整的提示词:

“我需要你给我开发一款适合中老年的电脑管家,可以参考 360 安全卫士和腾讯管家。 你首先分析一下需要哪些功能,然后再实现这些功能,最好是能自己写一些测试用例,保证基本功能没啥问题。 我的总体要求是简单,实用,易用。 技术框架你自己选,主要是针对 Windows 用户。”

这是两位选手出场时候的血量:

然后输入提示词,开始干活了。

GPT-5.3-Codex 只用了 4 分钟就直接交作业了。

运行完成之后,它主要是交代了这些:

功能分析(按简单/实用/易用排序)


- 桌面应用:app.py
- 核心逻辑:pc_manager/core.py
- 数据模型:pc_manager/models.py
- 测试用例:tests/test_core.py
- 使用说明:README.md
- 本轮记录(按你要求写入顶部):docs/chatlogs.md

测试结果

- 已执行:python -m unittest discover -s tests -p "test_*.py" -v
- 结果:4 个测试全部通过(OK)

如何运行

1. python app.py
2. 测试:python -m unittest discover -s tests -p "test_*.py" -v

从这里可以看到,它大概是写了 4 个 py 文件,一个 readme。然后做了 4 个测试。

最后教了下运行的方法。

然后我根据它运行的方式启动了应用。

主界面:

果然简单……很复古!

它给这个软件名字叫“银龄电脑管家”。这……估计得 60 岁以上的人用了。

一键体检:

它的体检就是帮你看一下 CPU、内存和硬盘的占用情况,然后结果都是正常。

没有显示 CPU 型号、线程数,也没有显示内存总量,以及 D 盘和 E 盘的状态。

垃圾扫描:

点击直接卡死,等待一段时间后出现了一个结果,好像干了,又好像什么都没干。

那个“立即清理”我是没有点,因为我不太敢点。

启动项目:

启动项管理列出了一些启动项,但是没办法管理。

风险进程:

风险进程好像干了,又好像没干。可能我电脑太安全了,没有给它发挥的空间。

简单总结一下:

这个软件界面我就不评价了。功能的话,也就第一项能看下 CPU、内存和 C 盘的使用率。360 看到这个,估计要笑晕在厕所,电脑管家看了直摇头。

接下来看看“拖拖拉拉”的 Claude Code 吧。它是单纯慢,混日子,还是干出什么活了?

经过16分钟的奋斗,终于出结果了。

和 GPT-5.3 不同,Opus 4.6 在开发完成之后,直接帮我启动软件并打开了浏览器。

然后列出了

六大功能:

  1. 首页一键体检
  2. 垃圾清理
  3. 开机加速
  4. 系统信息
  5. 大文件管理
  6. 网络诊断

UI 设计特点:

  1. 大字体、大按钮、高对比度配色
  2. 全中文界面
  3. 图形仪表盘直观显示使用率
  4. 操作步骤少
  5. 核心功能一触即达

单元测试:

60 项单元测试已全部通过,覆盖范围包括:

  1. 信息系统
  2. 垃圾清理
  3. 体检评分
  4. 网络诊断

以上共计四大模块。

最后也同样给出了运行和查看的方式。

打开之后主界面如下:

Opus 4.6 取的名字叫“安心电脑管家”。主页面主要显示了:

  1. CPU 使用率
  2. 内存 使用率
  3. 磁盘 使用率

然后还有一键体检、垃圾清理和开机加速的快捷入口。

它采用了这种圆环的方式来表达使用率,会直观一点。

一键体检:

卧槽,还真的能点,还有评分:

看起来像模像样啊!

垃圾清理:

开始扫描之后:

这个也有那么点意思了。

开机加速:

这里列出了所有的启动项,以及后面有一个开关按钮。

系统信息:

系统信息部分主要就是电脑的基本信息:

  1. 处理器
  2. 内存
  3. 磁盘
  4. 网络相关的信息

大文件管理:

大文件管理,没想到它做了这个功能,其实这个功能还蛮有用的。

点完之后:

这效率可以啊,没多久就给我查完了。

网络诊断:

这个功能也是可以用的。它会通过以下多个维度进行网络检测:

  1. Ping 命令
  2. DNS 解析
  3. 网络适配器

现在两位选手的作品都看完了。接下来看看他们血量消耗情况。

GPT-5.3-Codex:

Claude Code 的血槽真的是厚啊,只消耗了 1%。当然他做的事情也比较少。

Opus 4.6:

Opus 4.6 就不一样了,直接一刀砍掉 48%。不得不说,Claude 家的 Token 实在是“金贵”啊。

最后,简单来总结一下。

两个模型都采用了 Python 来进行开发。

其实我觉得它们都有一点点偷懒,在 PC 端的话,用Python 做界面不是特别好。

两个模型差异是,GPT-5.3 使用了原生的 Tkinter 包进行处理 ,Opus 4.6 选择了使用 Web 方案。

其实从方案的选择就决定了最终结果。

因为你用 Tkinter 包的话,一般界面肯定是不怎么好看的;选择 Web 的话,UI 随便搞一下都会比较好看。

从功能的完整性来讲,应该是 Claude Opus 4.6 吊打 GPT-5.3,这个没毛病吧?

GPT-5.3 开发的这个东西,功能太简单了,其实是一个没有任何实际用处的东西。Opus 4.6 开发的版本的话,看起来基本上像模像样,是有点用处的。

从测试用例的角度来讲,Opus 4.6也是吊打GPT5.3了。

Opus 4.6 做了 60 个测试用例,而 GPT-5.3 只做了 4 个测试用例。

彩蛋

我觉得 Opus 4.6 挺能干的,然后我叫它把软件升级一下,添加 GPU 的信息。结果它干了半天,来了一句:“奇怪,模块单独测试正常但 Flask 里没有。” 然后就鬼打墙了,和人类一样,陷入死胡同。

其实我很早就发现,很多模型在 Web 开发上都很厉害,但是一到系统级的层面,就束手无策了。主要是它们会把网络上的或者大脑中的错误信息作为正确信息,没有正确的参考系,又没有足够的思维能力,就迷失了。

还好,Opus 4.6 最后走出来了:

这种走出来的能力,才叫真的思考能力。

为了反复验证这个问题,它自己开了 10 个网页,终于得到了它要的正确结果。

今天的测试就这样吧,只是一个角度的对比,不代表他们全部的能力。

 

小尾巴==========================
公众号:托尼不是塔克
交流群
知识星球
==============================

 



发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注