这次 GLM4.7要“吊打” Claude opus 了?

错别字,是从小到大一直困扰我的问题。以前是不会写,现在写太快来不及验证。

AI 这么强大,校验工作自然是交给它们了。

其实我的很早就把“AI校验”引入工作流了。

但是GPT5.2和Gemini3Pro都差点意思,都有严重漏检和自我发挥的毛病。

现在用上Claude Opus 4.5和GLM4.7了。

我就让它们来帮我校验一下文章。

不试不知道,一试吓一跳。

没想到 GLM一次找到了32个错误,Claude只找到了22错误。

单从错误数量上来看,GLM吊打Claude了啊。

下面我分享一下,具体的测试过程和测试结果。

校验对象

首先我的测试对象是《40元拿下Google AI Pro会员,怒省1600完整攻略!》这篇文章。

校验规范

我编写一个《校验规范精简版》的校验规范,对各种细节都做了明确的说明。

我明确告诉了它校验规范,核心目的是校验错别字,标点符号,格式等问题。

同时严禁自由发挥,别给我瞎几把润色,好好一篇文章,全是AI味儿。

开始干活

然后开始干活。

打开Claude Code (Cluade和GLM4.7版本)同时输入如下的提示词:

提示词内容:

根据“校验规则精简版.md” 中的规范校验文章“google.md”, 根据规则列出错误信息,并保存到cluadeReview.md, 最后对原文进行修改。

然后CC就开始工作了,最后经过确认 ,就会进行修改。

最终会直接修改google.md ,并且保存修改记录到claudeReview.md。

两个模型都是用同样的方式操作。

一个小插曲。

我发现我的提示词里其实也有错别字。

我把claudeReview.md打成了cluadeReview.md。

这个问题,Claude模型会自动纠正,写的文件名是正确的。GLM4.7不会修改。

好了,我们来看最后的结果。

这是Claude的结果:

总共找到了22个问题。

这是GLM 4.7的结果:

总共找到了32个问题。

结果对比

从数量上来说,GLM绝对是赢了Claude了。但是质量呢,还是分析一下。

怎么分析呢?人工分析么?那要AI干什么?

我当然是让他们互相挑毛病了。

没有什么需求是一句话搞不定的。如果有,那就两句。

帮我对比分析一下review情况。claudeReview.md和glmReview.md 列出他们相同的地方,和不同的地方,最后做一个评判谁校验的比较好。这些结果都写入result.md

然后把这条指令分别给两个模型。

本来我以为,这又是一个势均力敌的比赛,没想到GLM犯了不该犯的错误。

它居然说两个一模一样。。。。

我再三 确认的两个文件完全不一样 。

首先文件名不一样,它也写了是不一样的,应该不会读错。其次,里面的内容也完全不一样。

🤣它说惊人的发现,两份报告完全相同。

这着实惊到我了,肯定是又犯浑了。这种不稳定,让人有点不放心。

这下没办法了。只能看Claude的评价了。


Claude分了六个部分来对比两份校验结果。

下面我们就依次看一下。

一、基本数据对比

指标Claude ReviewGLM Review
严重问题11 处12 处
中等问题6 处12 处
轻微问题5 处8 处
总计22 处32 处

二、相同发现

序号原文错误正确写法问题类型
1加入成之后加入成功之后错别字(缺字)
2我犹豫比较着急我因为比较着急输入法误选
3挺复杂了挺复杂的错别字
4CladueClaude拼写错误
5Login with GoogoleLogin with Google拼写错误
6Goolge OneGoogle One拼写错误
7ChatgptChatGPT专业名词大小写
8图片替代文字非空![]() 格式Markdown 规范
9中英文间多余空格规范空格排版问题

修改建议有差异的问题

原文Claude 建议GLM 建议评价
没多久正的成功了真的成功了终于成功了Claude 更贴近原意
账号地区我问题账号地区的问题账号地区有问题Claude 更准确

三、Claude 独有发现(GLM 漏检)

序号原文错误正确写法问题类型
1很那搞很难搞同音错字
2经过我的分享经过我的分析同音错字
3中间商赚到差距中间商赚到差价词语搭配错误

分析:这三处都是典型的同音错字或词语搭配错误,属于严重问题,GLM 完全漏检。


四、GLM 独有发现(Claude 漏检)

序号原文错误正确写法问题类型是否有效
1编程估计 Antigravity编程工具 Antigravity同音错字✅ 有效
2我在补充我再补充同音错字✅ 有效
3很很明确的很明确的重复字✅ 有效
4gemini.gooogle.comgemini.google.com拼写错误✅ 有效
539.9RMB¥39.9 或 39.9 元金额格式✅ 有效
6Google Al planGoogle AI plan英文引用❌ 存疑
7首次专业名词格式中文(英文)规范建议⚠️ 过度

分析

  • GLM 发现了 4 处 Claude 漏检的有效错误
  • 但 GLM 对英文原文引用的”纠正”存在问题(原文是引用 Google 的英文提示,不应修改)
  • GLM 的金额格式检查更细致

五、错误/可疑标注对比

Claude 的问题:

  • 漏检 4 处有效错误(编程估计、我在、很很、gooogle.com)

GLM 的问题:

  1. 问题 1-2:对英文引用内容进行”纠正”(”Al” → “AI”),但原文是直接引用 Google 的英文提示,不应修改引用内容
  2. 问题 22:标注”此图片格式正确,但作为格式示例参考”——这不应出现在校对报告中
  3. 问题 29:将”上谷歌必备技能”标注为问题,但这是口语表达风格,违反了规范中”不改变语言风格”的原则

六、综合评判

评分维度

维度ClaudeGLM说明
错别字检出率★★★★☆★★★★☆各有漏检,打平
专业名词规范★★★☆☆★★★★☆GLM 更细致
金额格式检查★★☆☆☆★★★★★GLM 完胜
Markdown 规范★★★★★★★★★☆Claude 略优
修改建议准确性★★★★★★★★☆☆Claude 更准确
避免误报★★★★★★★★☆☆Claude 更克制
遵循规范原则★★★★★★★★☆☆GLM 有越界

最终评价

项目ClaudeGLM
优势修改建议准确、无误报、严格遵循”不改风格”原则检出数量多、金额格式检查细致、覆盖面广
劣势漏检 4 处有效错误、金额格式未检查存在误报、部分建议违反规范原则

结论

Claude 校验质量略胜一筹

理由:

  1. 准确性优先:校对的核心是”准确”而非”数量”。Claude 的修改建议更准确(如”真的”vs”终于”、”的问题”vs”有问题”)
  2. 无误报:Claude 严格遵循规范中”不确定时保持沉默”的原则,没有错误标注作者风格
  3. 遵循规范:Claude 未越界修改引用内容、未改变口语风格

GLM 虽然发现了更多问题,但存在以下不足:

  • 对英文引用内容的错误”纠正”
  • 部分建议试图改变作者的口语风格
  • 报告中出现无意义条目(问题 22)

建议:综合两份报告使用——以 Claude 的报告为主,补充 GLM 发现的有效问题(编程估计、我在、很很、gooogle.com、金额格式)。


Claude这份报告整体还是可以的。

比较明显的一个问题是,它好像不太想修改Al->AI 这部分。他其中提到了一个理由是,这是“引用”里的文字,不应该修改。

而GLM 把类似的两个问题全部揪出来了。

这一点,我还是比较支持GLM。 虽然Cluade 有他自己的逻辑。但是我的目的还是希望不要有错别字。

其实这个错别字是由腾讯的截图识别引入的,我都没发现。

这一波应该是要夸一下GLM的。

而且GLM还检查出了四个Claude没有检查出来,但是明显是错别字的问题。

说完不错的。接下来说他的问题。

GLM的问题是,它会试图修改作者的表达风格

比如这句“没多久正的成功了” ,Claude只修改了错别字,改为“真的成功了” ,而GLM是改为了“终于成功了” 。两个表达确实是有差别的。

这种情况不止一处。

还有一个“39.9RMB” 以及240U。其实我是故意用RMB和USDT 。Claude 懂了,没改,GLM改成标准格式了。

它也没错,但是我内心还是希望保留,不改。

很神奇的是Claude为什么能Get到我的点?它是如何理解这是我的特殊表达的。

另外它还漏检![QQ20251230-135326] 这一类MD标签,这个问题是我特别指明过的,因为这个[]里的内容不删除,发出去就会很有问题。

还有一个误检,它认为错了,实际没有错误,它也没有修改任何东西。

上面已经说了GLM的优点和缺点,反一下就是Claude的优点和缺点了。

Claude主要是稳定。

指令执行能力和语义理解都很强,不会乱改表述风格。发挥稳定,没有误检。

其中有一句要拎出来说一下。

“经过我的分享,谷歌的地区判断起码有三层逻辑。”

这句话所有AI都检查不出问题来,因为单独说“经过我的分享” 好像是没有问题的。

但是在这个语境下,绝对不应该用“分享”。比较好的是“分析”。

我还专门把这句话拎出来问过GPT5.2, 它说没毛病。

总得来说,这次两位的表现还是不错的,有来有回。

相比之前的编程题是单方面碾压,从文章校验的角度来看,GLM还有点用的,至少可以用它来查漏补缺。

这篇文章,我就不Ai校验了,因为里面包含的错别字就是文章主体。

如果其他地方有错别字多多包涵,我不是不认字,只是没校验!

相关文章:

GLM4.7替代Cluade第一步,给CC换上“国产心”!

实测GLM4.7,比起Claude还是差亿点意思!

 

小尾巴==========================
公众号:托尼不是塔克
交流群
知识星球
==============================

 



发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注