AI当考官打分不靠谱？研究：仅半数与专家一致，难辨论文优劣

金色港湾资讯网 2026-06-11 文末可点击分享

【金色港湾资讯网为您推荐阅读】

你可曾设想过, 自己那篇毕业论文, 最终竟是交由一个人工智能去打分? 就在最近, 有一项由英国剑桥大学牵头开展的大规模研究, 把当下最顶尖的生成式人工智能推到了学术评判的位置上。然而其结果, 却令人大为吃惊。

搞研究的团队致使这三款前沿模型, 即Opus 4.6、GPT-5.4以及谷歌Gemini 3 Flash, 针对英国三所大学的761篇实实在在的本科论文一篇一篇地去打分。最终得出结果, 那就是AI给出的评分跟专家评审所授予的学位等级, 仅仅大概有一半是相契合的。更为致命的是, AI在对优秀作业以及薄弱作业进行识别操作时, 频繁出现失准的情况, 这暴露出了其“掐头去尾”的评分模式, 也就是它趋向于对所有论文都给出处于安全范围内的中等分数, 既不会给予优秀论文较高的分数, 也不会给予差论文较低的分数, 好似一个不敢去得罪任何一个人的“老好人”。

怎么会出现AI呈现这样的状况呢? 关键促使因素在于, 其用于评判的逻辑压根就不是依照学术推理以及学科洞察建立的, 而是靠着统计预测来进行的。AI对于语言形式有着过度的敏感表现: 文章篇幅要是越长、词汇越是显得高级、句子结构越是复杂, 那么所得到的分数也就会越高。至于论证是不是严谨、证据是不是充足、批判性思维是不是达到应有的水准, 它根本就不在意。也就是说, AI极其容易被“漂亮的外在表象”所迷惑, 然而却很难透过文字去估量学术思想当中所蕴含的分量。

这一种形式比内容更具重要性的倾向, 致使产生了极为严重的同质化风险, 所有的模型都共同享有同一种机械的逻辑, 它们并非着眼于“理解”论文, 而是着重于匹配语言的模式, 结果, 学生的个性表达、独特的论证途径、并非常规但却富有创见的思考, 反倒很有可能被忽视, 研究团队于不同的时间再三对同一篇论文进行测试, AI每一次给出的分数几乎没有任何变动——从表面上看起来是“一致性很高”, 实际上却暴露出它欠缺真正的判断力。

AI当考官打分不靠谱？研究：仅半数与专家一致，难辨论文优劣(图2)

在评语反馈这个环节当中, AI的局限同样是十分明显的。AI生成的评语篇幅一般情况下是人类的3至8倍, 然而当团队把评语压缩到跟人类一样的长度之后, 要让师生辨别作者的身份, 结果众人是很难区分开来的。可是一旦揭晓哪段话是出自AI之手, 参与者对于AI评语的认可度就会明显下降。这就表明, 教师与教师之间、教师与学生之间那种基于专业默契以及学科共同体的理解, 仍然是AI没有办法取代的。

研究团队着重明确强调, AI最多仅仅能够充当“第二双眼睛”, 将其用于错误检测、一致性检查, 或者标记出AI评分会同人工评分存在显著差异的作业, 进而提请人类重点进行复核。最终成绩必定始终都要由人类来裁定。

面对着一天比一天更加繁重的阅卷压力, 有不少高校的确是在思索着让AI去分担掉一部分属于劳动密集型的阅卷工作。然而, 这一篇名为《AI在大学评估里的应用: 评估自动评分的机遇与风险》的报告发出了警示, 要是把AI推到前台去进行裁断, 不但有可能抹去学生们的个性与才华, 更将会动摇高等教育依靠着维系的信任根基。学术评估所具备的意义, 远远不只是技术层面上的打分而已。它需要让学生们感觉到自己是被重视的。它需要维护学术方面的标准。它更需要维系老师与学生们之间的信任。首先, 师生之间围绕评分达成了一种默契，其次, 师生之间围绕反馈形成了一种期待, 然后, 这种默契与期待本质上是一种“社会契约”, 最后, 它的存续依赖于人对人的认可这件事, 并且依赖人对人的回应这件事。

所以, 答案显然清晰, 于学术质量的评判之地, 人类的推导、阅历与责任心, 直至往昔仍为无法被算法取代的最终屏障, 人工智能能为助手, 然而决然不能居于“裁决位”。

更多精彩文章请关注=>金色港湾资讯网 www.fzjsgw.com

分享更多