AI作答高考卷，测出了什么？

2024-06-25 11:21:45 作者：来源：光明网责任编辑：王倩倩我来说两句

光明网评论员：大模型作答高考卷，一个有意思的实验: 2024年全国高考结束后，上海人工智能实验室的司南评测体系（Open Compass）选取了包括GPT-4o在内的中外6个开源模型，针对高考全国新课标I卷“语数外”三门课程进行了全卷能力测试。结果显示，阿里巴巴的Qwen2-72B语文成绩夺冠，124分；GPT-4o英语成绩居首（似毫无疑问），111分。6个大模型均是数学“学渣”，最高分也没有超过80分。

大模型在高考季刷一下话题，很有趣，因为信息披露有限，也不必得出一些可以较真的结论。只是在测评中，也有一些大模型训练的蛛丝马迹可以捕捉，助人们更丰富地理解AI。

比如，6个模型在语文卷中现代文阅读部分得分差距不大，却在文言文考题中差距极大，垫底的是来自法国Mistral的对话模型。这可以略窥不同模型在训练材料中的语言占比，感受一下欧洲大模型对汉语训练材料的看重程度到底几何。

比如，阅卷老师表示，多数模型无法理解“本体”“喻体”“暗喻”等语文概念，写作文不像写作文，更像问答题。这是因为AI输出本质上是一种基于数据的模式匹配，而不是传递人的情感体验，因此无法生成文章之为文章的那个情感纽带，生成文章字里行间的“潜台词”，故而只有“回答”而不能“作文”。

比如，6个大模型都折戟数学，远未达到及格水平。尤其耐人寻味的是，它们对数学主观题目的回答“具有迷惑性”，甚至出现了过程错误但答案正确的情况。这句话说白了就是，大模型没有足够的逻辑推理能力，但在学到人类这个深度能力之前，它先学会了用数据占有优势撒谎，还可以编造复杂谎言。（见光明网评论员文章《你被人工智能骗过么》）

实际上，“语数外”三科阅卷老师在整体点评时都提到了主观题的问题，除了语文数学上述问题之外，英语阅卷人也提出了大模型的作文超字问题——英语已经是三科中客观性最强的科目。这意味着，大模型在处理复杂上下文时可能会遇到困难，难以准确理解多义性、歧义性和语境变化。而这种多义性与歧义性，以及兼纵理性与情感的处理要求，恰恰是今天大模型们要进军的医疗、司法等领域决策过程的特征。

在现实世界里，高考是选拔赛，也是成人礼。综合理解卷面上的问题与背后的考察意图，是“人”成熟的一个标识，继续社会化的重要准备。大模型“参加”这次高考，作为一个黑盒模型，决策过程难以解释，面对稍微复杂一点的语境，调试性又明显不足，看来还没到说成熟的时候。

相关阅读:

打印 | 收藏 | 发给好友【字号大中小】

今日热词

更多>>福建今日重点

更多>>国际国内热点

关于我们 | 广告服务 | 网站地图 | 网站公告 |

国新办发函[2001]232号闽ICP备案号(闽ICP备05022042号) 互联网新闻信息服务许可证编号：35120170001 网络文化经营许可证闽网文〔2019〕3630-217号
信息网络传播视听节目许可（互联网视听节目服务/移动互联网视听节目服务）证号：1310572 广播电视节目制作经营许可证（闽）字第085号
网络出版服务许可证（署）网出证（闽）字第018号增值电信业务经营许可证闽B2-20100029 互联网药品信息服务（闽）-经营性-2015-0001
福建日报报业集团拥有东南网采编人员所创作作品之版权，未经报业集团书面授权，不得转载、摘编或以其他方式使用和传播
职业道德监督、违法和不良信息举报电话：0591-87095403（工作日9:00-12:00、15:00-18:00） 举报邮箱：jubao@fjsen.com 福建省新闻道德委举报电话：0591-87275327