AI写作文早不是啥新鲜事了。比起几年前的稚拙,现在的AI写起文章来已经更加得心应手,只要给它的提示词合适,那它们还真能写出挺像模像样的文章。不仅如此,AI还能对文章做出品评,指出文章的优点和不足,还有学生根据AI的建议修改作文后,获得了老师的好评。
那么问题来了,如果让AI自己写作文,自己评分数,会出现什么情况呢?
今天是2025年高考第一天,我们拿高考作文题,让AI之间来个了大PK,并让它们互相评价,结果竟然出乎意料。
测验方法
本次测验选取了7位本地AI考生/考官,为了保障大家的隐私,这里全部使用了化名。AI考生写作文的时候,为了防止作弊,均关闭了联网搜索选项。为了保证考生的文章深度配得上高考题,均打开了类似“深度思考”类选项。
每位考生收到的考题均为全国卷一作文题,没有其他提示词。
每位考生收到的“全国卷一作文题”
每位考官收到的评分标准和提示词也是一样的,作文部分则直接粘贴各个AI考生的作文。
为防止干扰,每批改一位考生的作文,就新建一个对话。
每位考官收到的不同考生作文并要求打分
测验结果
经过我们的一番操作,所有AI考生均顺利完成了作文,所有的AI考官也都完成了批改!结果真的太好玩了!
注:每一列的分数,表示一位AI考官分别给每位AI考生的大作打的分数
结合各位“AI考生”的作文和“AI老师”给出的评分,我们来一一看看结果如何。
首先,我们来给AI考生颁奖。
最佳作文奖
获奖者:智言同学
智言同学作文的得分平均分为56.6分,这个分数是所有考生里最高的,实至名归的——全场最佳作文奖。
值得一提的是,全场唯一一个获得过一次满分的作文也是出自智言同学之手哦,文章最后我们也会放出满分作文,供大家阅读。
进步潜力奖
获奖者:K米同学
K米同学获得了50.6分的平均分,上升空间巨大,不过相比于人类考生……有百分之几的考生敢说能拿到更好的成绩?而且,说不定K米同学比较偏科,这次发挥不理想呢?
毫无争议奖
获奖者:心言同学
7位AI阅卷老师对心言同学的打分非常接近(方差仅2.4),所以它的作文成为了成绩争议最小的作文。
争议最大奖
获奖者:通问同学
7位阅卷老师对通问同学的作文打分差异非常大,欣赏通问作文的老师,给出了58分的高分,而不欣赏的老师,给出了49分。
而且K米作为阅卷老师时候,拒绝给通问同学的作文打分(但并没有给出具体理由)。但无论如何通问同学毫无争议地获得了“争议最大奖”。
看完了AI作为考生时候的表现,接下来我们再对AI作为阅卷老师的表现,进行评价和颁奖。
铁面无私奖
获奖者:K米老师
K米老师给所有同学打出的分数平均分为51.7分,甚至对通问同学的作文拒绝评分,成为了最严厉的阅卷老师,大家最好不要落到它手上。
甚至 K米老师给自己的作文仅打出了47的分数,确实客观又铁面无私,真是“狠起来连自己都不放过”,因此,获得了“最铁面无私奖”。
大家都不容易奖
获奖者:心言老师
心言老师给所有同学打出的分数平均分是57.1分,算是非常仁慈了,你是不是也希望它是你的阅卷老师呢?
心如止水奖
获奖者:智言老师
智言老师给出的分数波动最小(最高56,最低54),方差仅为0.6,或许在它看来,别太卷,大家都一样最好。
爱憎分明奖
获奖者:通问老师
通问老师给出的分数波动最大(最高58,最低47),方差14.7。或许正是这样的性格,才让它写出了连K米老师都拒绝打分的文章吧。
不过这里我们得说明一下,如果我们把拒绝打分视作0分,那爱憎分明奖非通问老师莫属。
慧眼识人奖
获奖者:DS老师
DS老师给智言同学打出了全场唯一一个满分60分,给到的是都认可的。
而且,DS老师还为智言同学写下了这样热情洋溢的评语:
金标准奖
获奖者:D包老师
针对每篇作文,D包老师给出的分数与平均值的综合差距比其他老师要小(标准差1.6)。所以,它给出的分数,堪称打分的“金标准”。
品味独特奖
获奖者:K米老师
和金标准奖相对,对于每篇作文,K米老师给出的分数与平均值的综合差距比别的老师的大(标准差4.1),所以它给出的分数总是那么独特,就授予它品味独特奖吧。
最高、最低、最具争议
作文分享
先来看“满分作文”,来自智言同学。
接下来是“低分作文”:
当然,作文毕竟主观性很强,而且AI每次生成和评判,可能都会有一些偏差。因时间有限,测试次数较少,本次结果无法全面体现参赛AI的能力,仅供参考。
为了严谨起见,我们还邀请了一位人类考官(苏哲伦上海市语文高级教师上海市徐汇区语文骨干教师),对这次的最佳作文做出了锐评:
苏老师:我给这篇作文打45分(满分60)。我对全国卷评分标准不大了解,但是既然第一则材料来自阅读Ⅱ《鼓书艺人》,当然不能对阅读Ⅱ的基本情节理解有很大偏差。然而,就我看到的《鼓书艺人》内容,AI作者恐怕是在一本正经地胡说八道,或者说出现了幻觉。老舍的原文中,鼓书艺人“开不了口”,是面对被战争摧残的孩子,想给他们唱一段,又唱不出。但这篇文章,变成了不知哪来的角色“白傻子”面对日寇的刀剑保持沉默。出现这样严重的失误,所以我无法给出高分。