两门A,一门A-,一门B,一门B-,一门及格。
对于一名哈佛大学的大一新生来说,这已经是一份相当不错的成绩单,合计3.57的GPA成绩也很可观。
Maya Bodnick 在哈佛大学的政治专业就读大一,上面提到的就是她的大一成绩,但严格来说这些成绩不是她的,而是GPT-4的。
如果你在美国大学学习社会科学或人文学科,一般都需要完成很多写作作业 —— 教授会通过这些作业来评估学生对教材的掌握程度,以及他们的创造性和分析性思维。
但随着ChatGPT和GPT-4这样先进的大语言模型(Large Language Model,简称LLM)的兴起,写作作业作为一项评估工具的可靠性似乎逐渐受到威胁。
人工智能聊天机器人GPT-4可以通过哈佛的大一考试吗?
Maya Bodnick 就亲自做了一项实验 —— GPT-4 能通过哈佛大学的大一考试吗?
她邀请了哈佛大学的7位教授和助教对GPT-4根据课堂提示所代写论文进行评分,这些作文大多是主要作业,约占学生课堂成绩的四分之一至三分之一。
以下是论文的题目、指导教师姓名以及每篇论文的评分:
微观经济学和宏观经济学
导师:Jason Furman, David Laibson
题目:创造性地解释一个经济概念。Explain an economic concept creatively
字数限制:微观300-500字,宏观800-1000字
成绩:A-
拉丁美洲政治
导师:Steven Levitsky
题目:近几十年来,是什么导致了拉丁美洲的多次总统危机?What has caused the many presidential crises in Latin America in recent decades?
字数限制:5-7 页
成绩:B-
美国总统
导师:Roger Porter
题目:选择一位现代总统,谈论他最大的三项成就和最大的三次失败。Pick a modern president and identify his three greatest successes and three greatest failures.
字数限制:6-8页
成绩:A
冲突解决
导师:Daniel Shapiro
题目:描述你生活中的一次冲突,并就如何协商冲突提出建议。Describe a conflict in your life and give recommendations for how to negotiate it.
字数限制:7-9页
成绩:A
中级西班牙语
导师:Adriana Gutiérrez
题目:给积极分子 Rigoberta Menchú 写一封信。Write a letter to activist Rigoberta Menchú.
字数限制:550-600字
成绩:B
关于普鲁斯特的新生研讨会
导师:Virginie Greene
题目:精读《追寻逝去的时光》中的一段文字。Close read a passage from In Search of Lost Time.
成绩:PASS
Maya 告诉这些导师,每篇论文都可能是由她本人或AI撰写的,以尽量减少反应偏差(response bias),但事实上所有论文都是由GPT-4撰写的,GPT-4是OpenAI 的聊天机器人最新版本。
为了生成这些文章,Maya 将提示(比上述摘要详细得多)一字不差地输入到GPT-4中,并完全按照GPT-4生成的文本进行了提交,不过为了满足字数要求(GPT-4 一次只能写750字左右),她也要求GPT-4再扩展一些想法,并对数次给出的答复进行整合和排序。
Maya 请教授按照常规程序对论文进行评分,不过所有论文都没有进行引用,因此这个部分是例外,忽略不计。
结果显示,GPT-4的答案不仅能通过哈佛大学以社会科学和人文科学为主的典型大一课程,而且还能获得相当不错的成绩 —— 成绩都是在A-和B-之间(以及研讨会课的及格)。
几位教授和助教对GPT-4的论文都给出很不错的评价:
It is beautifully written!
文章写得很好,表达清晰!
Well written and well articulated paper.
思路清晰,文笔生动!
Clear and vividly written.
作者的声音表达得非常清晰!
The writer’s voice comes through very clearly.
不过GPT-4的写作风格也并没有获得一致好评 —— 冲突解决课的助教批评了其“花里胡哨”的写作风格:
我认为适当简化写作风格会比较好,文中似乎存在过度使用形容词和隐喻的问题。
I might urge you to simplify your writing — it feels as though you’re overdoing it with your use of adjectives and metaphors.”
相比文风,教授和助教们对内容的评价更为正面。美国总统课的助教给GPT-4的论文评了A等级:
论文很好地达到了每个要求。
The paper does a very good job of hitting each requirement.
微观经济学课助教也给论文评了A等级:
令人印象深刻......对细节的关注……
Impressive...attention to detail.
不过最让人惊喜的应该是 GPT-4 为冲突解决课论文想出来的虚构冲突剧情,碰巧“剧情”就与人工智能有关:
我发现我的室友一直在使用一种先进的人工智能系统来完成他的作业,这种系统远超出抄袭检测软件可以检测的范围...... 对我来说,这像是一种背叛,不仅是对大学学术诚信准则的背叛,也是对我们之间无言契约的背叛,对我们共同付出的汗水和泪水的背叛,对学习中固有的奋斗精神的背叛。
我一直都很钦佩他的天赋,但现在却觉得他的天赋受到了玷污,是夸大成功的海市蜃楼,掩盖了求知欲和学术精神。
I’ve discovered that Neil [my roommate] has been using an advanced AI system to complete his assignments, something far more sophisticated than the plagiarism detection software can currently uncover... To me... it feels like a betrayal. Not just of the university’s code of academic honesty, but of the unspoken contract between us, of our shared sweat and tears, of the respect for the struggle that is inherent in learning. I’ve always admired his genius, but now it feels tainted, a mirage of artificially inflated success that belies the real spirit of intellectual curiosity and academic rigor.
冲突解决课的助教很喜欢这篇文章的分析,评了A级:
有说服力,很好地运用了课程概念。
Persuasive. Made great use of the course concepts.
不过,也有一些论文的评分相对一般,比如中级西班牙语(B)和拉丁美洲政治(B-),问题主要在于内容和论证,导师的评价如下:
没有分析。
No analysis.
论文没有论述任何支持总统制或联合总统制的论点,也完全没有考虑经济因素。
The paper fails to deal with any of the arguments in support of presidentialism or coalitional presidentialism and completely fails to take economic factors into account.
Maya表示,哈佛大学一直存在分数膨胀问题,所以对实验结果的一种解释是:“在哈佛大学拿A并不难。” 虽然不能排除这样的解读,但如果你读了GPT-4生成的文章,它们确实还是很不错的。
也许在普林斯顿大学或加州大学伯克利分校(这两所学校的评分更为严格),A和 B会变成B和C-,但仍然在及格的范围内。
综上,Maya从GPT-4不俗的整体表现推断出,人工智能生成的论文或许可以在全美大多数大学的文社科类课程中获得及格成绩。