实验表明:人工智能生成的论文可在全美大多数大学的文社科类课程中获得及格成绩

两门A,一门A-,一门B,一门B-,一门及格。

对于一名哈佛大学的大一新生来说,这已经是一份相当不错的成绩单,合计3.57的GPA成绩也很可观。

Maya Bodnick 在哈佛大学的政治专业就读大一,上面提到的就是她的大一成绩,但严格来说这些成绩不是她的,而是GPT-4的。

图片

如果你在美国大学学习社会科学或人文学科,一般都需要完成很多写作作业 —— 教授会通过这些作业来评估学生对教材的掌握程度,以及他们的创造性和分析性思维。

但随着ChatGPT和GPT-4这样先进的大语言模型(Large Language Model,简称LLM)的兴起,写作作业作为一项评估工具的可靠性似乎逐渐受到威胁。

人工智能聊天机器人GPT-4可以通过哈佛的大一考试吗?

Maya Bodnick 就亲自做了一项实验 ——  GPT-4 能通过哈佛大学的大一考试吗?

图片

她邀请了哈佛大学的7位教授和助教对GPT-4根据课堂提示所代写论文进行评分,这些作文大多是主要作业,约占学生课堂成绩的四分之一至三分之一。

以下是论文的题目、指导教师姓名以及每篇论文的评分:

微观经济学和宏观经济学

导师:Jason Furman, David Laibson

题目:创造性地解释一个经济概念。Explain an economic concept creatively

字数限制:微观300-500字,宏观800-1000字

成绩:A-

拉丁美洲政治

导师:Steven Levitsky

题目:近几十年来,是什么导致了拉丁美洲的多次总统危机?What has caused the many presidential crises in Latin America in recent decades?

字数限制:5-7 页

成绩:B-

美国总统

导师:Roger Porter

题目:选择一位现代总统,谈论他最大的三项成就和最大的三次失败。Pick a modern president and identify his three greatest successes and three greatest failures. 

字数限制:6-8页

成绩:A

冲突解决

导师:Daniel Shapiro

题目:描述你生活中的一次冲突,并就如何协商冲突提出建议。Describe a conflict in your life and give recommendations for how to negotiate it.

字数限制:7-9页

成绩:A

中级西班牙语

导师:Adriana Gutiérrez

题目:给积极分子 Rigoberta Menchú 写一封信。Write a letter to activist Rigoberta Menchú. 

字数限制:550-600字

成绩:B

关于普鲁斯特的新生研讨会

导师:Virginie Greene

题目:精读《追寻逝去的时光》中的一段文字。Close read a passage from In Search of Lost Time.

成绩:PASS

Maya 告诉这些导师,每篇论文都可能是由她本人或AI撰写的,以尽量减少反应偏差(response bias),但事实上所有论文都是由GPT-4撰写的,GPT-4是OpenAI 的聊天机器人最新版本。

为了生成这些文章,Maya 将提示(比上述摘要详细得多)一字不差地输入到GPT-4中,并完全按照GPT-4生成的文本进行了提交,不过为了满足字数要求(GPT-4 一次只能写750字左右),她也要求GPT-4再扩展一些想法,并对数次给出的答复进行整合和排序。

图片

Maya 请教授按照常规程序对论文进行评分,不过所有论文都没有进行引用,因此这个部分是例外,忽略不计。

结果显示,GPT-4的答案不仅能通过哈佛大学以社会科学和人文科学为主的典型大一课程,而且还能获得相当不错的成绩 —— 成绩都是在A-和B-之间(以及研讨会课的及格)。

几位教授和助教对GPT-4的论文都给出很不错的评价:

It is beautifully written!

文章写得很好,表达清晰!

Well written and well articulated paper.

思路清晰,文笔生动!

Clear and vividly written.

作者的声音表达得非常清晰!

The writer’s voice comes through very clearly.

不过GPT-4的写作风格也并没有获得一致好评 —— 冲突解决课的助教批评了其“花里胡哨”的写作风格:

我认为适当简化写作风格会比较好,文中似乎存在过度使用形容词和隐喻的问题。

I might urge you to simplify your writing — it feels as though you’re overdoing it with your use of adjectives and metaphors.”

相比文风,教授和助教们对内容的评价更为正面。美国总统课的助教给GPT-4的论文评了A等级:

论文很好地达到了每个要求。

The paper does a very good job of hitting each requirement.

微观经济学课助教也给论文评了A等级:

令人印象深刻......对细节的关注……

Impressive...attention to detail.

不过最让人惊喜的应该是 GPT-4 为冲突解决课论文想出来的虚构冲突剧情,碰巧“剧情”就与人工智能有关

我发现我的室友一直在使用一种先进的人工智能系统来完成他的作业,这种系统远超出抄袭检测软件可以检测的范围...... 对我来说,这像是一种背叛,不仅是对大学学术诚信准则的背叛,也是对我们之间无言契约的背叛,对我们共同付出的汗水和泪水的背叛,对学习中固有的奋斗精神的背叛。

我一直都很钦佩他的天赋,但现在却觉得他的天赋受到了玷污,是夸大成功的海市蜃楼,掩盖了求知欲和学术精神。

I’ve discovered that Neil [my roommate] has been using an advanced AI system to complete his assignments, something far more sophisticated than the plagiarism detection software can currently uncover... To me... it feels like a betrayal. Not just of the university’s code of academic honesty, but of the unspoken contract between us, of our shared sweat and tears, of the respect for the struggle that is inherent in learning. I’ve always admired his genius, but now it feels tainted, a mirage of artificially inflated success that belies the real spirit of intellectual curiosity and academic rigor.

冲突解决课的助教很喜欢这篇文章的分析,评了A级:

有说服力,很好地运用了课程概念。

Persuasive. Made great use of the course concepts.

不过,也有一些论文的评分相对一般,比如中级西班牙语(B)和拉丁美洲政治(B-),问题主要在于内容和论证,导师的评价如下:

没有分析。

No analysis.

论文没有论述任何支持总统制或联合总统制的论点,也完全没有考虑经济因素。

The paper fails to deal with any of the arguments in support of presidentialism or coalitional presidentialism and completely fails to take economic factors into account.

Maya表示,哈佛大学一直存在分数膨胀问题,所以对实验结果的一种解释是:“在哈佛大学拿A并不难。” 虽然不能排除这样的解读,但如果你读了GPT-4生成的文章,它们确实还是很不错的。

也许在普林斯顿大学或加州大学伯克利分校(这两所学校的评分更为严格),A和 B会变成B和C-,但仍然在及格的范围内。

综上,Maya从GPT-4不俗的整体表现推断出,人工智能生成的论文或许可以在全美大多数大学的文社科类课程中获得及格成绩。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/87558.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

震动分析国标GB/T 19873.3-2019/ISO 13373-3:2015笔记

1.国家标准 1.1震动测量 现行国家标准是:GB/T 19873.2-2009 机器状态监测与诊断 振动状态监测 第2部分:振动数据处理、分析与描述 它的起草人: 郑州机械研究所。西安热工研究院有限公司。东南大学。 主要起草人 韩国明 、张学延 、傅行…

八路参考文献:[八一新书]许少辉.乡村振兴战略下传统村落文化旅游设计[M]北京:中国建筑工业出版社,2022.

八路参考文献:[八一新书]许少辉.乡村振兴战略下传统村落文化旅游设计[M]北京:中国建筑工业出版社,2022.

精进面试技巧:如何在程序员面试中脱颖而出

🌷🍁 博主猫头虎 带您 Go to New World.✨🍁 🦄 博客首页——猫头虎的博客🎐 🐳《面试题大全专栏》 文章图文并茂🦕生动形象🦖简单易学!欢迎大家来踩踩~🌺 &a…

论文阅读_模型结构_LoRA

name_en: LoRA: Low-Rank Adaptation of Large Language Models name_ch: LORA:大语言模型的低阶自适应 paper_addr: http://arxiv.org/abs/2106.09685 date_read: 2023-08-17 date_publish: 2021-10-16 tags: [‘深度学习’,‘大模型’] author: Edward J. Hu cita…

利用深度蛋白质序列嵌入方法通过 Siamese neural network 对 virus-host PPIs 进行精准预测【Patterns,2022】

研究背景: 病毒感染可以导致多种组织特异性损伤,所以 virus-host PPIs 的预测有助于新的治疗方法的研究;目前已有的一些 virus-host PPIs 鉴定或预测方法效果有限(传统实验方法费时费力、计算方法要么基于蛋白结构或基因&#xff…

深眸科技创新赋能视觉应用产品,以AI+机器视觉解决行业应用难题

随着工业4.0时代的加速到来,我国工业领域对于机器视觉技术引导的工业自动化和智能化需求持续上涨,国内机器视觉行业进入快速发展黄金期,但需求广泛出现同时也对机器视觉产品的检测能力提出了更高的要求。 传统机器视觉由人工分析图像特征&am…

TCP协议的重点知识点

TCP协议的重点知识点 TCP(传输控制协议)是一种面向连接、可靠的数据传输协议,工作在传输层,提供可靠的字节流服务。它是互联网协议栈中最重要、最复杂的协议之一,也是面试中常被问到的知识点。本文将详细介绍TCP协议的各个重要概念。 TCP基本特性 TCP主要具有以下基本特性: …

XML—DTD、 Schema

目录 DTD是什么? DTD有什么用途? DTD与XML有什么联系? DTD原理图 外部DTD DTD文件book.dtd: 使用外部DTD文件的XML文件 PCDATA XML 文档构建模块 一、元素 1、元素声明 ①、有元素: ②、空元素: ③、ANY…

JVM 判定对象是否死亡的两种方式

引用计数法:(脑门刻字法)和 可达性分析 引用计数算法 引用计数器的算法是这样的:在对象中添加一个引用计数器,每当有一个地方引用它时,计数器值就加一;当引用失效时,计数器值就减一…

Linux 桌面上的 Firefox 面临着大问题

导读毫无疑问,无论是在桌面、笔记本电脑还是移动设备上,浏览器都是任何操作系统中最重要的应用之一。 如果没有一个功能强大、快速且稳定的浏览器,操作系统的实用性将大幅度降低,以至于我相当确定,如果一个操作系统没有…

将Spring boot 项目部署到tomcat服务艰难

A B C D E F G H I J K L M N O P Q R S T U V W X Y Z X Y Z

基于AVR128单片机智能传送装置

一、系统方案 1、板载可变电阻(电位器)R29的电压作为处理器ATmega128的模数转换模块中单端ADC0的模拟信号输入(跳线JP13短接)。 2、调节电位器,将改变AD转换接口ADC0的模拟信号输入,由处理器完成ADC0的A/D转…