ChatGPT的推出引发了广泛的讨论和应用,它的用途多种多样。有些人利用它寻求人生指导,有些人把它当作搜索引擎使用,还有人用它来撰写论文。
在美国,一些大学已经明确禁止学生使用ChatGPT完成作业,并且开发了多种软件工具来识别学生提交的作业是否由GPT生成。
在ChatGPT推出后,至少七家开发商或公司采用AI检测器应对,声称这些工具能够识别出内容是否由人工智能生成。教育工作者、记者以及其他专业人士把这些新开发的算法看作是识别作弊、剽窃以及错误或虚假信息的有效工具。
尽管这听起来十分先进,但斯坦福大学学者最新的研究论文指出了一个重要问题:这些检测器的可靠性并不高。更令人担忧的是,对于非英语母语的真实作者而言,这些检测器的表现尤其不佳。
研究数据揭示了一个严峻现实。尽管在评估美国学生的作文时,这些检测器的表现“几乎完美”,但在对非英语母语学生的托福作文进行评估时,超过半数(61.22%)被错误地标记为由人工智能生成。
情况还有进一步恶化的趋势。研究指出,在评估的91篇托福学生论文中,所有七个AI检测器一致地将18篇(约19%)判定为人工智能生成,而在同一批论文中,有惊人的89篇(约97%)至少被一个检测器错误标记。
*图片源自网络
这项研究表明,GPT检测器对非英语母语作者存在偏见。
“这与检测器如何识别AI生成内容有关,”斯坦福大学生物医学数据科学教授、该研究的主要作者詹姆斯·邹解释道。斯坦福大学是以人为本的AI研究的先锋。“他们主要通过‘困惑度’来评分,这与写作的复杂性有关。在这方面,非英语母语者自然而然地落后于以英语为母语的美国人。”
邹和他的团队指出,非母语人士在词汇丰富度、词汇多样性、句法和语法复杂性等关键困惑度指标上通常得分较低。
此外,研究还发现,通过一些简单的技巧可以规避GPT检测器的监测,减少对非母语作者的误判。这种情况可能让不具备语言优势的一些文章作者感到沮丧。
研究人员从中国的教育论坛上收集了91篇托福考试作文,并从美国Hewlett基金会提供的数据集中选取了88篇美国八年级学生的作文,作为研究样本,以测试当前七种广泛应用的GPT检测器的准确性。
*图片源自网络
通过比较,研究揭露了一个显著的差异:尽管这些作文都是由人类创作,但检测器在评估中国学生的托福作文时,出现了高达76%的误判率,相比之下,美国学生的作文误判率最高仅为12%,甚至有两个检测器未发生任何误判。
进一步的数据分析发现,在所有检测器中,有18篇托福作文被一致判断为AI生成,而其中89篇至少被一个检测器误判。这些被误判的作文在语言复杂度上明显低于其他作文,这似乎表明,检测器对于语言表达能力不强的作者有着固有的偏见。
研究人员不满足于此,他们采取了进一步的步骤来探索偏见的减轻策略。他们将非母语作者的托福作文通过ChatGPT进行语言丰富处理,以模拟母语者的写作风格。同样,他们也对美国八年级学生的作文进行了简化处理,以模仿非母语者的写作特点。
经过这样的调整,检测结果出现了戏剧性的转变:经过语言丰富的托福作文的误判率显著降低,而简化语言处理后的美国学生作文的误判率则显著上升,其中一个检测器的误判率高达99%。
*图片源自网络
通过这一实验,研究人员证明了语言风格和复杂度在GPT检测器的判断中占据了过大的比重,导致非母语者的作品更容易被错误地标记。
这不仅是一个技术问题,更是一个关乎公平性和全面性的价值问题。显然,仅以语言复杂度作为判断标准,对于非母语作者是不公正的。
进一步的实验涉及了对ChatGPT-3.5生成的31篇基于美国大学申请论文进行检测。初次检测时,GPT检测器表现出色;但在研究人员用ChatGPT对这些美国论文进行第二轮润色,增加文学性语言后,检测器的准确率从100%骤降至0%。这一下降再次证实了,检测器在评估经过语言提升的文章时存在明显的盲点。
*图片源自网络
此外,研究人员还尝试了另一个实验,使用斯坦福大学145个期末项目报告的题目,由ChatGPT生成摘要,并对其进行润色。结果表明,润色后的摘要在检测器的准确性评估中,准确率进一步下降,再次验证了先前的结论。
*图片源自网络
总的来说,尽管GPT检测器的开发和部署旨在区分人工智能生成的内容与人类创作的差异,但现实情况表明,这些检测器似乎未能精确捕捉到AI生成内容和人类写作之间最根本的区别。
人类的写作水平是多样化的,存在不同的层次和质量,仅仅依靠文本的复杂度来做出判断显然是不够合理的。这种方法忽略了人类语言的丰富性和变化性,以及不同作者独特的表达方式。
此外,将AI写作与人类写作简单地按照复杂度高低进行分类,可能导致对非英语母语者的不公平对待,因为他们的写作可能在词汇选择和句式构造上与英语母语者有所不同。这种做法不仅体现了技术的局限性,也暴露了在设计和实施这些检测器时未能充分考虑语言多样性和文化差异的问题。