一份来自政治学研究者的大模型“实用指南”-编程知识

大模型，对一个社会科学的研究者意味着什么？

如果抛开一些为了追新打快蹭热点而进行的类似大模型+万物的“交叉科学”与“跨界研究”，只是将大模型视为一个“强大的工具”，那么这种“智能工具”如何赋能社会科学研究呢？

最近，一些政治学领域的研究学者们从文本分析中的“数据标注”为切入点，为众多社会科学研究者提供了一份在文本分析研究中使用大模型的“实用指南”，论文作者发现，在文本分析的数据标注中使用大模型，不仅可以做到与人类标注者标注质量相当，而且还可以将标注成本降低 60%，标注时间降低近百倍。

论文题目：
How to Use Large Language Models for Text Coding: The Case of Fatherhood Roles in Public Policy

论文链接：
https://arxiv.org/pdf/2311.11844.pdf

早在深度学习的浪潮之初，许多社会科学研究者们就已经开始寻求使用譬如自然语言处理的技术扩展自己研究的范围以及降低自己的研究成本。计算机与相应文本分析、统计模型的引入可以使得研究者广泛无偏的挖掘与分析蕴藏在大量非结构化信息中的“社会议题”。

举个例子，如果一个政治学研究者需要分析在公共政治话语中“父亲”这一语词的角色变化，以服务自己构建的政治分析理论，那么在使用相应这种计算机技术之前，从大量公共政策文件中抽丝剥茧对包含父亲的语词进行提取判断事实上是一种重复的体力劳动，并且受限于人力成本以及不可避免的分析者的个人判断选择，结论总是将会带有主观性与偶然性。

在引入计算机技术之后，无疑借助计算机的信息处理能力使得政治学研究者们可以极大的扩展自己的研究边界与研究范围，以更广泛的数据支持自己的研究结论。但是，在进行文本分析尤其是文本编码任务之时，在垂直领域缺乏高质量的专用数据以及高昂的标注成本又成为了研究者们的拦路虎。

而大模型的出现，恰恰就可以在“数据标注”这一小任务中极大的解放研究者们的双手，甚至从这一步骤出发，大模型未来可能将会带来研究们进行文本分析的潜在规划、成本效率等等方面的巨大改变。那么到底如何才能高效的将大模型嵌入到社会科学学者们进行文本分析的工作流之中呢？这篇论文便以作者自己的一个研究课题“瑞典政治话语中的‘父亲角色’研究”来展示大模型如何赋能政治学研究。

首先，让我们先来介绍一些研究背景，这篇论文的作者们主要针对从 1993年到 2021 年间瑞典政府的政策文件，包含政府提案、报告、立法、调研文件等等，研究公共政治话语中传统的父亲角色如何转变为所谓的“New Father”。

面对大量语料，作者首先将原始文本中含有“父亲（瑞典语中pappa、pappor、fader、fader、far）”的文本提取出来，通过使用词性标注器完成过滤后获得 1911 个句子，在得到初步的文本后，遵循这样一个研究步骤对问题进行分析：

根据理论分析，确定研究对象在文本中的类别种类；
手动构建一个包含数百示例的分类验证集以评估模型效果；
构建初始的 Prompt；
进行 Prompt 工程对提示进行微调；
依据最佳 Prompt 效果完成数据标注。

对应到父亲角色分析之中，作者从三个研究方面确定了父亲角色的分类标签，分别是：

父亲在家庭中的角色：
- 消极正向（PASSIVE）：不参与家庭生活，不与孩子接触，仅仅作为家庭经济来源的提供者或家庭的保护者；
- 积极负向（ACTIVE NEGATIVE）：家庭生活中具有严厉、压迫、暴力、具有攻击性、体罚等的危险特征；
- 关怀正向（ACTIVE POS CARING）：家庭生活中具有关怀、温暖、培育、理解、同理心、倾听、安慰等温柔特征；
- 冒险正向（ACTIVE POSITIVE DARING）：家庭生活中具有冒险、大胆、挑战、运动、外向等积极特征；
- 其他积极（ACTIVE POSITIVE OTHER）：家庭生活中具有正向引领作用，譬如可靠、责任、信任等等能力但又部署于上述其他标签的角色；
- 不适用（NOT APPLICABLE）：文本中体现不出父亲的角色信息。
描述的明确性：
- 显式（EXPLICIT）：正面介绍了父亲的角色；
- 隐式（IMPLICIT）：对父亲角色的描述包含在暗示之中。
描述的规范性：
- 事实（DESCRIPTIVE）：描述性的介绍父亲角色的事实；
- 理想（IDEAL）：介绍父亲角色的理想状态。

基于确定好的分类标注，作者手动构建了 350 个句子分类作为模型的验证集，使用 OpenAI 的 GPT-3 与 GPT-4 模型进行实验。在构建 Prompt 的部分，作者使用英语（文本是瑞典语）书写指令，从语料库中，作者选择了 15 个例句，对模型进行 few-shot learning，并且组合三种任务下不同的标签与示例尝试了不同的 Prompt，针对上述三个任务，作者使用的 Instruction 分别为：

父亲在家庭中的角色：

描述的明确性：

描述的规范性：

从数据标注质量、速度与成本三个方面，作者对大模型应用于文本分析中的数据标注进行了评价，在质量上，作者发现大模型首先通过调整 temperature 参数获得比人类标注更加具有“一致性”的回答，而对于这个有时经过训练的人类标注者也会出错的任务而言，大模型，尤其是 GPT-4 获得了最佳的效果，全面优于 GPT-3 以及单个的人类标注者。

而从速度上来看，大模型“标注” 1911 个句子的时间约为 16 分钟，而人类标注者每小时只能标注约 100 条句子，速度高过人类标注者百倍。从成本而言，调用 OpenAI 模型的成本是 94 美元，而人类标注者每小时工资为 12.35 美元，工作 19 个小时成本为 234.65 美元，是模型成本的 2.5 倍。当然，效果之外，作者也表示了对大模型的机器幻觉问题的担忧，当不可控的模型给出“不道德”的标注并以此用于政治学分析中，将有可能导致许多额外的问题。