2023年12月6日至10日,自然语言处理领域顶会EMNLP 2023在新加坡举行。语音及语言信息处理国家工程研究中心智能语音信息处理团队共3篇论文被会议主会及Findings接收,论文方向涵盖多方对话、大语言模型应用、小说理解等,各接收论文解读见后文。
01 MADNet: Maximizing Addressee Deduction Expectation for Multi-Party Conversation Generation
论文作者:顾佳宸,谭超鸿,储财源,凌震华,陶重阳,刘权,刘聪
论文单位:中国科学技术大学,科大讯飞,北京大学
论文地址:https://aclanthology.org/2023.emnlp-main.476
开源地址:https://github.com/lxchtan/HeterMPC
核心内容:
使用图神经网络对多方对话(MPC)进行建模,已被证明能有效捕捉复杂的图形化信息流。然而,现有方法严重依赖于必要的接收人标签,而且只能应用于理想环境,即每个语句都必须标记"@"或其他等效的接收人标签。为了研究MPC中常见的接收人标签稀缺问题,我们提出了在异构图神经网络中最大化接收人演绎期望的MADNet,用于生成MPC回复。给定一个缺少几个接收人标签的MPC,现有方法无法建立连续连接的对话图,而只能建立几个独立的对话片段。为了确保这些对话片段之间的信息传递,我们设计了四种额外的隐式边(latent edge)来完成一个全连接图。此外,为了优化那些没有接收人标签的语句的边缘类型相关信息传递,还设计了一种基于期望最大化的方法,该方法可以迭代生成估计接收人标签(E步骤),并优化生成回复的质量(M步骤)。在两个Ubuntu IRC 数据集上的实验结果表明,MADNet在生成MPC任务上的表现优于各种基线模型,尤其是在部分接收人标签缺失这种更常见、更具挑战性的情况下。
方法介绍
现实生活中,多方对话往往缺乏接收人标签。本文在利用异构图对回复关系进行建模的模型中,已经证明了该标签能够显著帮助对话回复的生成。为了利用这个优势,本文对异构图网络结构进行扩展,通过无监督的方式对回复关系进行估计,估计的结果将被异构图网络利用生成回复结果。
(1)全连接异构图网络
本文沿用了异构图网络构建的方法,设计对话者与话语两类节点,以及它们之间的6种关系边,包括{reply, replied-by, speak, spoken-by, address, addressed-by}。然而,对于缺失接收人标签的多方对话,现有方法通常返回多个独立的会话片段。为了确保对话片段之间的消息传递,本文设计了四种额外的隐式边,包括{latent-reply, latent replied-by, latent-address, latent-addressed-by},来构建一个全连接的异构图,如下图所示。
全连接多方对话图,其中(a)带有接收人标签的话语的边和(b)无接收人标签的话语的边
(2)期望最大化算法估计回复关系标签
本文采用期望最大化(Expectation Maximization, EM)算法,如下图所示,其中期望步骤和最大化步骤交替执行。期望步骤(E步)将话语的接收人视为离散的潜在变量,迭代生成估计的接收人标签,最大化步骤(M步)从接收人分布中选择具有最高概率的接收人,并利用常规的生成网络训练最小化负对数似然来优化生成模型。
EM算法过程示意图
实验分析
本文在两个Ubuntu IRC 基准上评估了提出的方法。其中一个是由Ouchi和Tsuboi发布的,其中部分历史话语的接收人标签缺失,本文采用了Le等人分享的会话长度为5的子集。另一个数据集为Hu等人发布,每个话语提供了接收人标签。这两个数据集在多方会话领域都得到了广泛应用。
下两表展示了模型生成回复的客观评价指标,分数越高越好,本文提出的MADNet在所有指标上都优于所有基线方法。为了进一步验证提出的方法的有效性,展开了如下图所示的消融实验。首先,在Ouchi和Tsuboi的数据集上删除了用于接收人推断的EM算法。性能的下降说明,准确的接收人标签对于多跳传递中的图信息流建模至关重要。此外,EM是一种有效的接收人推导解决方案。此外,还分别删除了latent-reply和latent-replied-by边,或latent-address和latent-addressed-by边。性能的下降说明了对间接相关话语之间以及话语与对话者之间的交互进行建模对于更好地进行会话语境化的重要性。
在Ouchi和Tsuboi(2016)测试集上的自动评估和消融实验结果
Hu等人(2019)测试集上的自动评估和消融实验结果
下表列出了在随机抽样的测试集上的人类评价结果。对200个样本进行了评估,从0到3打分(3分代表最好),并报告了平均分数。可以看出,MADNet的主观质量得分高于所选的基线模型,表明模型能产生更自然的回复。
MADNet和一些选定系统在Ouchi和Tsuboi(2016)测试集上的人工评估结果
如下表所示,我们随机抽取了一个MPC实例进行案例研究。根据会话图,要生成的回复涉及I.1,因此应收集与I.1相关的信息。从这个实例中可以看出,只有第三句话才有接收人标签,由于缺少接收人标签,建立的对话图非常零散。以不连续连接的图为条件,以前的方法很难捕捉到上下文语义,只能生成“我不确定...... (i m not sure ...)”这样的通用回复。就MADNet而言,第四句话中缺失的接收人标签被推断为I.3,考虑到MPC的语境,这一推断是合适的。根据推导出的接收人标签,第三句话中“分阶段更新(phased update)”的信息可以传递给第四句话。此外,生成的回答即将回复第四句话,因此可以进一步捕捉这一重要信息以生成回复。
测试样本的回复生成结果。"I."是"对话者"("interlocutor")的缩写。
总体而言,我们提出的MADNet性能明显优于之前的方法,在两个Ubuntu IRC 基准上的MPC生成性能达到了最新水平,显示出更好的泛化和鲁棒性,缓解了MPC中缺乏接收人标签的问题。
02 Symbolization, Prompt, and Classification: A Framework for Implicit Speaker Identification in Novels
论文作者:陈越,贺天威,周鸿斌,顾佳宸,卢恒,凌震华
论文单位:中国科学技术大学,上海喜马拉雅科技有限公司
论文地址:https://aclanthology.org/2023.findings-emnlp.225
开源地址:https://github.com/YueChenkkk/SPC-Novel-Speaker-Identification
核心内容
基于小说文本的说话人识别(Speaker Identification in Novels)旨在通过小说中话语的上下文语境理解,识别出小说中话语的说话角色。而“隐含说话人识别”(Implicit Speaker Identification)特指在话语的前后没有出现类似“某人说”这种显式陈述结构,而需要从较大范围的上下文中寻找说话人的情况(如下表中的话语U4),以往的方法在隐含说话人识别任务中表现较差。
小说片段分句,取自《平凡的世界》小说说话人识别数据集
在这项工作中,我们提出了一种全新的“角色符号化——引入提示——分类”(Symbolization, Prompt, and Classification,简称SPC)三阶段说话人识别框架。具体而言,我们首先将话语上下文中所有的角色用符号进行表示,再在话语之后插入一个带有掩蔽字符的提示模板,最后利用语言模型的能力来预测掩蔽字符处应该是哪一角色的符号,由此完成说话人的判定。实验结果显示,该方法在4个小说说话人识别数据集上取得当前最优效果。进一步的分析实验表明,该方法在隐含说话人识别情形下的性能提升尤为明显。
方法介绍
本文通过将上下文中出现的角色名进行符号化以及引入提示,将说话人识别转化成与语言模型的预训练任务相似的分类任务,更好地利用了预训练语言模型的能力,从而提升话者识别的效果。
框架整体结构图
为了获得统一的分类标签集合,我们首先对话语所在上下文中的所有候选角色名称进行符号化(Character Symbolization),即为每个候选人物分配一个唯一标识,并将上下文中出现的所有具体角色名称都替换成对应的标识。为了获得分类器的输入特征,我们首先在话语后插入包含有一个占位符([MASK])的提示模板(Prompt Insertion),例如“([MASK]说了这句话)”。如此,语言模型在占位符对应位置的输出表示即可作为分类器的输入特征。将经过上述处理的上下文输入预训练语言模型,并利用预训练语言模型中的掩蔽字符预测头(MLM Head)作为分类器来预测占位符对应各个角色的概率,也即各个角色是说话人的概率。这样一来,就把说话人识别任务转换成了语言模型的预训练任务——掩蔽字符预测任务的形式,便于语言模型利用预训练阶段学习的知识,快速学习和理解标注数据的含义。
我们还注意到,人类读者在理解小说中多轮对话的时候,往往也根据前后话语来推断当前话语的说话人。受此启发,本文引入了两个辅助角色分类任务(Auxiliary Character Classification,简称ACC)——相邻话语说话人预测任务和掩蔽角色识别任务来指导模型去学习连续对话中的说话人相关性。
实验分析
为了充分探究本文所提框架的实际性能,我们采用相同领域的训练/测试集(in-domain)和不同领域的训练/测试集(cross-domain)两种设定分别进行了实验。在in-domain设定下,我们在4个小说说话人识别数据集上进行了实验;在cross-domain设定下,我们采用喜马拉雅内部网络小说数据集(WN)作为训练集,在《平凡的世界》(WP)和金庸小说(JY)两个基于出版小说的数据集上进行了跨领域测试。
主要实验结果
如上表所示,我们尝试了RoBERTa-base和RoBERTa-large作为本文方法中的预训练模型,均取得了采用相同基础模型的对照组中的最优效果。无论在in-domain还是cross-domain设定下,我们所提的方法都在各个测试数据集上优于以往方法,甚至在大部分情况下也优于zero-shot GPT-3.5。实验结果显示了本文方法具有稳定且优越的性能。除此之外,我们还探究了训练数据量对模型性能的影响。
说话人识别准确率与训练数据量的关系
如上图所示,可以看到随着数据量的增长,以往的方法(CSN)很快就会到达一个性能瓶颈,而无法从海量的训练数据中获得更多的提升。而我们所提的SPC方法不仅能够有效利用海量的训练数据达到更高的最终性能,其在较小的训练数据量下就能获得较好的性能表现,图中显示了SPC仅需5本小说的训练数据就达到了90%以上的测试准确率。
为了验证本文方法是否能够改善前面提到的“隐含说话人识别”问题,我们设计了一个分析实验。首先我们按“真实说话人与话语之间的句子距离”(以下简称“句子距离”)将测试集中的话语进行了分类。例如,对于前文中取自《平凡的世界》数据集中的小说片段,话语U1, U2, U3和U5都属于“句子距离=1”一类,而话语U4属于“句子距离=3”一类。句子距离能够反映话语说话人的隐含程度,如果句子距离较大,说明话语的说话人出现在距离较远的位置,就更需要隐含说话人识别的能力。下图中横轴为句子距离,纵轴为说话人识别准确率,横轴括号内是对应句子距离的一类所占百分比。
说话人识别准确率与句子距离的关系
从上图可以看出,随着句子距离的增大,各方法的说话人识别准确率都呈现下降趋势,但本文所提的SPC方法相对而言更能在句子距离较大时保持较高的准确率。而且在句子距离大于1时,SPC相对基线CSN方法的提升非常明显。由此可见,我们的方法确实在很大程度上解决了隐含说话人识别的困难。
03 Is ChatGPT a Good Multi-Party Conversation Solver?
论文作者:谭超鸿,顾佳宸,凌震华
论文单位:中国科学技术大学
论文地址:https://aclanthology.org/2023.findings-emnlp.326
开源地址:https://github.com/lxchtan/ChatMPC
核心内容
本文深入探讨ChatGPT和GPT-4等生成式大规模语言模型(LLMs)在多方对话(MPC)中的潜力。我们在包含五个代表性任务的三个MPC数据集上分析评估了ChatGPT和GPT-4的零样本学习能力。研究结果表明,ChatGPT在一些已评估的MPC任务中的表现还有待提高,而GPT-4的结果显示出了接近监督模型的能力。此外,考虑到对话者之间、话语之间以及对话者与话语之间复杂的互动关系,将多方对话结构信息纳入其中可能会有所帮助。本文设计了两种结构信息融合,包括说话人结构(Speaker Structure)与接收人结构(Addressee Structure)。具体来讲,说话人结构是通过在话语之前拼接说话人引入,而接收人结构则是通过在话语之前拼接“对谁说”引入。本文对将生成式LLMs应用于MPC进行了详尽的评估和分析,为构想和创建日益有效和强大的多方对话代理提供了启示。同时,这项研究还强调了将LLMs应用于MPC所隐含的挑战,如解读图形信息流和生成风格一致的回应。
方法介绍
为了探索开箱即用的多方对话生成代理,本文将重点放在了零样本设置上,任务涵盖了情绪检测(ED)、接收人识别(AR)、说话人识别(SI)、回复选择(RS)、回复生成(RG)。任务的指令如下图所示。对于每项任务,LLMs首先会收到提示“你已收到一连串按时间顺序排列的多方对话(You have been presented with a sequence of multi-party conversational turns, organized in chronological order.)”,然后在特定任务的提示下完成任务。
任务提示模板
考虑到对话者之间、话语之间以及对话者与话语之间复杂的互动关系,将多方对话结构信息纳入其中可能会有所帮助。本文设计了两种结构信息融合,包括说话人结构(Speaker Structure)与接收人结构(Addressee Structure)。具体来讲,说话人结构是通过在话语之前拼接说话人引入,而接收人结构则是通过在话语之前拼接“对谁说”引入。
实验分析
本文在三个不同的MPC数据集,包括EmoryNLP、MELD和Ubuntu IRC (Hu et al., 2019) 上执行对话回复生成,仔细研究了ChatGPT (gpt-3.5-turbo-0301)和GPT-4 (gpt-4-0314)在处理MPC的潜力。对比的基线为监督训练模型,包括BERT、GPT-2、BART以及各类任务上的SOTA模型。
如下表所示,LLMs在EmoryNLP和MELD数据集上的表现与监督语言模型相当。然而,它们在Ubuntu IRC 上的表现却不尽如人意。不难发现,在所有四项理解任务中,GPT-4的能力都超过了其前身ChatGPT。在ED任务中,ChatGPT和GPT-4的表现都优于BERT,但在EmoryNLP上却低于最先进的水平(SOTA)。此外,在MELD数据集上,ChatGPT落后于BERT。在AR任务中,ChatGPT和GPT-4分别在Ubuntu IRC 数据集上落后于BERT和SOTA。关于SI任务,LLMs在EmoryNLP和MELD数据集上的表现都优于BERT。不过,值得注意的是,在Ubuntu IRC 数据集上,ChatGPT和GPT-4明显落后于监督模型。关于RS任务,只有在MELD数据集上,GPT-4的表现才优于BERT。这可以归因于Ubuntu IRC 偏向于技术性更强的专业领域,这对人类来说也很难理解。
对于纳入对话者信息(w/. Speaker)的情况,可以发现,除了Ubuntu IRC 的RS任务外,在所有五个任务中,说话者信息的加入都能提高ChatGPT (GPT-4) 的性能。在Ubuntu IRC 的RS任务中,ChatGPT的表现不尽如人意,这表明ChatGPT无法最佳地吸收和利用传授的说话人信息,但GPT-4在这项任务中的表现却非常出色。这一结果表明,GPT-4比ChatGPT更善于融合说话者信息。在纳入接收人信息(w/. Addressee)的结果上也能观察到类似的结果。
MPC理解任务的评估结果
如下表所示,本文在三个测试集上评估了监督语言模型和LLM的对话回复生成性能。在所有三个评估子集中,监督模型的SacreBLEU分数在相当多的情况下都超过了LLMs。这种现象在很大程度上是ChatGPT和GPT-4倾向于生成更多冗长回复,不利于SacreBLEU的计算。关于ROUGE-L指标,在EmoryNLP和MELD测试集上,LLM的结果优于监督模型。相比之下,对于Ubuntu IRC 数据集,监督模型的表现更强,这是由于这个特定数据集的理解复杂度更高所致。就METEOR指标而言,在所有测试集中,LLMs都超过了监督模型,从而肯定了LLMs在生成回复方面的强大能力。
纳入对话者的信息有利于生成对话回复,几乎在所有的指标上都有了进一步的提升。同样,接收人信息也进一步提高了LLMs的生成能力。在两类信息的共同作用下,GPT-4在Ubuntu IRC上的METEOR值达到了最高水平,显著优于SOTA监督模型。
MPC生成任务的评估结果
为了具体分析LLMs在MPC生成任务中的表现,本文通过随机选取的例子进行了案例研究,以进一步说明问题。如下表所示,BART生成的答案明显缺乏实质性内容。所有LLMs,尤其是GPT-4,都表现出了生成较长而有意义的答案的能力。虽然ChatGPT和GPT-4能够生成更有针对性的回复,但它们生成冗长回复的倾向妨碍了SacreBLEU的得分。
Ubuntu IRC 上的一个生成任务示例,包含说话人和接收人结构
总体而言,在EmoryNLP和MELD数据集上,ChatGPT和GPT4取得了与监督训练模型相当的性能。然而,ChatGPT在评估的Ubuntu IRC 任务中表现不佳,而GPT-4则显示出了良好的效果。ChatGPT和GPT-4在配备了说话者信息后,几乎在所有任务中都表现出了更高的性能。但是,在有接收人信息的情况下,ChatGPT的性能可能会因受到无关数据的干扰而下降。相反,GPT-4则能恰当地利用这些信息,以更高的熟练度完成任务。
Empirical Methods in Natural Language Processing (EMNLP) 是由ACL语言数据特别兴趣小组SIGDAT组织的自然语言处理和人工智能领域的国际顶级会议,以自然语言处理经验方法为主题,内容涵盖对话与交互系统、自然语言生成、信息抽取、机器翻译、文本总结、NLP应用、大规模语言模型与NLP的未来方向等多个领域。