【AI视野·今日NLP 自然语言处理论文速览第四十五期】Mon, 2 Oct 2023-编程知识

AI视野·今日CS.NLP 自然语言处理论文速览
Mon, 2 Oct 2023
Totally 44 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computation and Language Papers

Efficient Streaming Language Models with Attention Sinks
Authors Guangxuan Xiao, Yuandong Tian, Beidi Chen, Song Han, Mike Lewis
在流媒体应用程序（例如多轮对话）中部署大型语言模型法学硕士是迫切需要的，因为这些应用程序需要长时间的交互，但也带来了两个主要挑战。首先，在解码阶段，缓存先前的令牌Key和Value状态KV会消耗大量内存。其次，流行的法学硕士不能推广到比训练序列长度更长的文本。窗口注意力（仅缓存最近的 KV）是一种自然的方法，但我们表明当文本长度超过缓存大小时它会失败。我们观察到一个有趣的现象，即注意力池，保持初始 token 的 KV 将在很大程度上恢复窗口注意力的性能。在本文中，我们首先证明注意力接收器的出现是由于对作为接收器的初始标记的强烈关注分数，即使它们在语义上并不重要。基于上述分析，我们引入了 StreamingLLM，这是一个高效的框架，使使用有限长度注意窗口训练的 LLM 能够泛化到无限序列长度，而无需任何微调。我们证明 StreamingLLM 可以使 Llama 2、MPT、Falcon 和 Pythia 能够使用多达 400 万个甚至更多的令牌执行稳定且高效的语言建模。此外，我们发现在预训练期间添加占位符令牌作为专用注意力接收器可以进一步改进流部署。在流设置中，StreamingLLM 的性能比滑动窗口重新计算基线高出 22.2 倍。

ToRA: A Tool-Integrated Reasoning Agent for Mathematical Problem Solving
Authors Zhibin Gou, Zhihong Shao, Yeyun Gong, yelong shen, Yujiu Yang, Minlie Huang, Nan Duan, Weizhu Chen
大型语言模型在各种语言任务中取得了重大进展，但它们仍然在复杂的数学方面遇到困难。在本文中，我们提出了 ToRA 一系列工具集成推理代理，旨在通过将自然语言推理与外部工具（例如计算库和符号求解器）的利用无缝集成来解决具有挑战性的数学问题，从而将语言的分析能力和计算能力结合起来。工具的效率。为了训练 ToRA，我们在数学数据集上策划交互式工具使用轨迹，对注释应用模仿学习，并提出输出空间整形以进一步细化模型推理行为。因此，ToRA 模型在所有规模的 10 个数学推理数据集上显着优于开源模型，平均绝对改进为 13 19。值得注意的是，ToRA 7B 在竞赛级别数据集 MATH 上达到 44.6，绝对超过最佳开源模型 WizardMath 70B 22。 ToRA 34B 也是第一个在 MATH 上精度超过 50 的开源模型，显着优于 GPT 4 的 CoT 成绩，在用程序解决问题方面与 GPT 4 具有竞争力。

A Large Language Model Approach to Educational Survey Feedback Analysis
Authors Michael J. Parker, Caitlin Anderson, Claire Stone, YeaRim Oh
本文评估了大型语言模型 LLM GPT 4 和 GPT 3.5 帮助从教育反馈调查中获取见解的潜力。 LLM在教育领域的用例探索主要集中在教学和学习上，而对教育反馈分析能力的探索较少。教育领域的调查分析涉及寻找课程差距或评估教师等目标，通常需要耗时的手动处理文本回复。法学硕士有潜力提供一种灵活的方法来实现这些目标，而无需专门的机器学习模型或微调。我们通过将它们视为自然语言处理 NLP 任务的序列来展示实现这些目标的通用方法，包括分类多标签、多类和二进制、提取、主题分析和情感分析，每个任务均由法学硕士执行。我们将这些工作流程应用于包含来自生物医学科学课程的 2500 个课程结束调查评论的真实数据集，并评估零样本方法，即所有任务中不需要示例或标记训练数据，反映了标记数据通常稀缺的教育环境。通过应用有效的提示实践，我们利用 GPT 4 在多项任务上实现了人类水平的表现，从而实现了实现典型目标所需的工作流程。我们还展示了检查法学硕士思想链 CoT 推理的潜力，以提供可能增强实践信心的见解。此外，本研究还开发了一套多功能的分类类别，适用于各种在线、混合或面对面的课程类型，并且可以定制。

L2CEval: Evaluating Language-to-Code Generation Capabilities of Large Language Models
Authors Ansong Ni, Pengcheng Yin, Yilun Zhao, Martin Riddell, Troy Feng, Rui Shen, Stephen Yin, Ye Liu, Semih Yavuz, Caiming Xiong, Shafiq Joty, Yingbo Zhou, Dragomir Radev, Arman Cohan
最近，大型语言模型法学硕士，特别是那些在代码上进行预训练的法学硕士，已经表现出了以少量甚至零样本方式从自然语言输入生成程序的强大能力。尽管结果令人鼓舞，但仍明显缺乏对这些模型语言到代码生成能力的全面评估。现有的研究通常关注特定的任务、模型架构或学习范式，导致对整体情况的理解支离破碎。在这项工作中，我们提出了 L2CEval，这是对法学硕士在语义解析、数学推理和 Python 编程领域的 7 项任务上的语言到代码生成能力的系统评估，分析了可能影响其性能的因素，例如模型大小、预训练数据、指令调整以及不同的提示方法。除了评估模型性能之外，我们还测量模型的置信度校准并对输出程序进行人工评估。这使我们能够识别和分析各种任务和模型的典型故障模式。 L2CEval 提供了对 LLM 在语言到代码生成方面的功能和限制的全面理解。

CRAFT: Customizing LLMs by Creating and Retrieving from Specialized Toolsets
Authors Lifan Yuan, Yangyi Chen, Xingyao Wang, Yi R. Fung, Hao Peng, Heng Ji
大型语言模型法学硕士通常会使用解决复杂任务的工具进行增强。通过生成代码片段并通过特定于任务的应用程序编程接口 API 执行它们，它们可以将某些功能卸载到专用外部模块，例如图像编码和执行计算。然而，大多数现有的用工具增强法学硕士的方法都受到通用 API 的限制，并且缺乏针对特定任务进行定制的灵活性。在这项工作中，我们提出了 CRAFT，一种适用于法学硕士的通用工具创建和检索框架。它创建专门针对任务的工具集，并为法学硕士配备一个组件，该组件可以从这些工具集中检索工具，以增强他们解决复杂任务的能力。对于每项任务，我们通过提示 GPT 4 解决训练示例来收集特定的代码解决方案。在确保正确性的验证步骤之后，这些解决方案被抽象为代码片段以增强可重用性，并进行重复数据删除以提高质量。在推理时，语言模型从工具集中检索片段，然后执行它们或在检索到的片段上生成输出条件。我们的方法设计灵活，提供一种即插即用的方法，使现成的法学硕士适应未知的领域和模式，无需任何微调。对视觉语言、表格处理和数学推理任务的实验表明，与强大的基线相比，我们的方法取得了实质性的改进。此外，我们的深入分析表明： 1 通过扩大工具数量和骨干模型的能力，可以实现一致的性能改进 2 我们方法的每个组件都有助于性能提升 3 创建的工具结构良好且可靠具有低复杂性和原子性。

Intuitive or Dependent? Investigating LLMs' Robustness to Conflicting Prompts
Authors Jiahao Ying, Yixin Cao, Kai Xiong, Yidong He, Long Cui, Yongbin Liu
本文探讨了法学硕士对其内部记忆或给定提示的偏好的稳健性，由于噪音或任务设置，这些提示可能包含现实世界应用中的对比信息。为此，我们建立了定量基准框架，并进行角色扮演干预来控制LLM的偏好。具体来说，我们定义了两种类型的鲁棒性，事实鲁棒性针对从提示或记忆中识别正确事实的能力，以及决策风格，以对法学硕士在做出一致选择时的行为进行分类，假设没有明确的正确答案（基于直觉、依赖或理性）关于认知理论。我们的研究结果来自对七个开源和闭源法学硕士的广泛实验，表明这些模型非常容易受到误导性提示的影响，特别是在指导常识知识方面。虽然详细的说明可以减少误导性答案的选择，但它们也会增加无效答案的发生率。

Can Sensitive Information Be Deleted From LLMs? Objectives for Defending Against Extraction Attacks
Authors Vaidehi Patil, Peter Hase, Mohit Bansal
预训练的语言模型有时拥有我们不希望它们拥有的知识，包括记忆的个人信息和可用于伤害他人的知识。它们还可以输出有毒或有害的文本。为了缓解这些安全和信息问题，我们提出了一种攻击和防御框架，用于研究直接从模型权重中删除敏感信息的任务。我们研究对模型权重的直接编辑，因为 1 这种方法应该保证特定的删除信息永远不会被未来的即时攻击提取，2 它应该防止白盒攻击，这对于在公开可用模型的环境中提出有关安全隐私的声明是必要的权重可用于获取敏感信息。我们的威胁模型假设，如果敏感问题的答案位于一组 B 生成的候选者中，则攻击成功，基于如果答案在 B 候选者中，信息将不安全的场景。通过实验，我们表明，即使是最先进的模型编辑方法（例如 ROME）也很难真正从 GPT J 等模型中删除事实信息，因为我们的白盒和黑盒攻击可以从当时编辑的模型中恢复已删除的信息 38。这些攻击利用了两个关键观察结果：1、可以在中间模型隐藏状态中找到已删除信息的痕迹；2、对一个问题应用编辑方法可能不会删除该问题的改写版本中的信息。最后，我们提供了新的防御方法来防御某些提取攻击，但我们没有找到单一普遍有效的防御方法。

Overview of the BioLaySumm 2023 Shared Task on Lay Summarization of Biomedical Research Articles
Authors Tomsa Goldsack, Zheheng Luo, Qianqian Xie, Carolina Scarton, Matthew Shardlow, Sophia Ananiadou, Chenghua Lin
本文介绍了在 ACL 2023 的 BioNLP 研讨会上主办的生物医学研究文章的外行摘要 BioLaySumm 共享任务的结果。该共享任务的目标是开发能够生成外行摘要（即可理解的摘要）的抽象摘要模型在可控和不可控环境中面向非技术受众。有两个子任务 1 外行摘要，其目标是让参与者构建仅用于生成外行摘要的模型，将完整的文章文本和相应的摘要作为输入；2 可读性控制的摘要，其目标是让参与者训练模型给定文章的正文作为输入，生成技术摘要和外行摘要。

Few-Shot Domain Adaptation for Charge Prediction on Unprofessional Descriptions
Authors Jie Zhao, Ziyu Guan, Wei Zhao, Yue Jiang, Xiaofei He
最近考虑专业法律语言风格 PLLS 文本的工作在指控预测任务上显示出了有希望的结果。然而，非专业用户对这种预测服务的需求也越来越大。这些外行表达的 PLLS 文本和非 PLLS 文本之间存在明显的领域差异，这降低了当前 SOTA 模型在非 PLLS 文本上的性能。一个关键的挑战是大多数收费类别的非 PLLS 数据稀缺。本文提出了一种新颖的少镜头域自适应 FSDA 方法，名为“电荷预测解缠结法律内容 DLCCP”。与现有的 FSDA 作品仅进行实例级对齐而不考虑潜在特征中存在的文本样式信息的负面影响相比，DLCCP 1 通过精心设计的内容和样式优化目标，解开了内容和样式表示，以实现更好的领域不变法律内容学习空间，并且，2利用电荷的本构元素知识来同时提取和对齐元素级和实例级内容表示。我们贡献了第一个公开可用的非 PLLS 数据集，名为 NCCP，用于开发外行友好的电荷预测模型。

STRONG -- Structure Controllable Legal Opinion Summary Generation
Authors Yang Zhong, Diane Litman
我们提出了一种考虑文件论点结构的长法律意见的结构可控摘要方法。我们的方法涉及使用预测的论点角色信息来指导模型生成遵循所提供的结构模式的连贯摘要。

Enhancing Large Language Models in Coding Through Multi-Perspective Self-Consistency
Authors Baizhou Huang, Shuai Lu, Weizhu Chen, Xiaojun Wan, Nan Duan
大型语言模型法学硕士在文本生成方面表现出了非凡的能力。然而，在复杂的推理任务（例如代码生成）中，一次尝试生成正确答案对于法学硕士来说仍然是一个艰巨的挑战。先前的研究通过聚合多个输出并利用它们之间的一致性来探索解决方案。然而，他们都没有从不同的角度全面捕捉这种一致性。在本文中，我们提出了多视角自一致性 MPSC 框架，这是一种新颖的 LLM 解码策略，它结合了多个视角输出之间的相互一致性和单个视角内的内部一致性。具体来说，我们要求法学硕士从给定查询的不同角度对多个不同的输出进行采样，然后基于它们构建多部分图。通过两个预定义的一致性度量，我们将内部和内部一致性信息嵌入到图中。然后根据图中的一致性分析确定最佳选择。我们通过引入解决方案、规范和测试用例三个角度对代码生成任务进行综合评估。我们利用代码解释器来定量测量内部一致性，并提出几种内部一致性测量函数。

Batch Calibration: Rethinking Calibration for In-Context Learning and Prompt Engineering
Authors Han Zhou, Xingchen Wan, Lev Proleev, Diana Mincu, Jilin Chen, Katherine Heller, Subhrajit Roy
提示和情境学习 ICL 已成为大型语言模型法学硕士的高效学习范例。然而，LLM 面临着提示的脆弱性和提示中的各种偏见因素，包括但不限于格式、语言选择和 ICL 示例。为了解决导致意外性能下降的问题，我们开发了校准方法来减轻这些偏差的影响，同时恢复 LLM 性能。在这项工作中，我们首先对现有的校准方法进行系统分析，既提供了统一的视图，又揭示了失败的案例。受这些分析的启发，我们提出了 Batch Calibration BC ，这是一种简单而直观的方法，可以控制批量输入的上下文偏差，统一各种现有方法，并有效解决上述问题。 BC 是零样本，仅进行推理，并且产生的额外成本可以忽略不计。在少数镜头设置中，我们进一步扩展了 BC，使其能够从标记数据中学习上下文偏差。

LLM-Deliberation: Evaluating LLMs with Interactive Multi-Agent Negotiation Games
Authors Sahar Abdelnabi, Amr Gomaa, Sarath Sivaprasad, Lea Sch nherr, Mario Fritz
人们越来越有兴趣使用大型语言模型法学硕士作为代理来解决可能需要评估复杂情况的现实世界任务。然而，我们对法学硕士的推理和决策能力的了解有限，部分原因是缺乏专门的评估基准。由于谈判和妥协是我们日常沟通和协作的关键方面，我们建议使用可评分的谈判游戏作为法学硕士的新评估框架。我们创建了一个基于多种文本、多代理、多问题、语义丰富的谈判游戏的测试平台，并且难度易于调节。为了解决这一挑战，智能体需要具备强大的算术、推理、探索和规划能力，同时将它们无缝集成。通过系统性的零次思维链促进 CoT，我们表明代理商可以进行谈判并持续达成成功的交易。我们使用多个指标来量化性能，并观察到 GPT 4 与早期模型之间存在巨大差距。重要的是，我们测试了对新游戏和设置的泛化。

Comparative Analysis of Named Entity Recognition in the Dungeons and Dragons Domain
Authors Gayashan Weerasundara, Nisansa de Silva
许多 NLP 任务虽然可以很好地解决一般英语问题，但在奇幻文学等特定领域面临挑战。这在命名实体识别 NER 中很明显，它可以检测文本中的实体并对其进行分类。我们分析了 7 本《龙与地下城》冒险书籍中的 10 个 NER 模型，以评估特定领域的性能。使用开源大型语言模型，我们对这些书中的命名实体进行了注释，并评估了每个模型的精度。

An evaluation of GPT models for phenotype concept recognition
Authors Tudor Groza, Harry Caufield, Dylan Gration, Gareth Baynam, Melissa A Haendel, Peter N Robinson, Chris J Mungall, Justin T Reese
目的临床深度表型分析在罕见疾病患者的诊断以及制定护理协调计划方面发挥着至关重要的作用。该过程依赖于使用本体概念（通常来自人类表型本体）来建模和管理患者档案。机器学习方法已被广泛采用来支持这种表型概念识别任务。随着大多数 NLP 任务使用大型语言模型 LLM 的显着转变，我们在本文中检查了支持 ChatGPT 的最新生成式预训练 Transformer GPT 模型在临床深度表型分析中的性能。材料和方法该研究的实验设置包括七个不同水平特异性的提示、两个 GPT 模型 gpt 3.5 和 gpt 4.0 以及已建立的表型识别金标准。结果我们的结果表明，目前这些模型尚未达到最先进的性能。使用少量镜头学习的最佳运行获得了 0.41 F1 分数，而当前同类最佳工具获得的 F1 分数为 0.62。

LatticeGen: A Cooperative Framework which Hides Generated Text in a Lattice for Privacy-Aware Generation on Cloud
Authors Mengke Zhang, Tianxing He, Tianle Wang, Fatemehsadat Mireshghallah, Binyi Chen, Hao Wang, Yulia Tsvetkov
在当前云上大型语言模型LLM提示生成的用户服务器交互范例中，服务器完全控制生成过程，这为想要将生成的文本保留给自己的用户留下了零选择。我们提出了 LatticeGen，这是一个协作框架，其中服务器仍然处理大部分计算，而用户控制采样操作。关键思想是真实生成的序列由用户与噪声标记混合并隐藏在噪声网格中。考虑到来自假设的恶意服务器的潜在攻击以及用户如何防御它，我们提出了重复波束搜索攻击和混合噪声方案。在我们的实验中，我们应用 LatticeGen 来保护提示和生成。

Using Large Language Models for Qualitative Analysis can Introduce Serious Bias
Authors Julian Ashwin, Aditya Chhabra, Vijayendra Rao
大型语言模型法学硕士正在迅速普及，但其对社会科学研究的影响尚不清楚。本文询问法学硕士是否可以帮助我们分析来自开放式访谈的大量定性数据，并将其应用于孟加拉国考克斯巴扎的罗兴亚难民访谈记录。我们发现，使用法学硕士来注释文本时需要非常谨慎，因为存在引入偏见的风险，从而导致误导性推论。我们这里指的是技术意义上的偏见，即法学硕士在注释面试笔录时所犯的错误相对于面试对象的特征而言并不是随机的。与 LLM 注释相比，通过灵活的编码在高质量人类注释上训练更简单的监督模型可以减少测量误差和偏差。

Promoting Generalized Cross-lingual Question Answering in Few-resource Scenarios via Self-knowledge Distillation
Authors Casimiro Pio Carrino, Carlos Escolano, Jos A. R. Fonollosa
尽管多语言提取问答 QA 取得了实质性进展，但跨语言的高性能且均匀分布的模型仍然具有挑战性，特别是对于资源有限的语言。我们研究跨语言迁移主要关注广义跨语言迁移 G XLT 任务，其中问题语言与上下文语言不同，这是迄今为止受到有限关注的挑战。我们的方法旨在使用在大规模数据集上训练的高性能多语言模型来增强跨语言 QA 迁移，并辅以数千个跨语言对齐的 QA 示例。我们提出的策略结合了跨语言采样和先进的自我蒸馏训练，以应对之前的挑战。值得注意的是，我们引入了新颖的 mAP k 系数来微调自我知识蒸馏损失，动态调节教师的模型知识以执行平衡且有效的知识转移。我们广泛评估了评估 XLT 和 G XLT 在提取 QA 中的能力的方法。结果表明，我们的自知识蒸馏方法明显优于标准交叉熵微调。重要的是，与利用大量机器翻译数据的强大基线相比，尽管在资源有限的环境中（即使是在零样本场景中）运行也面临着巨大的挑战，但我们的方法显示了具有竞争力的结果。除了性能改进之外，我们还通过全面分析和消融研究提供有价值的见解，进一步证实我们方法的优点和局限性。

Fine-grained Late-interaction Multi-modal Retrieval for Retrieval Augmented Visual Question Answering
Authors Weizhe Lin, Jinghong Chen, Jingbiao Mei, Alexandru Coca, Bill Byrne
基于知识的视觉问答 KB VQA 要求 VQA 系统利用现有知识库中的知识来回答基于视觉的问题。检索增强视觉问答 RA VQA 是一个解决 KB VQA 的强大框架，它首先使用 Dense Passage Retrieval DPR 检索相关文档，然后用它们来回答问题。本文提出了细粒度后期交互多模态检索 FLMR，它显着改进了 RA VQA 中的知识检索。 FLMR 解决了 RA VQA 检索器中的两个主要限制：1 通过图像到文本转换获得的图像表示可能不完整且不准确；2 查询和文档之间的相关性分数是使用一维嵌入计算的，这可能对更细粒度的相关性不敏感。 FLMR 通过使用视觉模型通过简单的对齐网络与现有的基于文本的检索器对齐来获取图像表示，从而补充从图像到文本转换的图像表示，从而克服了这些限制。 FLMR 还使用多维嵌入对图像和问题进行编码，以捕获查询和文档之间更细粒度的相关性。 FLMR 将原始 RA VQA 检索器的 PRRecall 5 显着提高了约 8 。

SCALE: Synergized Collaboration of Asymmetric Language Translation Engines
Authors Xin Cheng, Xun Wang, Tao Ge, Si Qing Chen, Furu Wei, Dongyan Zhao, Rui Yan
在本文中，我们介绍了 SCALE，这是一种协作框架，它将紧凑型专业翻译模型 STM 和通用大型语言模型 LLM 连接为一个统一的翻译引擎。 SCALE通过将STM翻译引入上下文演示中的三元组，解锁LLM的细化和枢轴能力，从而减轻LLM的语言偏差和STM的并行数据偏差，在不牺牲通用性的情况下增强LLM专业性，并促进持续学习，而无需昂贵的LLM微调。我们的综合实验表明，在具有挑战性的低资源环境中，SCALE 显着优于少量 LLM GPT 4 和专用模型 NLLB。此外，在科萨语到英语的翻译中，SCALE 在不调整 LLM 的情况下经历了 4 BLEURT 分数的持续改进，并且在配备仅由 600M 参数组成的紧凑模型时，以 2.5 COMET 分数和 3.8 BLEURT 分数超越了少数镜头 GPT 4。 SCALE 还可以通过使用以英语为中心的 STM 作为任何语言对之间翻译的枢纽，有效地利用 LLM 现有的语言偏见，在八个翻译方向上平均比少数 GPT 4 好 6 个 COMET 点。

Interpretable Long-Form Legal Question Answering with Retrieval-Augmented Large Language Models
Authors Antoine Louis, Gijs van Dijck, Gerasimos Spanakis
许多人可能在一生中的某个时刻面临法律纠纷，但他们缺乏对如何解决这些复杂问题的了解，往往使他们变得脆弱。自然语言处理的进步为通过开发自动化法律援助系统来弥合法律素养差距开辟了新途径。然而，现有的法律问答 LQA 方法往往范围狭窄，要么局限于特定的法律领域，要么仅限于简短、无信息的回答。在这项工作中，我们提出了一种端到端方法，旨在利用检索然后读取管道生成任何成文法问题的长格式答案。为了支持这种方法，我们引入并发布了长格式法律问答 LLeQA 数据集，其中包含 1,868 个专家注释的法语法律问题，以及基于相关法律条款的详细答案。我们的实验结果证明了自动评估指标的良好性能，但定性分析揭示了需要改进的领域。作为唯一综合性、专家注释的长格式 LQA 数据集之一，LLeQA 不仅有可能加速解决现实世界重大问题的研究，而且还可以作为评估专业领域 NLP 模型的严格基准。

Contextualising Levels of Language Resourcedness affecting Digital Processing of Text
Authors C. Maria Keet, Langa Khumalo
数字人文等应用领域和聊天机器人等工具涉及某种形式的自然语言处理，从数字化硬拷贝到语音生成。内容的语言通常被表征为低资源语言 LRL 或高资源语言 HRL，也分别称为资源稀缺语言和资源丰富语言。非洲语言被描述为资源稀缺语言 Bosch 等人。 2007 Pretorius Bosch 2003 Keet Khumalo 2014 英语是迄今为止资源最丰富的语言。各种语言资源用于开发这些语言的软件系统，以完成广泛的任务。在本文中，我们认为所有语言的 LRL 和 HRL 二分类型学是有问题的。通过对社会中语言资源的清晰了解，开发了一个矩阵，将语言特征描述为 Very LRL、LRL、RL、HRL 和 Very HRL。表征是基于每个类别的上下文特征的类型学，而不是计数工具，并且为每个特征和每个表征提供了动机。本文重点关注非洲语言，对资源的情境化，以及对项目中使用的语言规模的更多了解，可能有助于更好地规划研究和实施项目。

Benchmarking Cognitive Biases in Large Language Models as Evaluators
Authors Ryan Koo, Minhwa Lee, Vipul Raheja, Jong Inn Park, Zae Myung Kim, Dongyeop Kang
最近，大型语言模型法学硕士已被证明可以作为具有简单提示和上下文学习的自动评估器。在这项工作中，我们聚集了四种不同规模范围的 15 个法学硕士，并通过其他法学硕士作为评估者的偏好排名来评估他们的输出响应，例如 System Star 优于 System Square。然后，我们评估排名输出的质量，引入 LLM 认知偏差基准作为评估者 CoBBLEr，这是一个衡量 LLM 评估输出中六种不同认知偏差的基准，例如自我中心偏差，其中模型更喜欢在评估中对自己的输出进行高排名。我们发现法学硕士是有偏见的文本质量评估者，在他们的每次评估中对所有模型进行 40 次比较的偏差基准平均值中表现出强烈的迹象，质疑他们作为评估者的稳健性。此外，我们检查了人类和机器偏好之间的相关性，并计算出平均排名偏差重叠 RBO 得分为 49.6，表明机器偏好与人类不一致。根据我们的发现，法学硕士可能仍然无法用于符合人类偏好的自动注释。

I Wish to Have an Argument: Argumentative Reasoning in Large Language Models
Authors Adrian de Wynter, Tommy Yuan
我们评估当代大型语言模型法学硕士执行论证推理的能力。我们根据参数挖掘 AM 和参数对提取 APE 任务来构建我们的实验，并评估它们在输入和输出表示（例如任意标签集、语义图）中以不断增加的抽象级别执行推理的能力。我们发现，虽然法学硕士能够匹配或超越 AM 和 APE 的最新技术，但它们的论证推理性能非常依赖于输入和输出表示。我们还发现了一种样本效应，即过多的样本对任务绩效越来越不利，大约 4 5 是最佳数量。这两个结果都没有延伸到 CoT 的思想链，促使我们发现范例效应被抵消，并且我们的结果表明 CoT 可以在病态问题下获得更好的性能。

SSHR: Leveraging Self-supervised Hierarchical Representations for Multilingual Automatic Speech Recognition
Authors Hongfei Xue, Qijie Shao, Kaixun Huang, Peikun Chen, Lei Xie, Jie Liu
多语言自动语音识别 ASR 系统因其扩大全球语言覆盖范围的潜力而受到关注。虽然自监督学习 SSL 已证明其在多语言 ASR 中的有效性，但值得注意的是 SSL 的各个层表示可能包含尚未充分利用的不同信息。在这项研究中，我们提出了一种利用自监督分层表示 SSHR 来微调多语言 ASR 的新颖方法。我们首先分析 SSL 模型的不同层以获取语言相关和内容相关信息，发现显示出更强相关性的层。然后，我们从相关中间层中提取语言相关框架，并通过自注意力机制指导特定内容提取。此外，我们使用我们提出的 Cross CTC 引导模型在最后层获取更多内容相关信息。

Towards a Unified Framework for Adaptable Problematic Content Detection via Continual Learning
Authors Ali Omrani, Alireza S. Ziabari, Preni Golazizian, Jeffery Sorensen, Morteza Dehghani
检测有问题的内容（例如仇恨言论）是一项多方面且不断变化的任务，受到社会动态、用户群体、来源多样性和不断发展的语言的影响。学术界和工业界都做出了巨大努力来开发注释资源，以捕获有问题内容的各个方面。由于研究人员的目标不同，注释不一致，因此有关问题内容检测进展的报告是支离破碎的。除非我们考虑到问题的动态性质来整合资源，否则这种模式预计将持续存在。我们建议整合可用资源，并利用其动态特性来打破这种模式。在本文中，我们介绍了一个用于问题内容检测的持续学习基准和框架，其中包括超过 84 个相关任务，涵盖来自 8 个来源的 15 个注释模式。我们的基准创建了一种新颖的进度衡量标准，优先考虑分类器对不断发展的任务的适应性，而不是在特定任务中的表现。为了确保我们的框架的持续相关性，我们对其进行了设计，以便新任务可以轻松集成到基准测试中。

DeBERTinha: A Multistep Approach to Adapt DebertaV3 XSmall for Brazilian Portuguese Natural Language Processing Task
Authors Israel Campiotti, Matheus Rodrigues, Yuri Albuquerque, Rafael Azevedo, Alyson Andrade
本文提出了一种将英语预训练的 DebertaV3 XSmall 模型应用于巴西葡萄牙语自然语言处理 NLP 任务的方法。该方法的一个关键方面涉及多步骤训练过程，以确保模型针对葡萄牙语进行有效调整。来自 Carolina 和 BrWac 的初始数据集经过预处理，以解决表情符号、HTML 标签和编码等问题。使用 SentencePiece 创建了包含 50,000 个标记的葡萄牙语特定词汇。不是从头开始训练，而是使用预训练的英语模型的权重来初始化大部分网络，并使用随机嵌入，认识到从头开始训练的昂贵成本。该模型使用与 DebertaV3 训练相同格式的替换令牌检测任务进行微调。

Curriculum-Driven Edubot: A Framework for Developing Language Learning Chatbots Through Synthesizing Conversational Data
Authors Yu Li, Shang Qu, Jili Shen, Shangchao Min, Zhou Yu
聊天机器人在教育环境中越来越受欢迎，彻底改变了学生与材料的互动方式以及教师的教学方式。我们提出了 Curriculum Driven EduBot，这是一个开发聊天机器人的框架，它将聊天机器人的交互功能与英语教科书的系统材料结合起来，帮助学生提高会话技能。我们首先从教科书中提取相关主题，然后使用大型语言模型生成与这些主题相关的对话。然后，我们使用生成的对话数据微调开源法学硕士，以创建课程驱动的聊天机器人。用户研究表明，我们的聊天机器人在主导基于课程的对话以及调整对话以匹配用户的英语熟练程度方面优于 ChatGPT。通过将传统教科书方法与对话式人工智能相结合，我们的方法为学习者提供了一种与其课程相一致的互动工具，并提供用户定制的对话练习。

Promptbreeder: Self-Referential Self-Improvement Via Prompt Evolution
Authors Chrisantha Fernando, Dylan Banarse, Henryk Michalewski, Simon Osindero, Tim Rockt schel
像思维链提示这样流行的提示策略可以极大地提高各个领域的大型语言模型法学硕士的推理能力。然而，这种手工制定的提示策略往往不是最优的。在本文中，我们提出了 Promptbreeder，这是一种通用的自我参考自我改进机制，可以针对给定领域发展和调整提示。在法学硕士的推动下，Promptbreeder 改变了一组任务提示，然后评估它们在训练集上的适应性。至关重要的是，这些任务提示的突变是由法学硕士在整个进化过程中以自我参照的方式生成和改进的突变提示控制的。也就是说，Promptbreeder不仅仅是在改进任务提示，而且还在改进改进这些任务提示的突变提示。在常用的算术和常识推理基准上，Promptbreeder 的表现优于最先进的提示策略，例如思想链、计划和解决提示。

How many words does ChatGPT know? The answer is ChatWords
Authors Gonzalo Mart nez, Javier Conde, Pedro Reviriego, Elena Merino G mez, Jos Alberto Hern ndez, Fabrizio Lombardi
ChatGPT的推出让人工智能AI自然语言处理NLP成为人们关注的焦点。 ChatGPT 的采用呈指数级增长，数以百万计的用户在无数的任务和应用程序领域中尝试它，并取得了令人印象深刻的结果。然而，ChatGPT 有其局限性，并且会产生幻觉，例如产生看起来合理但完全错误的答案。评估 ChatGPT 和类似人工智能工具的性能是一个复杂的问题，正在从不同的角度进行探索。在这项工作中，我们使用自动化测试系统 ChatWords 来评估 ChatGPT 对任意单词集的了解。 ChatWords 被设计为可扩展、易于使用，并且适用于评估其他 NLP AI 工具。 ChatWords 是公开可用的，其主要目标是促进人工智能工具词汇知识的研究。 ChatWords 的优势通过两个案例研究来说明，该案例研究评估了 ChatGPT 对取自皇家埃斯帕奥拉官方词典的西班牙语词典以及米格尔·德·塞万提斯 (Miguel de Cervantes) 所著的著名小说《堂吉诃德》中出现的单词的了解。结果显示，ChatGPT 只能识别字典中大约 80 个单词和 Quixote 中的 90 个单词，在某些情况下还可以识别错误的含义。

Persona-Coded Poly-Encoder: Persona-Guided Multi-Stream Conversational Sentence Scoring
Authors Junfeng Liu, Christopher Symons, Ranga Raju Vatsavai
机器学习和深度学习的最新进展导致对话式人工智能在许多实际应用中得到广泛使用。然而，利用可以提供对话上下文或个性化调整的辅助信息来提高对话质量仍然非常具有挑战性。例如，关于使用个人角色信息来提高对话质量的研究非常有限，即使是最先进的对话人工智能技术也无法有效利用来自异构辅助数据源的信号，例如多模态交互数据、人口统计数据在本文中，我们提出了一种新颖的角色编码多编码器方法，该方法利用多流编码方案中的角色信息来提高对话响应生成的质量。为了展示所提出方法的有效性，我们在两个不同的基于角色的会话数据集上评估我们的方法，并与两种最先进的方法进行比较。我们的实验结果和分析表明，我们的方法可以将 BLEU 分数和 HR 1 方面的对话质量分别比基线方法 Poly Encoder 提高 3.32 和 2.94。更重要的是，我们的方法提供了在对话任务中更好地利用多模态数据的途径。

LLM-grounded Video Diffusion Models
Authors Long Lian, Baifeng Shi, Adam Yala, Trevor Darrell, Boyi Li
文本条件扩散模型已成为神经视频生成的有前途的工具。然而，当前的模型仍然难以应对复杂的时空提示，并且经常产生受限或不正确的运动，例如，甚至缺乏提示物体从左向右移动的能力。为了解决这些限制，我们引入了 LLM 接地视频扩散 LVD。 LVD 不是直接从文本输入生成视频，而是首先利用大型语言模型 LLM 基于文本输入生成动态场景布局，然后使用生成的布局来指导视频生成的扩散模型。我们表明，法学硕士能够仅从文本中理解复杂的时空动态，并生成与现实世界中通常观察到的提示和对象运动模式紧密结合的布局。然后，我们建议通过调整注意力图来指导使用这些布局的视频扩散模型。我们的方法是免费训练的，可以集成到任何允许分类器指导的视频扩散模型中。

The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)
Authors Zhengyuan Yang, Linjie Li, Kevin Lin, Jianfeng Wang, Chung Ching Lin, Zicheng Liu, Lijuan Wang
大型多模态模型 LMM 通过多感官技能（例如视觉理解）扩展大型语言模型 LLM，以实现更强大的通用智能。在本文中，我们分析了最新的模型 GPT 4V ision，以加深对 LMM 的理解。分析重点关注 GPT 4V 可以执行的有趣任务，包含测试样本来探究 GPT 4V 功能的质量和通用性、其支持的输入和工作模式以及提示模型的有效方法。在探索 GPT 4V 的方法中，我们策划和组织了一系列精心设计的定性样本，涵盖各个领域和任务。对这些样本的观察表明，GPT 4V 在处理任意交错的多模态输入方面具有前所未有的能力，其功能的通用性共同使 GPT 4V 成为强大的多模态通用系统。此外，GPT 4V 独特的理解输入图像上绘制的视觉标记的能力可以催生新的人机交互方法，例如视觉参考提示。我们在报告最后深入讨论了基于 GPT 4V 的系统的新兴应用场景和未来研究方向。

Wiki-En-ASR-Adapt: Large-scale synthetic dataset for English ASR Customization
Authors Alexandra Antonova
我们提出了第一个大规模公共合成数据集，用于自动语音识别 ASR 的上下文拼写检查定制，重点关注各种罕见和词汇外的 OOV 短语，例如专有名称或术语。所提出的方法允许创建数百万个损坏的 ASR 假设的实际示例，并为定制任务模拟非平凡的偏差列表。此外，我们建议将两种类型的硬负例注入到训练示例中的模拟偏差列表中，并描述我们自动挖掘它们的程序。

Knowledge Graphs for the Life Sciences: Recent Developments, Challenges and Opportunities
Authors Jiaoyan Chen, Hang Dong, Janna Hastings, Ernesto Jim nez Ruiz, Vanessa Lopez, Pierre Monnin, Catia Pesquita, Petr koda, Valentina Tamma
生命科学一词是指研究生物体和生命过程的学科，包括化学、生物学、医学和一系列其他相关学科。

Training and inference of large language models using 8-bit floating point
Authors Sergio P. Perez, Yan Zhang, James Briggs, Charlie Blake, Josh Levy Kramer, Paul Balanca, Carlo Luschi, Stephen Barlow, Andrew William Fitzgibbon
FP8 格式越来越受欢迎，以提高大型深度学习模型训练和推理的计算效率。他们的主要挑战是需要仔细选择缩放比例，以防止由于与更高精度格式相比动态范围减小而导致性能下降。尽管有大量关于为 INT 格式选择此类缩放的文献，但 FP8 尚未解决这一关键方面。本文提出了一种基于动态更新每个张量尺度的权重、梯度和激活来选择 FP8 线性层尺度的方法。我们应用这种方法来使用 FP8 训练和验证 GPT 和 Llama 2 类型的大型语言模型，模型大小范围从 111M 到 70B。

Alphazero-like Tree-Search can Guide Large Language Model Decoding and Training
Authors Xidong Feng, Ziyu Wan, Muning Wen, Ying Wen, Weinan Zhang, Jun Wang
大型语言模型法学硕士通常采用采样或集束搜索，并伴有诸如 Chain of Thought CoT 之类的提示，以提高推理和解码能力。最近的工作，如 Tree of Thought ToT 和 Reasoning via Planning RAP，旨在通过利用树搜索算法指导多步推理来增强法学硕士的推理能力。这些方法主要关注LLM在推理过程中的推理能力，严重依赖人为设计的提示来激活LLM作为价值函数，缺乏普遍适用性和可扩展性。为了解决这些限制，我们提出了一个类似于 AlphaZero 的 LLM 树搜索框架，称为 TS LLM，系统地说明了具有学习值函数的树搜索如何指导 LLM 的解码能力。 TS LLM 在两个关键方面脱颖而出 1 利用学习的价值函数，我们的方法通常可以应用于推理之外的不同任务，例如 RLHF 对齐和任何规模的 LLM，而无需提示高级的大规模模型。 2 它可以在推理和训练过程中指导LLM的解码。

RLAdapter: Bridging Large Language Models to Reinforcement Learning in Open Worlds
Authors Wanpeng Zhang, Zongqing Lu
虽然强化学习 RL 在决策问题上取得了显着的成功，但它通常需要与环境进行大量交互，并且在奖励稀疏的环境中，学习有意义的策略具有挑战性。大型语言模型法学硕士可以为智能体的学习策略提供有价值的指导，从而提高强化学习算法在此类环境中的性能。然而，法学硕士在理解下游任务方面经常遇到困难，这阻碍了他们在这些任务中最佳协助代理的能力。缓解此问题的常见方法是使用任务相关数据对 LLM 进行微调，使它们能够为 RL 代理提供有用的指导。然而，这种方法遇到了一些困难，例如无法访问模型权重或需要大量计算资源，使其不切实际。在这项工作中，我们介绍了 RLAdapter，这是一个通过合并适配器模型在 RL 算法和 LLM 之间建立更好连接的框架。在 RLAdapter 框架内，利用 RL 智能体训练过程中生成的信息对轻量级语言模型进行微调，可以显着帮助 LLM 适应下游任务，从而为 RL 智能体提供更好的指导。我们在 Crafter 环境中进行了评估 RLAdapter 的实验，结果表明 RLAdapter 超越了 SOTA 基线。

DyVal: Graph-informed Dynamic Evaluation of Large Language Models
Authors Kaijie Zhu, Jiaao Chen, Jindong Wang, Neil Zhenqiang Gong, Diyi Yang, Xing Xie
大型语言模型法学硕士在各种评估基准中均取得了骄人的成绩。然而，由于其大量训练语料库中潜在的数据污染，人们对其性能产生了担忧。此外，当前基准的静态性质和固定复杂性可能不足以衡量法学硕士的先进能力。在本文中，我们介绍了 DyVal，一种新颖、通用且灵活的用于法学硕士动态评估的评估协议。基于我们提出的动态评估框架，我们利用有向无环图的结构优势来构建图通知 DyVal，动态生成复杂度可控的评估样本。 DyVal 针对数学、逻辑推理和算法问题等推理任务生成具有挑战性的评估集。我们评估各种法学硕士，从 Flan T5 Large 到 ChatGPT 和 GPT4。实验表明，LLM 在 DyVal 生成的不同复杂度的评估样本中表现较差，强调了动态评估的重要性。我们还分析了不同提示方法的失败案例和结果。此外，DyVal 生成的样本不仅是评估集，而且还是有助于微调的数据，以提高 LLM 在现有基准上的性能。

Benchmarking the Abilities of Large Language Models for RDF Knowledge Graph Creation and Comprehension: How Well Do LLMs Speak Turtle?
Authors Johannes Frey, Lars Peter Meyer, Natanael Arndt, Felix Brei, Kirill Bulert
大型语言模型法学硕士正在快速发展，在自然语言处理和编码任务方面取得了显着进步。然而，它们使用表示数据的形式语言的能力，特别是在知识图工程领域，仍在研究中。为了评估各种法学硕士的熟练程度，我们创建了一组五个任务，探究他们解析、理解、分析和创建以 Turtle 语法序列化的知识图的能力。这些任务各自体现了不同程度的复杂性，并且能够根据问题的规模进行扩展，已被集成到我们的自动化评估系统 LLM KG Bench 中。评估涵盖四个商用 LLM GPT 3.5、GPT 4、Claude 1.3 和 Claude 2.0，以及两个可免费访问的离线模型 GPT4All Vicuna 和 GPT4All Falcon 13B。该分析深入了解了法学硕士在利用 Turtle 表示的 RDF 知识图工程工作流程中的应用的优势和劣势。虽然我们的研究结果表明，最新的商业模型在海龟语言的熟练程度方面优于其先驱者，但它们也暴露出明显的弱点。

A Sign Language Recognition System with Pepper, Lightweight-Transformer, and LLM
Authors JongYoon Lim, Inkyu Sa, Bruce MacDonald, Ho Seok Ahn
这项研究探索使用轻量级深度神经网络架构，使人形机器人 Pepper 能够理解美国手语 ASL 并促进非语言人类机器人交互。首先，我们引入了一种针对嵌入式系统优化的轻量级且高效的 ASL 理解模型，确保快速符号识别，同时节省计算资源。在此基础上，我们采用大型语言模型法学硕士进行智能机器人交互。通过复杂的提示工程，我们定制交互，使 Pepper 机器人能够生成自然的语音手势响应，为更有机、更直观的人形机器人对话奠定基础。最后，我们提出了一个集成的软件管道，体现了社交意识人工智能交互模型的进步。利用 Pepper Robot 的功能，我们在现实场景中展示了我们的方法的实用性和有效性。

Decoding Imagery: Unleashing Large Language Models
Authors David Noever, Samantha Elizabeth Miller Noever
在一项挑战响应研究中，我们对 Google Bard 进行了 64 项视觉挑战，旨在探索多模式大型语言模型法学硕士。挑战跨越不同的类别，包括视觉情境推理、视觉文本推理和下一场景预测等，以辨别巴德在融合视觉和语言分析方面的能力。我们的研究结果表明，巴德倾向于依赖对视觉效果做出有根据的猜测，尤其是在从图像中确定线索时。与 GPT4 等其他模型不同，Bard 似乎并不依赖于 Tesseract 等光学字符识别库，而是像 Google Lens 和 Visual API 等深度学习模型一样识别复杂图像中的文本。值得注意的是，Bard 可以直观地解决 ChatGPT 无法理解的验证码，推荐 Tesseract 解决方案。此外，虽然巴德模型提出了基于视觉输入的解决方案，但它无法重新创建或修改原始视觉对象来支持其结论。 Bard 未能重新绘制 ASCII 艺术，文本可以描述或捕获一个简单的 Tic Tac Toe 网格，它声称可以分析下一步的动作。

MVMR: Evaluating Natural Language Video Localization Bias over Multiple Reliable Videos Pool
Authors Nakyeong Yang, Minsung Kim, Seunghyun Yoon, Joongbo Shin, Kyomin Jung
近年来，随着多媒体内容的爆炸式增长，自然语言视频本地化（重点是检测与给定自然语言查询匹配的视频时刻）已成为一个关键问题。然而，之前的研究都没有探索从存在多个正面和负面视频的大型语料库中定位某个时刻。在本文中，我们提出了 MVMR 海量视频时刻检索任务，其目的是在给定文本查询的情况下从大量视频中定位视频帧。对于此任务，我们提出了通过对现有视频定位数据集采用相似性过滤来构建数据集的方法，并引入了三个 MVMR 数据集。具体来说，我们采用基于嵌入的文本相似性匹配和视频语言基础技术来计算目标查询和视频之间的相关性得分，以定义正集和负集。对于提出的 MVMR 任务，我们进一步开发了一个强大的模型，即可靠相互匹配网络 RMMN，它采用对比学习方案，有选择地过滤可靠且信息丰富的负数，从而使模型在 MVMR 任务上更加稳健。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com