LLM评估标准有哪些?

为了有效衡量和优化LLM的性能和泛化能力,并揭示其优势和局限,建立合理的LLM评价基准具有重要意义。现阶段,主流的LLM评估方法可划分为3类:

1)人工评估。

基于人工的评估方法通常需要邀请大量的志愿者或相关领域专家对LLM的生成进行主观评估和打分。以专业领域知识评估为例,首先需要收集不同领域专家根据该领域专业问题给出的答案作为参考,然后根据已有知识与LLM生成的输出,主观评估LLM专业领域知识的掌握程度。此外,人工评估还可以运用于评估生成内容与人类意愿高度相关的指标,例如语义一致性、逻辑合理性和文体风格等方面。

人工评估方法依赖于人类评估者对生成内容的主观判断,可以更好地反映生成内容的质量以及LLM在不同专业领域的能力。此外,它还可以灵活适应不同的任务场景。但是,基于人工的评估方法需要耗费大量的时间、金钱和人力。因此,基于人工的评估方法不利于当前LLM研究发展的快速迭代。

2)自动评估。

自动评估方法是通过使用标准化的数据集和指标来对LLM进行自动化评估。该类评估方法所采用的综合评测基准通常涵盖主流LLM评估任务,并且可以快速对比不同LLM在相同任务下的性能差距。以下介绍两个具有代表性且在当前阶段流行的综合评估基准。

首先是由Berkeley研究者发布的MMLU评测基准。MMLU包含57个任务,涵盖了数学、历史、计算机科学和法律等领域,通过零样本和少样本设置来评估模型蕴含的知识。其次是AI2提出的ARC(AI2reasoningchallenge)评测基准。ARC包含7787个来自不同科学领域的考试问题,根据难易程度,可以划分为2590个问题组成的ARC-Challenge和5197个问题的ARCEasy。这些问题用以评估LLM在多步推理、语言匹配等多方面的高级能力。在这两个评测基准中,GPT-4取得了最好的成绩,明显超过其他LLM。

自动评估方法可以快速地对比不同LLM在相同条件下的性能差异,也可以提供一些可量化和可解释的结果。同时,区别于人工评估方法,该类方法不受主观因素影响,可重复性较强。因此,自动评估方法是3类方法中最广泛使用的一种。但是,自动评估方法也有一定的缺陷,例如机械化、忽视人类偏好、数据集质量与覆盖度无法保证等。

3)其他LLM评估。

除了人工评估和自动评估,利用LLM本身作为评估器,来比较不同LLM的输出,并给出相对的优劣判断也是一种思路。该类方法通常设定一系列用来评估LLM综合性能的开放式问题集合,用以得到LLM的输出,并且采用现有先进的LLM作为评估者,对LLM的输出进行标注输出对比或打分以评估LLM的综合性能。

介绍3种最新的基于其他LLM的评估方法MMBench、AlpacaEval和MT-Bench。MMBench是上海人工智能实验室提出的一种客观评估大型视觉语言模型不同能力的评估基准。它从模型的感知和推理能力出发,构建了3级能力维度,并采用一种循环评估策略CircularEval,以提高评估过程的稳定性。对于某一具体的评估题目,首先,从多模态大模型的输出中提取与选项匹配的内容。若匹配失败,则用ChatGPT预测和选项,生成选项标签。如果仍然无法提取选择,则用随机选择来标记预测,并添加评论信息。最后使用ChatGPT作为自动评估器,评估多模态大模型的性能。Alpa‐caEval由斯坦福大学的研究人员发布,是一种基于AlpacaFarm数据集来测试LLM遵循一般用户指令的能力的评估方法。具体来说,研究人员以强大的LLM(如GPT-4、Claude或ChatGPT)为自动评估器,以GPT-3.5为基准,将目标模型与GPT-3.5的回复进行比较,计算获胜率。而MT-Bench是一种基于多轮对话来评估LLM聊天机器人能力和用户偏好的评估方法。它是一个由80个多轮问题组成的基准测试集,旨在评估聊天机器人的对话和指令跟随能力。同样使用强大的LLM(如GPT-4、Claude或ChatGPT)作为评估器,将不同的聊天机器人的回复进行比较,并给出优劣判断。基于其他LLM评估方法具有快速、廉价、可复现且与人类偏好高度一致的特点,可以作为开发和测试LLM的有用工具。但是,目前该类方法的发展时间较短,技术不完善,仍具有较多的局限性,例如无法用于评估LLM的高阶能力、评估结果存在偏差以及缺乏安全评估等。

在上述3种方法中,人工评估方法最符合人类意愿,数据集自动评估方法应用最广泛,而利用其他LLM评估方法具有最高的新颖性和可拓展性。但是,现阶段尚未存在完善的LLM综合能力评估方法,因此,现阶段应该多种方法互补使用以全面地评估LLM的性能和质量。

学术问题付费咨询及相关探讨
博士,担任《Mechanical System and Signal Processing》审稿专家,担任
《中国电机工程学报》优秀审稿专家,《控制与决策》,《系统工程与电子技术》等EI期刊审稿专家,担任《计算机科学》,《电子器件》 , 《现代制造过程》 ,《船舶工程》 ,《轴承》 ,《工矿自动化》 ,《重庆理工大学学报》 ,《噪声与振动控制》 ,《机械传动》 ,《机械强度》 ,《机械科学与技术》 ,《机床与液压》,《声学技术》,《应用声学》等中文核心审稿专家。
擅长领域:现代信号处理,机器学习,深度学习,数字孪生,时间序列分析,设备缺陷检测、设备异常检测、设备智能故障诊断与健康管理PHM等。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/125764.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【图像处理GIU】图像分割(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

国庆特别篇:中秋与国庆同日相迎

国庆特别篇:中秋与国庆同日相迎 国庆特别篇:中秋与国庆同日相迎 🎉摘要引言旅途风景分享 🗺️中秋团圆,返乡之路风景宜人的旅游胜地 技术探讨:Java中的可变参数 🚀什么是可变参数?使…

transformer不同的包加载模型的结构不一样

AutoModel AutoModelForTokenClassification 结论: AutoModel加载的模型与AutoModelForTokenClassification最后一层是不一样的,从这个模型来看,AutoModelForTokenClassification加载的结果是对的 问题: 为什么AutoModel和Aut…

数据分析视角中的商业分析学习笔记

数据分析一大堆,结果却是大家早就知道的结论?是工具和方法出问题了吗?真正原因可能是你的思维有误区。 为什么分析的这么辛苦,得出的结论大家早知道,谁谁都不满意?核心原因有3个: 分析之前&am…

代码随想录算法训练营第五十九天 | 647. 回文子串 516.最长回文子序列

1. 回文子串 647. 回文子串 - 力扣(LeetCode) 一个子串左右两个元素相等,并且中间对称,才是回文子串 即 ij 时,[i1: j-1]对称 dp[i][j]: [i:j] 是否是回文字串 当 子串长度大于2 由 dp[i1][j-1] 推出…

海洋测绘外业总结(2023年9月)

本次外业大约历时2个多月,中间遇到了多波束噪声、电火花电源箱冒烟、侧扫声纳绞车承重头内部线路中断,连接拖鱼的硫化头烧坏问题。 1、多波束噪声的问题 在外业采集过程中,EM2040D多波束水体图呈现了明显三段,意思就是&#xff…

23.2 Bootstrap框架3

1.卡片 1.1卡片样式 在Bootstrap 5中, .card, card-header, .card-body, .card-footer类是用于创建卡片样式.下面是这些类的简单介绍: * 1. .card: 用于创建一个基本的卡片容器它作为一个包裹元素,通常与其他卡片类一起使用.* 2. .card-header: 用于创建卡片的头部部分.通常在…

【单片机】16-LCD1602和12864和LCD9648显示器

1.LCD显示器相关背景 1.LCD简介 (1)显示器,常见显示器:电视,电脑 (2)LCD(Liquid Crystal Display),液晶显示器,原理介绍 (3&#xff…

集群服务器

文章目录 项目名:实现集群服务器技术栈通过这项目你学到(或者复习到)实现功能编码环境json环境muduo库boost库MySql数据库登录mysql:查看mysql服务开启了没有?mysql的服务器及开发包库chat,表 allgroup friend groupuser offlinemessage user…

机器学习笔记 - 深入研究spaCy库及其使用技巧

一、简述 spaCy 是一个用于 Python 中高级自然语言处理的开源库。它专为生产用途而设计,这意味着它不仅功能强大,而且快速高效。spaCy 在学术界和工业界广泛用于各种 NLP 任务,例如标记化、词性标注、命名实体识别等。 安装,这里使用阿里的源。 pip install spacy…

input输入多行文本:删除“首先 其次 此外 总的来说”

input允许多行输入 233.3表示停止输入input输入多行文本文本 (空行) (空行) (空行) 正文 (空行) (空行) (空行) 正文 (空行…

《Secure Analytics-Federated Learning and Secure Aggregation》论文阅读

背景 机器学习模型对数据的分析具有很大的优势,很多敏感数据分布在用户各自的终端。若大规模收集用户的敏感数据具有泄露的风险。 对于安全分析的一般背景就是认为有n方有敏感数据,并且不愿意分享他们的数据,但可以分享聚合计算后的结果。 联…