Llama 3 是怎么回事?Arena 数据分析

4 月 18 日,Meta 发布了他们最新的开放权重大型语言模型 Llama 3。从那时起,Llama 3-70B 就在 English Chatbot Arena 排行榜上迅速上升,拥有超过 50,000 次对战。Meta 的这一非凡成就对开源社区来说是个好消息。在这篇博文中,我们旨在深入探讨为什么用户将 Llama 3-70b 与 GPT-4-Turbo、Gemini 1.5 Pro 和 Claude 3 Opus 等顶级模型相提并论。

我们调查了以下内容:

  1. 用户在问什么类型的提示?用户是否更喜欢 Llama 3 的某些类型的提示?
  2. 这些提示有多具有挑战性?如果提示更容易/更难,排名是否会改变?
  3. 某些用户或提示是否过度代表?重复的提示或少数用户的排名是否会影响胜率?
  4. Llama 3 是否有让用户更喜欢它的定性差异?

我们专注于 Llama 3-70b 与 5 个顶级模型(claude-3-opus-20240229、gpt-4-0125-preview、gpt-4-1106-preview、gpt-4-turbo-2024-04-09、gemini-1.5-pro-0409-preview)的对战,得出以下结论:

  • Llama 3 在开放式写作和创意问题上击败了其他顶级模型,但在更封闭的数学和编码问题上失利。

  • 随着提示变得更难,Llama 3 对顶级模型的胜率显着下降。

  • 去重或异常值不会显著影响胜率。

    定性地说,Llama 3 的输出比其他模型更友好、更具对话性,这些特征在 Llama 3 获胜的对战中更频繁出现。

在这里插入图片描述
图 1.Llama 3-70b 在不同提示主题上对五大模型的胜率(不包括平局)。* 表示该类别包含的对战不足 50 个。

分析不同类型提示的胜率

主题分析。我们利用 LLM 标注器(Llama 3-70b)将用户提示分类为预先建立的主题分类法(来自 Reka 的论文),并在图 1 中可视化 Llama 3-70b 与其他顶级模型的胜率。我们看到,Llama 3 在头脑风暴和写作等开放式和创造性任务上的胜率最高,在数学和翻译等更封闭的技术任务上的胜率最低。有趣的是,Llama 3 在数据处理任务(主要包括解析和数据框操作)上获得了最高的胜率,但由于该类别只有 19 个样本,这仍然是不确定的。

胜率与提示难度。我们采用了最近发布的评分提示难度的流程,以确定随着提示变得更难,Llama 3 与其他顶级模型相比如何。我们定义了一套"困难程度"标准,并使用 GPT-4-turbo 对每个提示进行 0 到 7 的标注,以表明满足这些标准中的多少个(分数越高表示提示越难)。我们的 7 个标准是:

1.具体性:提示是否要求具体的输出?
2.领域知识:提示是否涵盖一个或多个特定领域?
3.复杂性:提示是否具有多个层次的推理、组成部分或变量?
4.解决问题:提示是否直接涉及 AI 展示积极的解决问题的技能?
5.创造力:提示在解决问题的方法上是否涉及一定程度的创造力?
6.技术准确性:提示是否需要在回答中保持技术准确性?
7.真实世界应用:提示是否与现实世界应用相关?

我们对排行榜前 3 名模型的 1000 场对战进行评分,并在图 2 中绘制它们的胜率与提示得分的关系。我们观察到,与其他顶级模型相比,Llama 3 的性能显着下降,从 50% 的高胜率下降到 40% 的低胜率。我们得出结论,随着这些"困难程度"标准中的更多标准得到满足,与其他模型相比,Llama 3 的胜率迅速下降。请注意,这些标准可能并不详尽,更多讨论请参见博客。
在这里插入图片描述

图 2.几个顶级模型在满足关键标准数量区间内对最强 6 个模型的胜率。*最强模型之间的英语对战:llama-3-70b-chat、claude-3-opus-20240229、gpt-4-0125-preview、gpt-4-1106-preview、gpt-4-turbo-2024-04-09、gemini-1.5-pro-api-0409-preview。

在这里插入图片描述
图 3.在 3.5K 个 arena 对战样本中,满足困难程度标准数量的提示百分比。我们观察到,相当一部分对战被归类为困难(约 27%)。

我们可以进一步分析哪些类型的提示会影响胜率,方法是在表示给定提示是否满足上述每个标准的 7 个二元列上拟合决策树。从这棵决策树中,我们可以将提示分成标准子集,使得 Llama 3-70b-Instruct 要么表现非常好,要么表现非常差。图 4 所示的树告诉我们,当以某些条件为前提时,哪些子集会最大程度地改变模型的胜率。

在这里插入图片描述

图 4.使用标准决策树算法拟合的分层提示标准子集上的 Llama 3-70b-Instruct 胜率。

首先要注意的是,"具体性"是树的根节点,这表明该标准已经将 Llama 3-70b-Instruct 的性能划分为其优势和劣势。它支持我们之前的初步发现,即 Llama 3-70b-Instruct 在开放式提示(非特定)上比在更客观的任务上更强。我们可以进一步遍历树,看到 Llama 3-70b-Instruct 在开放式创意提示上相当强大(参见蓝色路径),对这些顶级模型达到约 60% 的胜率。沿着橙色路径,我们注意到,在回答特定的基于推理的提示时,Llama 3-70b-Instruct 对顶级模型的胜率要低得多。

过度代表的提示和评委的影响

重复提示的影响。使用模糊字符串匹配,我们发现 Llama 3 和其他顶级模型之间的对战中约 9%(6658/7327)的用户提示是重复的,并在表 1 中显示,去重并不显着影响 Llama 3 的胜率。

表 1:Llama 3-70b 对战统计。
在这里插入图片描述

表 2.LLM 的详细参与指标(时间范围:2023 年 4 月 24 日 - 5 月 1 日)

在这里插入图片描述
为了限制投票次数多的用户的影响,我们可以取每个评委胜率的平均值,从而限制每个评委的影响。在这种情况下,我们发现表 3 中所示的分层胜率仍然与原始胜率非常相似,这表明非常活跃的评委并没有扭曲结果。

表 3.模型胜率(时间范围:2023 年 4 月 24 日 - 5 月 1 日)。最新和详细版本请点击此处。请注意,平局计为 0.5,胜利和失败分别计为 1 和 0。

在这里插入图片描述
Llama 3 输出与其他模型的定性差异。从 Llama 3 和其他模型输出的定性分析中,我们观察到 Llama 3 的输出通常比其他模型更兴奋、积极、对话性和友好。

测量情绪。为了衡量兴奋度,我们根据感叹号的存在为每个输出分配一个二元标签。对于积极性、友好性和对话性,我们使用 GPT-3.5 作为评委,对每个输出进行 1-5 分的评分。在给定的对战中,如果 Llama 3 的输出得分高于对手,则标记为更兴奋、积极、对话性或友好。图 5 显示了不同模型中这些品质的分布,揭示了与对手相比,Llama 3 的输出通常表现出更高水平的兴奋、积极、友好和对话性。

在这里插入图片描述图 5:Llama 3 在 arena 提示中比对手更积极/友好/对话/感叹的比例。

情绪与胜率有关吗?图 6 比较了 Llama 3 在获胜对战和失败对战中输出的情绪品质。我们看到,所有特征在获胜对战中出现得更多,在失败对战中出现得更少,但这种差异相对较小,尤其是在积极性和友好性方面。这表明,虽然这些特征可能在竞争成功中发挥作用,但要得出更确定的见解,还需要进一步探索它们的影响。

在这里插入图片描述

图 6:当 Llama 3 比对手更积极/友好/对话/感叹时,Llama 3 的情绪与其胜率的关系。

结论

从一开始,我们的使命就是推进 LLM 的发展和理解。虽然过去我们一直专注于高层次的排名和基准设计,但展望未来,我们希望扩展这里的分析,并对人类偏好和模型行为的变化进行更深入的分析。

心得:

我认为这是一篇高质量的分析博文,对Llama 3的表现进行了全面而细致的评估。以下几点给我留下了深刻印象:

  1. 多角度的数据分析:作者不仅比较了Llama3在不同任务领域的胜率,还考察了提示难度、重复提示、评委行为等因素的影响。这种多维度的分析有助于更准确地理解模型的优劣势

  2. 定性与定量相结合:除了各种数据统计,文章还总结了Llama3输出的定性特点,如更友好、更有对话感等。定性分析与定量结果相佐证,让读者对Llama 3的特点有更直观的认识。

  3. 客观中立的态度:文章没有回避Llama3在数学、编码等任务上的不足,而是如实呈现了其局限性。同时也充分肯定了它在开放式写作等方面的优势。这种客观的评价让人感到分析的可信度。

  4. 展望未来的分析方向:作者指出当前分析的局限,并展望了未来可以深入探索的问题,如人类偏好的变化等。这种对研究方向的思考很有启发性。

  5. 可复现性:文中详细描述了分析使用的标注方法、评估指标的定义等,便于其他研究者复现或扩展相关工作。

参考博文: https://lmsys.org/blog/2024-05-08-llama3/
作者:Lisa Dunlap, Evan Frick, Tianle Li, Isaac Ong, Joseph E. Gonzalez, Wei-Lin Chiang,2024 年 5 月 8 日

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/687408.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

代码随想录——二叉树的层序遍历Ⅱ(Leetcode107)

题目链接 层序遍历(队列) /*** Definition for a binary tree node.* public class TreeNode {* int val;* TreeNode left;* TreeNode right;* TreeNode() {}* TreeNode(int val) { this.val val; }* TreeNode(int val, Tre…

开源直播电商系统(仿抖音电商模式)

当下,传统的图文电商模式正在走向没落,以“抖音”为首的直播电商模式备受用户追捧,它具有直观与互动的特点,拥有传统电商所不具备的优势。而且,当前正是直播电商的红利期,很多主播和品牌商都通过直播电商业…

mac苹果电脑卡顿反应慢如何解决?2024最新免费方法教程

苹果电脑以其稳定的性能、出色的设计和高效的操作系统,赢得了广大用户的喜爱。然而,随着时间的推移,一些用户会发现自己的苹果电脑开始出现卡顿、反应慢等问题。这不仅影响使用体验,还会影响工作效率。那么,面对这些问…

luceda ipkiss教程 67:修改器件端口名

如果要替换线路中的器件,但是要替换的器件端口名称又不一样,那该怎么办呢?去对应改线路中端口的名称太过繁琐,这就需要需要器件的端口名,如: 改y分束器的端口名 改了端口名称,线路中的器件就可…

Redis不同数据类型value存储

一、Strings redis中String的底层没有用c的char来实现,而是使用SDS数据结构( char buf[])。 缺点:浪费空间 优势: 1.c字符串不记录自身的长度,所以获取一个字符串长度的复杂度是O(N),但是SDS记录分配的长度alloc,已使用长度len,获取长度的…

​​​【收录 Hello 算法】第 5 章 栈与队列

第 5 章 栈与队列 Abstract 栈如同叠猫猫,而队列就像猫猫排队。 两者分别代表先入后出和先入先出的逻辑关系。 本章内容 5.1 栈5.2 队列5.3 双向队列5.4 小结

Vue项目npm install certificate has expired报错解决方法

1.Vue项目 npm install 安装依赖突然报错: npm ERR! code CERT_HAS_EXPIRED npm ERR! errno CERT_HAS_EXPIRED npm ERR! request to https://registry.npm.taobao.org/zrender/download/zrender-4.3.0.tgz failed, reason: certificate has expired npm ERR! A com…

2024年汉字小达人活动还有4个多月开赛:来做18道历年选择题备考吧

不出特殊情况的话,距离2024年第11届汉字小达人比赛还有4个多月的时间,如何利用这段时间有条不紊地备考呢?我的建议是两手准备:①把小学1-5年级的语文课本上的知识点熟悉,重点是字、词、成语、古诗。②把历年真题刷刷熟…

Linux 进程信号【信号产生】

💓博主CSDN主页:麻辣韭菜💓   ⏩专栏分类:Linux知识分享⏪   🚚代码仓库:Linux代码练习🚚   🌹关注我🫵带你学习更多Linux知识   🔝 目录 前言 信号概念 1. 生活角度的信号 2…

信息系统项目管理师0101:项目建议与立项申请(7项目立项管理—7.1项目建议与立项申请)

点击查看专栏目录 文章目录 第七章 项目立项管理7.1项目建议与立项申请1.立项申请概念2.项目建议书内容记忆要点总结第七章 项目立项管理 项目立项管理是对拟规划和实施的项目技术上的先进性、适用性,经济上的合理性、效益性,实施上的可能性、风险性以及社会价值的有效性、可…

【回溯 状态压缩 深度优先】37. 解数独

本文涉及知识点 回溯 状态压缩 深度优先 LeetCode37. 解数独 编写一个程序,通过填充空格来解决数独问题。 数独的解法需 遵循如下规则: 数字 1-9 在每一行只能出现一次。 数字 1-9 在每一列只能出现一次。 数字 1-9 在每一个以粗实线分隔的 3x3 宫内只…

算法day04

第一题 : 209. 长度最小的子数组 有上题可知,我们会采用双指针和单调性的思路来解决 我们本题采用左右双指针从数组的0位置同向前进,所以将此类模型称为滑块; 步骤思路如下: 步骤一: 定义所有双指针都指向…