可以在手机端运行的大模型标杆:微软发布第三代Phi-3系列模型,评测结果超过同等参数规模水平,包含三个版本,最小38亿,最高140亿参数

本文原文来自DataLearnerAI官方网站:

可以在手机端运行的大模型标杆:微软发布第三代Phi-3系列模型,评测结果超过同等参数规模水平,包含三个版本,最小38亿,最高140亿参数 | 数据学习者官方网站(Datalearner)icon-default.png?t=N7T8https://www.datalearner.com/blog/1051713851616894


Phi系列大语言模型是微软开源一个小规模参数的语言模型。第一代和第二代的Phi模型参数规模都不超过30亿,但是在多个评测结果上都取得了非常亮眼的成绩。今天,微软发布了第三代Phi系列大模型,最高参数规模也到了140亿,其中最小的模型参数38亿,评测结果接近GPT-3.5的水平。

微软发布phi-3模型

  • Phi系列模型简介
  • 第三代Phi-3模型简介
  • Phi-3系列模型评测结果接近GPT-3.5
  • Phi-3系列的开源情况
Phi系列模型简介

大语言模型的一个重要应用方向就是在手机端运行。为此,30亿参数规模几乎是上限(超过这个规模的模型,需要通过量化等手段牺牲模型性能)。在这其中,微软的Phi系列模型是最具有竞争力的。

Phi系列模型的目的是希望在小规模参数的模型上获得传统大模型的能力。微软发布了第三代Phi模型,这一代的模型最小参数38亿,最大规模拓展到了140亿,包含3个版本,分别是Phi-mini-3.8B、Phi-small-7B和Phi-medium-14B。参数规模增长的同时,能力也大幅提高。

第三代Phi-3模型简介

第三代的Phi模型是微软继续探索小规模参数语言模型的成果。尽管Phi-3包含了70亿和140亿两个较大规模版本的模型。但是最小的38亿参数模型依然可以在手机端运行。

Phi-3-mini-3.8B模型采用了transformer的decoder架构,默认上下文长度是4K,采用了和Llama-2类似的block结构,使用同样的tokenizer,词汇表大小为32064。因此,任何为Llama2开发的工具套件几乎可以直接应用在phi-3-mini上,这个模型训练数据量达到了3.3万亿tokens。

Phi-3-small-7B是新增的一个更大规模参数版本的Phi模型,参数70亿,但是tokenizer换成了tiktoken,使之有更好的多语言能力,词汇表大小也拓展到了100352,默认上下文长度是8K,模型也有分组查询注意力机制(Group Query Attention,GQA),从这个变化看,和Llama3的架构非常接近(Llama3的详细分析参考:开源王者!全球最强的开源大模型Llama3发布!15万亿数据集训练,最高4000亿参数,数学评测超过GPT-4,全球第二! | 数据学习者官方网站(Datalearner) )。模型的数据训练量达到了4.8万亿tokens。

Phi-3还有一个140亿参数规模的Phi-3-medium-14B版本,架构与最小的Phi-3-mini-3.8B相同,但是训练的epoch更多,训练的数据量和Phi-3-small一样,4.9万亿tokens。但是这个模型比Phi-3-small-7B的提升不如Phi-3-small-7B相比Phi-3-mini-3.8B提升多。作者认为可能是数据问题,所以后面他们还会改进,因此,把这个Phi-3-medium-14B称为preview版本。

Phi-3模型系列更多的详情参考DataLearnerAI模型信息卡地址:

模型版本Phi3模型信息卡地址
Phi3-miniPhi-3-mini 3.8B(Phi-3-mini 3.8B)详细信息 | 名称、简介、使用方法,开源情况,商用授权信息 | 数据学习(DataLearner)
Phi3-smallPhi-3-small 7B(Phi-3-small 7B)详细信息 | 名称、简介、使用方法,开源情况,商用授权信息 | 数据学习(DataLearner)
Phi3-medium-previewPhi-3-medium 14B-preview(Phi-3-medium 14B-preview)详细信息 | 名称、简介、使用方法,开源情况,商用授权信息 | 数据学习(DataLearner)
Phi-3系列模型评测结果接近GPT-3.5

Phi系列模型的评测结果一直非常优秀,尽管在复杂任务上与大规模参数版本的大模型有差距,但是作为一个几十亿参数模型来说,已经表现很不错了。

本次第三代Phi模型的提升也比较大。首先,我们看一下在30亿参数规模左右模型的对比结果:

Phi-3-mini评测结果

数据来源:30亿参数规模大模型综合评测对比 | 当前主流大模型在各评测数据集上的表现总榜单 | 数据学习 (DataLearner)

上图是DataLearnerAI收集的30亿参数以下大模型评测对比结果。可以看到,Phi-3-mini-3.8B得分远超其它同等参数规模的模型,效果非常好。而且不仅仅是MMLU的综合评测理解上,在数学推理GSM8K以及MT-Bench上表现也非常好。其70亿参数规模版本的模型在MMLU测评上甚至超过了Anthropic旗下的Claude3-Haiku模型!

如果不限制参数规模,与所有其它模型相比,Phi-3-medium超过了此前Mixtral-8×22B-MoE模型,表现非常亮眼:

Phi-3-medium和Phi-3-small评测结果

数据来源L:大模型综合评测对比 | 当前主流大模型在各评测数据集上的表现总榜单 | 数据学习 (DataLearner)

在编程评测HumanEval上,这三个模型相差不大,甚至最大的140亿参数规模的Phi-3-medium-14B水平表现略有下降,十分奇怪:

Phi-3模型的编程能力测评

数据来源:大模型代码能力评测对比 | 当前主流大模型在代码能力上的表现总榜单 | 数据学习 (DataLearner)

从这些评测结果看,Phi-3模型的变现十分优秀。不过,有争议的是Phi系列模型一直因为评测结果很高但是参数量很少受到质疑。其实,从现在的情况看,因为大多数评测的数据过于陈旧,导致模型评测结果的区分度已经降低。而且很多模型都会在有监督微调(SFT)阶段针对性的做微调,会导致评测分数虚高。不过,从侧面看,在30亿参数规模的模型中,Phi系列一直是标杆,还是值得关注的。

Phi-3系列的开源情况

目前,Phi-3系列模型只发布了论文信息,还没有预训练结果发布。大家关注DataLearnerAI的模型信息卡可以获取后续的情况。根据Phi-2模型发布的情况看,最早Phi2模型是不可以商用的,但是过了一段时间,开源协议改成MIT开源协议,没有任何商用限制。Phi-3可以期待也是类似的开源协议。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/660095.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Amazon云计算AWS之[5]关系数据库服务RDS

文章目录 RDS的基本原理主从备份和下读写分离 RDS的使用 RDS的基本原理 Amazon RDS(Amazon Relational Database Service) 将MySQL数据库移植到集群中,在一定的范围内解决了关系数据库的可扩展性问题。 MySQL集群方式采用Share-Nothing架构。每台数据库服务器都是…

Kimichat使用技巧:方便又实用的kimi+智能体

今天kimi智能助手推出了kimi的功能。简单的说,就是一系列kimi已经写好的提示词,用户可以直接调用、对话。 Kimi分为官方推荐、办公提效、辅助写作、社交娱乐、生活实用这几类。可以从左边侧边栏点击进入。 官方推荐的有: Kimi 001号小客服&…

final、finally、finalize有什么区别?

引言 在Java编程语言中,final、finally和finalize是三个具有不同用途和语义的关键字或方法。它们在编程和面试中经常被提及,因此理解它们之间的区别是非常重要的。 题目 final、finally、 finalize有什么区别? 典型回答 final&#xff1…

开源AI智能名片商城小程序:深度解读IMC(IP、MarTech、Content)视角

在数字化浪潮中,私域流量的运营已成为企业不可或缺的增长引擎。而开源AI智能名片商城小程序,则是以一种全新的视角——IMC(IP、MarTech、Content),为企业打开私域流量运营的新篇章。今天,我们就来一起深入解…

第1篇:创建Platform Designer系统

Q:本期我们开始使用Platform Designer工具创建带IP核的FPGA自定义硬件系统。 A:Platform Designer是集成在Quartus软件里的系统设计工具,名称随着Quartus的不断更新曾命名为SOPC Builder和Qsys。 使用Platform Designer可以添加Quartus已有自…

epub可以转换为mobi吗?epub转换mobi在线转换,5款工具分享!

在数字化时代,电子书格式多样,每种格式都有其独特的特点和适用场景。其中,EPUB和MOBI是两种非常流行的电子书格式。然而,有时候,用户可能会因为某种需求或限制,希望将EPUB格式的文件转换为MOBI格式。这时&a…

【大语言模型LLM】-基于ChatGPT搭建客服助手(1)

🔥博客主页:西瓜WiFi 🎥系列专栏:《大语言模型》 很多非常有趣的模型,值得收藏,满足大家的收集癖! 如果觉得有用,请三连👍⭐❤️,谢谢! 长期不…

刷题训练之前缀和

> 作者:დ旧言~ > 座右铭:松树千年终是朽,槿花一日自为荣。 > 目标:熟练掌握前缀和算法。 > 毒鸡汤:学习,学习,再学习 ! 学,然后知不足。 > 专栏选自:刷题…

商务邮箱意义解读:探讨商务邮箱的双重功能与实际应用

商务邮箱是以企业自己的域名为后缀的信箱,例如:name企业域名。拥有商务邮箱可以为自己的员工设置电子邮箱。 企业可以根据需要设置不同的管理权限,以及部门成员之间或者公司全体员工之间的群发功能等等。 哪些企业需要购买商务邮箱&#xf…

oracle pl/sql 如何让sql windows 显示行号

oracle pl/sql 如何让sql windows 显示行号 下载最新版的pl/sql第一步,在preferences中对sql Windows进行设置,如下所示第二步,在preferences中对User interface进行设置,如下所示结果如下 其实很简单 下载最新版的pl/sql 官方下…

【JAVA】part5-Java集合

Java 集合 Java集合概述 Java数组的局限性 数组初始化后大小不可变;数组只能按索引顺序存取。 Java的java.util包主要提供了以下三种类型的集合: List:一种有序列表的集合,例如,按索引排列的Student的List&#xff1b…

GCB | 陆地生态系统C:N:P化学计量对降水变化的响应

西北农林科技大学水保学院上官周平研究员团队在陆地生态系统C:N:P化学计量对降水变化的响应方面取得新进展,并以“C:N:P stoichiometry of plants, soils, and microorganisms: Response to altered precipitation”为题发表在国际生态环境领域著名期刊Global Chang…