微软开源 WizardLM-2,70B优于GPT4-0613,7B持平阿里最新的Qwen1.5-32B

当地时间4月15号,微软发布了新一代大语言模型 WizardLM-2,新家族包括三个尖端型号:WizardLM-2 8x22B, WizardLM-2 70B,和WizardLM-2 7B,作为下一代最先进的大型语言模型,它在复杂聊天、多语言、推理和代理方面的性能有所提高。

性能表现

根据微软官方的描述,WizardLM-2展示出了极强的性能表现,7B模型表现与Qwen1.5-32B相当,70B模型超过了GPT4-0613。

在这里插入图片描述

  • WizardLM-2 8x22B是最先进的型号,与那些领先的专有作品相比,表现出极具竞争力的性能,并且始终优于所有现有的最先进的开源模型,性能只是稍微落后于gpt -4-1106预览版,明显强于Command R Plus和GPT4-0314。
  • WizardLM-2 70B达到了顶级的推理能力,是同尺寸的首选,优于GPT4-0613、Mistral-Large、Qwen1.5-72B-Chat。
  • Wizardlm - 2 7B是最快的,并达到与现有的10倍大的开源领先模型相当的性能,与Qwen1.5-32B-Chat相当,超过了Qwen1.5-14B-Chat和Starling-LM-7B-beta。

在这里插入图片描述
在这里插入图片描述

训练方法

  1. 数据预处理:通过数据分析管道来获取数据源中不同属性的分布情况。
  2. 加权抽样:最佳训练数据的分布总是与人类聊天语料库的自然分布不一致; 因此,根据实验经验调整训练数据中各个属性的权重。
  3. 渐进式学习:与使用所有数据进行一次性训练的常见做法不同, 微软发现使用不同的数据分区和逐步训练可以在更少的数据下获得更好的结果。 在每个阶段,首先将数据片提供给后续的Evol Lab,以获得更多样化和复杂的[指令,响应]对。 利用一个名为“AI Align AI”(AAA)的新框架,可以将多个最先进的llm分组,以相互教学和改进。 最后,依次应用监督学习、Stage-DPO和RLEIF对每个变体进行优化。
  4. Evol Lab:
    (1)Evol-Instruct:重新评估原始的evolution - directive方法中的各种问题 已启动初步修改。新方法使各种代理能够自动生成高质量的指令。
    (2)Evolution - answer:指导模型多次生成和重写响应可以改进其逻辑性、正确性和亲和性。
  5. AI Align AI :
    (1)Co-Teaching:收集WizardLMs,以及各种授权的开源和专有的最先进的模型,然后让它们共同教学并相互改进。 教学内容包括模拟聊天、质量评判、改进建议、缩小技能差距等。
    (2)Self-Teaching:WizardLM可以生成新的进化训练数据用于监督学习和偏好数据用于强化学习。
  6. 监督学习和强化学习:
    (1)Supervised Learning:使用监督学习来优化模型。
    (2)Stage-DPO:为了更有效的离线强化学习,将偏好数据拆分为不同的切片,并逐步改进模型。
    (3)RLEIF:采用教学质量奖励模型(IRM)和过程监督奖励模型(PRM)相结合的方法来实现在线强化学习的更精确的正确性。
    在这里插入图片描述

模型使用

WizardLM-2 8x22B和WizardLM-2 7B的模型权重在Huggingface上共享, wizardlm - 270b以及所有模型的演示将在未来几天内提供。

WizardLM-2采用Vicuna的提示格式,支持多回合对话。

A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions. USER: Hi ASSISTANT: Hello.</s>USER: Who are you? ASSISTANT: I am WizardLM.</s>......

开源资料

目前关于WizardLM2的资料还比较少,大家可持续关注GitHub和Huggingface平台。
github:https://github.com/microsoft/WizardLM2
huggingface:https://huggingface.co/microsoft
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/626562.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Linux学习】Linux指令(三)

文章标题 &#x1f680;more指令&#x1f680;less指令&#x1f680;head指令&#x1f680;tail指令&#x1f680;时间相关的指令&#x1f680;date指令&#x1f680;在设定时间方面&#x1f680;时间戳 &#x1f680;Cal指令&#x1f680;find&#xff0c;which&#xff0c;wh…

Midjourney常见玩法及prompt关键词技巧

今天系统给大家讲讲Midjourney的常见玩法和prompt关键词的一些注意事项&#xff0c;带大家入门&#xff5e;&#xff08;多图预警&#xff0c;建议收藏&#xff5e;&#xff09; 一、入门及常见玩法 1、注册并添加服务器&#xff08;会的童鞋可跳过&#xff5e;&#xff09; …

ActiveMQ 07 集群配置

Active MQ 07 集群配置 官方文档 http://activemq.apache.org/clustering 主备集群 http://activemq.apache.org/masterslave.html Master Slave TypeRequirementsProsConsShared File System Master SlaveA shared file system such as a SANRun as many slaves as requ…

西圣、倍思、万魔开放式耳机怎么选?斥巨资无广真实测评对比

作为一名在数码科技领域深耕多年的专业测评师&#xff0c;对于开放式耳机我测评过不少了&#xff0c;而在众多开放式耳机品牌中&#xff0c;西圣、倍思和万魔无疑是备受瞩目的产品&#xff0c;它们凭借各自的技术创新和独特设计&#xff0c;今天我为大家带来这三款开放式耳机的…

喜报|炼石入选2024中国网络安全全景图 密码与数据安全六领

2024年4月12日&#xff0c;国内专业安全媒体安全牛发布《中国网络安全行业全景图&#xff08;第十一版&#xff09;》。第十一版全景图划分了16个一级安全分类和108个二级安全分类&#xff0c;汇集了510家安全厂商申报&#xff0c;实际收录为454家。全景图综合考量了产品的实用…

对接实例:致远OA对接金蝶云星空场景解决方案

正文&#xff1a;很多企业在数字化建设得时候&#xff0c;对内部系统间的高效协同与数据流转提出了更高要求。金蝶云星空作为行业领先的ERP解决方案&#xff0c;与专业协同办公平台致远OA的深度对接&#xff0c;在人员管理、组织架构、采购与销售合同、费用审批等在内的全方位企…

rust学习(BorrowMut异常)

现象&#xff1a; 编译没有问题&#xff0c;运行时出现&#xff1a; 代码&#xff1a; pub fn do_test() {let v Arc::new(RefCell::new(100));let v1 v.try_borrow_mut().unwrap();let v2 v.try_borrow_mut().unwrap(); } 原因&#xff1a; 一个cell貌似不能同时被借用…

C++异常学习

C语言传统的处理错误的方式 传统的错误处理机制&#xff1a; 终止程序&#xff0c;如assert&#xff0c;缺陷&#xff1a;用户难以接受。如发生内存错误&#xff0c;除0错误时就会终止程序。返回错误码&#xff0c;缺陷&#xff1a;需要程序员自己去查找对应的错误。如系统的…

DC-8渗透测试复现

DC-8渗透测试复现 目的&#xff1a; 获取最高权限以及flag 过程&#xff1a; 信息打点--sql注入- 命令执行反弹shell-exim4提权 环境&#xff1a; 攻击机&#xff1a;kali(192.168.85.137) 靶机&#xff1a;DC_3(192.168.85.140) 复现&#xff1a; 一.信息收集 nmap -…

java泛型知多少

Java 泛型了解么&#xff1f; 泛型是一种在编译时提供类型安全检查的机制,可以增加我们代码的可读性和安全性。泛型可以在编译时期对泛型参数进行校验来指定选入对象的类型&#xff0c;比如 ArrayList<Person> persons new ArrayList<Person>() 这行代码就指明了…

包装类的认识

前言~&#x1f973;&#x1f389;&#x1f389;&#x1f389; hellohello~&#xff0c;大家好&#x1f495;&#x1f495;&#xff0c;这里是E绵绵呀✋✋ &#xff0c;如果觉得这篇文章还不错的话还请点赞❤️❤️收藏&#x1f49e; &#x1f49e; 关注&#x1f4a5;&#x1…

小程序实现前端热更新的基础技术原理

小程序技术是一种很有前景的移动开发技术&#xff0c;尤其在移动App开发中&#xff0c;高频业务场景的热更新方向上。 时间来到了2024年&#xff0c;小程序的技术已经作为企业构建超级App的一种快速迭代业务场景&#xff0c;或者便捷引入第三方生态的技术“利器”&#xff0c;…