Stability.ai开源ChatGPT基因的大模型

12月8日,著名开源生成式AI平台stability.ai在官网开源了,30亿参数的大语言模型StableLM Zephyr 3B。

Zephyr 3B专用于手机、笔记本等移动设备,主打参数小、性能强、算力消耗低的特点,可自动生成文本、总结摘要等,可与70亿、130亿参数的模型相媲美。

值得一提的是,该模型的核心架构来自Zephyr 7B,并进行了精调。而Zephyr 7B是基于前几天刚获35亿元巨额融资Mistral AI的Mistral-7B模型微调而成

同时使用了GPT-3.5生成了训练数据集以及GPT-4对其进行了人工智能反馈,所以,Zephyr 3B是有多家大厂模型基因的超级缝合怪。

Zephyr 3B开源地址:https://huggingface.co/stabilityai/stablelm-zephyr-3b

Zephyr 7B开源地址:https://huggingface.co/HuggingFaceH4/zephyr-7b-beta

图片

由于Stability.ai并没有开放Zephyr 3B的论文,只能从Zephyr 7B的技术文档为大家解读一下其核心架构,主要包含监督学习优化、人工智能反馈和直觉优化指导学习三大模块。

由于该模型在训练数据集和人工智能反馈等方面使用了GPT系列模型,有很强的ChatGPT基因。

图片

监督学习优化(dSFT)

研究人员通过OpenAI的GPT-3.5 模型生成了规模庞大的对话数据集“UltraChat”,超过147万条多轮不同主题对话示例。

然后通过该数据集对模型进行监督学习优化,训练样本是对话内容和回复,以最大程度降低“交叉熵”误差。

该流程类似传统的监督学习方法,将模型训练任务指定到给定数据集上。

但与使用人工数据集略有不同,该方法直接使用了强大语言模型自主生成高质量的训练数据,避免了人工乱标注难题。

人工智能反馈(AIF)

为了进一步提升模型的文本生成、理解的精准度,研究人员使用了第二个数据集UltraFeedback,对4个不同的大语言模型,在不同主题下的回复进行打分评价。

图片

具体方法是将每条对话的文本提示送入到4个模型,得到4个答案,然后再由“教师模型”GPT-4进行打分(0—10分)。最高分答案为“优先答案”,随机选择另一个作为“非优先答案”进行深度优化。

直觉优化指导学习(dDPO)

通过使用前面的“UltraFeedback”收集的GPT-4对话样本及质量评价,提取高分和低分样本作为数据配对组。

就是按批处理对优先和非优先样本计算两种概率,并利用损失函数测量它们的差异,通过反向传播优化模型参数。

图片

该算法以试批方式运行,在每轮中随机选取样本对,计算当前模型与基线模型在这两个样本上的概率误差。

通过这种反向传播将误差回溯至参数,可实时地微调模型结构。整个优化流程非常高效,无需采样,几小时就能完成,并且不需任何人工标注。

测试数据

Stability.ai表示,Zephyr 3B在MT Bench、AlpacaEval等平台进行了测试,在生成上下文相关、连贯和语言准确等文本方面的表现非常优秀。

特别擅长创意、个性化文本生成,同时能根据用户输入的数据进行分析。

图片

其性能可与Falcon-4b-Instruct、WizardLM-13B-v1、Llama-2-70b-chat 和 Claude-V1等几个大参数模型相媲美。

图片

本文素材来源stability.ai官网、Zephyr 7B论文,如有侵权请联系删除

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/263994.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Python】手把手教你用tkinter设计图书管理登录UI界面(三)

上一篇:【Python】手把手教你用tkinter设计图书管理登录UI界面(二)-CSDN博客 下一篇: 紧接上一篇文章,继续完善项目功能:用户登录。由于老王的注册部分有亿点点复杂,还没完成,但是…

一款基于ESP32的迷你四足机器人

一、软件介绍 增加自定义动作模式,可以在小程序中自定义一个最多10个步骤的动作。 附件中:带自定模式固件bin.zip esp32c3固件文件 烧录下图设置 无串口版本esp32c3开发板烧录前先按住BOOT键再插线进入烧录模式,LoadMode选择USB。 二、AP…

第 375 场 LeetCode 周赛题解

A 统计已测试设备 模拟&#xff1a;记录当前已测试设备数量 class Solution { public:int countTestedDevices(vector<int> &batteryPercentages) {int res 0;int s 0;for (auto x: batteryPercentages) {if (x - s > 0) {res;s;}}return res;} };B 双模幂运算 …

Promise与async/await的简单介绍

在 JavaScript 中&#xff0c;处理异步操作一直是开发者们面临的挑战之一。传统的回调函数方式往往导致代码难以维护、可读性差、易产生回调地狱等问题。为了解决这些问题&#xff0c;出现了 Promise 和 Async/Await 这两种处理异步操作的方式。 一、异步产生问题示例 当我们…

Gilisoft Video Editor——迈出剪辑的第一步

今天博主分享的是又一款剪辑软件——视频剪辑手&#xff08;GiliSoft Video Editor&#xff09;&#xff0c;对剪辑视频感兴趣的小伙伴千万不要错过。这是一款专门用于视频剪辑的软件&#xff0c;功能比较简单&#xff0c;相比于专业的pr是比不了的&#xff0c;但是制作一些简单…

Vue 创建虚拟DOM元素的几种方式和实际应用。

目录 创建虚拟DOM元素的方式 创建一个简单的元素&#xff1a; 创建一个带有属性的元素&#xff1a; 创建一个带有子元素的元素&#xff1a; 创建一个带有事件监听器的元素&#xff1a; 创建一个Vue组件 创建一个带Props的组件 创建一个带Slot的组件 实际应用 创建虚…

gma 空间绘图实战(1):绘制多个子图,连接并展示局部放大区域

安装 gma&#xff1a;pip install gma 本文基于&#xff1a;gma 2.0.3&#xff0c;Python 3.10 本文用到的矢量数据为&#xff1a;CTAmap 1.12。来源于 https://www.shengshixian.com/ 。&#xff08;感谢锐多宝&#xff09; 绘图目标 参考代码 import matplotlib.pyplot as p…

jQuery 选择器全部详细笔记

目录 JQuery全部详细笔记-上 jQuery 选择器 jQuery 选择器介绍 jQuery 选择器的优点 代码演示 基本选择器 ● 基本选择器应用实例 程序运行图 层次选择器 ● 层次选择器应用实例 代码演示 表单选择器 ● 表单选择器基本介绍 代码演示 综合代码示例 网页中所有的…

【FMCW毫米波雷达设计 】 — FMCW波形

原书&#xff1a;FMCW Radar Design 1 引言 本章研究驱动FMCW雷达的主要波形:线性调频(LFM)波形。我们研究信号的行为及其性质。随后&#xff0c;本章讨论了匹配滤波理论&#xff0c;并研究了压缩这种波形的技术&#xff0c;特别是所谓的拉伸处理&#xff0c;它赋予FMCW雷达极…

【网络奇缘系列】计算机网络|数据通信方式|数据传输方式

&#x1f308;个人主页: Aileen_0v0&#x1f525;系列专栏: 一见倾心,再见倾城 --- 计算机网络~&#x1f4ab;个人格言:"没有罗马,那就自己创造罗马~" 这篇文章是关于计算机网络中数据通信的基础知识点&#xff0c; 从模型&#xff0c;术语再到数据通信方式&#…

小目标检测模型设计的一点思考

1. 小目标的特性 目标之间的交叠概率比较低&#xff0c;即使有交叠&#xff0c;其IoU多数情况下也是比较小的 AI-TOD Tiny Person Dateset 小目标自身的纹理显著度有强弱区别&#xff0c;但是总体来说纹理特征都较弱&#xff0c;很多时候需要借助一定的图像上下文来帮助确认 …

IDEA远程调试与JDWP调试端口RCE漏洞

文章目录 前言Docker远程调试Java调试原理远程调试实践 JDWP端口RCE调试端口探测调试端口利用 总结 前言 在对一些 Java CVE 漏洞的调试分析过程中&#xff0c;少不了需要搭建漏洞环境的场景&#xff0c;但是本地 IDEA 搭建的话既麻烦&#xff08;通过 pom.xml 导入各种漏洞组…