详解Mixtral-8x7B背后的MoE！-编程知识

详解Mixtral-8x7B背后的MoE！

news/2024/11/16 4:38:05/文章来源:https://blog.csdn.net/qq_25439417/article/details/138121127

高端的模型往往只需最朴素的发布方式。

这个来自欧洲的大模型团队在12月8日以一条磁力链接的方式发布了Mixtral-8x7B，这是一种具有开放权重的**「高质量稀疏专家混合模型」**(SMoE)。

该模型在大多数基准测试中都优于Llama2-70B，相比之下推理速度快了6倍，同时在大多数标准基准测试中匹配或优于GPT-3.5。

之后，Mixtral AI将模型权重推送至HuggingFace，并一起推送了Mixtral-8x7B-Instruct。该模型已通过监督微调和直接偏好优化(DPO)进行优化，更加遵循指令。在MT-Bench上，它达到了8.30的分数，使其成为最好的开源模型，性能可与GPT3.5相媲美。

Mixtral-8x7B共有46.7B个参数，但每个token仅使用12.9B个参数。也就是说该模型可以每次只需要120亿参数参与推理就可以达到700亿的LLaMA2

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/641657.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

内存泄漏详解

内存泄漏详解

一、什么是内存泄漏？二、内存泄漏的原因三、内存泄漏的影响四、如何检测和解决内存泄漏？五、总结一、什么是内存泄漏？ 内存泄漏指的是程序中已分配的内存没有被正确释放，导致这部分内存无法被再次利用，最终导致内存资…

阅读更多...

OLED透明屏的制造过程是怎样的？

OLED透明屏的制造过程是怎样的？

OLED透明屏的制造过程是一个复杂且精细的工艺，它涉及多个关键步骤以确保最终的显示效果和透明度。以下是OLED透明屏制造过程的主要步骤： 基板准备：制造过程始于对基板的准备。基板通常是玻璃或塑料材料，需要进行清洗和表面处理&am…

阅读更多...

echerts饼图分割操作

echerts饼图分割操作

在饼图制作中遇到了一个难点就是饼图中间是分散的试了很多方法，最后选择了给每个值中间再加一节的处理方式，并把颜色设置为透明就能达到相同效果。处理后的样式： 代码： let list this.data.list;/饼图内部展示数据// let _t…

阅读更多...

金融风控信用评分卡建模（Kaggle give me credit数据集）

金融风控信用评分卡建模（Kaggle give me credit数据集）

1 数据预处理数据数据来源于Kaggle的Give Me Some Credit，包括25万条个人财务情况的样本数据 1.1 导包读数据 import pandas as pd import numpy as np import matplotlib.pyplot as plt from sklearn.ensemble import RandomForestRegressor import seaborn as …

阅读更多...

Midjourney与waifu2x双剑合璧：完美打造超高清动漫图像

Midjourney与waifu2x双剑合璧：完美打造超高清动漫图像

在追求完美的动漫图像时，质量和分辨率是两个关键因素。Midjourney（一个神秘而强大的AI图像生成工具）与waifu2x（一个专门用于放大动漫风格图像的AI工具）的结合使得创造超高清的动漫图像变得触手可及。本文将引导您如何使…

阅读更多...

geoserver安装部署

geoserver安装部署

1.配置Java环境首先我们先来官网下载JDK，由于我们的geoserver版本是和 java11 和 java17 适配的，所以我们选择 java11 下载好了点击安装，无脑下一步就行，想改路径就改一下，不过需要把路径记住 ，后面需要用…

阅读更多...

【代码随想录刷题记录】LeetCode367有效的完全平方数

【代码随想录刷题记录】LeetCode367有效的完全平方数

题目地址 1. 思路这个题就用二分查找的思想，比LeetCode69x的平方根要简单一些，那个还要处理开平方不是整数的情况，这个直接就按左闭右闭，middle的平方是num就返回true，否则继续迭代二分直到找到middle的平方是num的…

阅读更多...

docker 报错 error adding seccomp filter rule for syscall clone3

docker 报错 error adding seccomp filter rule for syscall clone3

网上有一些说法，例如重新安装docker 但是我自己尝试，用 –security-opt seccompunconfined 就可以，但是需要把这个命令放到紧挨着run的位置，如果放到偏后的位置，可能不起作用。以下命令是其他网友启动是的命令&…

阅读更多...

ME21N行项目增强

ME21N行项目增强

ME21N行项目增强一、增强描述需要在使用ME21创建采购订单时将行项目加个默认值增强BADI：ME_PROCESS_PO_CUST 二、增强步骤使用事务码se19建立一个增强实施. 输入一个新建的实施名字和实施描述:ZME_PROCESS_PO_CUST1 重写接口方法PROCESS_ITEM,双击进去即可. …

阅读更多...

Ultralytics YOLOv8 英伟达™ Jetson®处理器部署

Ultralytics YOLOv8 英伟达™ Jetson®处理器部署

系列文章目录前言本综合指南提供了在英伟达 Jetson设备上部署Ultralytics YOLOv8 的详细攻略。此外，它还展示了性能基准，以证明YOLOv8 在这些小巧而功能强大的设备上的性能。备注本指南使用Seeed Studio reComputer J4012进行测试，它基于…

阅读更多...

壹[1]，VisionMaster-脚本篇

壹[1]，VisionMaster-脚本篇

1，SDK开发帮助文件地址海康VisionMaster安装目录\VisionMaster4.3.0\Development\V4.x\Documentations\CH 2，脚本编辑问题注：自带的编译器加载程序集找不到元(操作流程编辑程序集/添加程序集/预编译) 注：使用VS进行编译生成并保存(导出工程/选择sln文件并用Vs打开) 注…

阅读更多...

基于人工智能的机动车号牌检测与推理系统v1.0

基于人工智能的机动车号牌检测与推理系统v1.0

基于人工智能的机动车号牌检测与推理系统v1.0代码重构与实现。目前整合3中现有算法，并完成阶段性改造，包括【传统方法检测车牌，SVM推理字符】、【YOLO方法检测车牌，SVM推理字符】、【YOLO方法检测车牌，CNN推理字符】&…

阅读更多...

推荐文章

最新文章