爆火!!!中文版 Llama3 开源了!!

节前,我们组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。

针对大模型技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。

总结链接如下:

重磅消息!《大模型面试宝典》(2024版) 正式发布!

喜欢记得点赞、收藏、关注。更多技术交流&面经学习,可以文末加入我们。


最近,Meta 推出了 Llama 3,为开源大模型树立了新的标杆。

和以往的原始 Llama 模型一样,Llama 3 对中文的支持效果欠佳,经常会出现你用中文提问,它用英文或中文+英文回复的现象。因此,要想让国内用户用上该模型,开发者还需对其进行微调。

最近,在 Github 以及 HuggingFace 平台上,我们已经陆陆续续地看到了一些这样的项目,比如 llama3-Chinese-chat 和 Llama3-8B-Chinese-Chat。这篇文章将逐一介绍。

llama3-Chinese-chat

llama3-Chinese-chat 是一个 Github 项目,由名为「Ke Bai」的开发者开发。

在这里插入图片描述

项目链接:https://github.com/CrazyBoyM/llama3-Chinese-chat

该模型效果如下:

在这里插入图片描述
作者表示,该模型使用 170k + 高质量多轮中文对话数据连夜训练得到。他还整理了一份可用的训练数据列表,里面包含弱智吧、小红书、知乎等网络数据和开发者自己制作的数据。
在这里插入图片描述
模型推理成本如下:

  • fp16 模式大概占用 16G 显存,推荐 24G 显卡使用;

  • int4 模式大概占用 8G 显存,推荐至少 10G 显存使用,需要自行搜索修改代码中 load_in_4bit=True

此外,作者还整理了一些有用的教程、工具等资源,具体细节可以在 GitHub 库中找到。

Llama3-8B-Chinese-Chat

Llama3-8B-Chinese-Chat 是第一个基于 Meta-Llama-3-8B-Instruct 模型通过 ORPO 专门针对中文进行微调的中文聊天模型。项目作者是清华大学自动化系 LEAP 实验室三年级博士生王慎执,导师为宋世济教授和黄高教授。
在这里插入图片描述
项目链接:https://huggingface.co/shenzhi-wang/Llama3-8B-Chinese-Chat?continueFlag=5a1e5d88eed977ffb39d9b451be2a81d

与原来的 Meta-Llama-3-8B-Instruct 模型相比,Llama3-8B-Chinese-Chat 模型显著减少了「中文问题英文回复」以及中英文混合的问题。此外,与原始模型相比,新模型大大减少了答案中表情符号的数量,使回复更加正式。

技术交流&资料

技术要学会分享、交流,不建议闭门造车。一个人可以走的很快、一堆人可以走的更远。

成立了算法面试和技术交流群,相关资料、技术交流&答疑,均可加我们的交流群获取,群友已超过2000人,添加时最好的备注方式为:来源+兴趣方向,方便找到志同道合的朋友。

方式①、微信搜索公众号:机器学习社区,后台回复:加群
方式②、添加微信号:mlc2040,备注:来自CSDN + 技术交流

通俗易懂讲解大模型系列

  • 重磅消息!《大模型面试宝典》(2024版) 正式发布!

  • 重磅消息!《大模型实战宝典》(2024版) 正式发布!

  • 做大模型也有1年多了,聊聊这段时间的感悟!

  • 用通俗易懂的方式讲解:大模型算法工程师最全面试题汇总

  • 用通俗易懂的方式讲解:不要再苦苦寻觅了!AI 大模型面试指南(含答案)的最全总结来了!

  • 用通俗易懂的方式讲解:我的大模型岗位面试总结:共24家,9个offer

  • 用通俗易懂的方式讲解:大模型 RAG 在 LangChain 中的应用实战

  • 用通俗易懂的方式讲解:ChatGPT 开放的多模态的DALL-E 3功能,好玩到停不下来!

  • 用通俗易懂的方式讲解:基于扩散模型(Diffusion),文生图 AnyText 的效果太棒了

  • 用通俗易懂的方式讲解:在 CPU 服务器上部署 ChatGLM3-6B 模型

  • 用通俗易懂的方式讲解:ChatGLM3-6B 部署指南

  • 用通俗易懂的方式讲解:使用 LangChain 封装自定义的 LLM,太棒了

  • 用通俗易懂的方式讲解:基于 Langchain 和 ChatChat 部署本地知识库问答系统

  • 用通俗易懂的方式讲解:Llama2 部署讲解及试用方式

  • 用通俗易懂的方式讲解:一份保姆级的 Stable Diffusion 部署教程,开启你的炼丹之路

  • 用通俗易懂的方式讲解:LlamaIndex 官方发布高清大图,纵览高级 RAG技术

  • 用通俗易懂的方式讲解:为什么大模型 Advanced RAG 方法对于AI的未来至关重要?

  • 用通俗易懂的方式讲解:基于 Langchain 框架,利用 MongoDB 矢量搜索实现大模型 RAG 高级检索方法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/703341.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Pytharm2020安装详细教程

Pytharm2020版提取链接链接: https://pan.baidu.com/s/1eDvwYmUJ4l7kIBXewtN4EA?pwd1111 提取码:1111 演示版本为2019版,链接包为2020版pytharm。 1.双击exe文件页面会提示更改选项,点击“是”。 2.点击下一步next 自…

视频号小店是个风口吗?今年去做是明智的选择吗?一篇详解!

大家好,我是电商小V 视频号才刚刚推出一年半的时间,可以说自从推出之后这个项目的知名度一直是处于飙升的状态,一直处于爆火的状态,也是吸引了很多想做电商,想去创业的小伙伴,最主要的就是视频号小店背靠的…

Minecraft 我的世界服务器Java版开服联机教程

本教程使用Paper核心开服 1、进入控制面板 1.2、第一次购买服务器会安装游戏端,大约5分钟左右,如果长时间处于安装状态请联系客服 2、开启服务器 2.1、等待出现同意Minecraft EULA 协议时,点击“我接受” 2.2、等待running出现服务器就打开了…

“安”网守护,“乐享”服务——革新教育行业运维与安全体验,锐捷发布两大创新方案

5月11日,锐捷网络举办以“’安‘网联动, ’乐享‘运维”为主题的线上发布会,正式发布了锐捷乐享教育订阅服务方案,以及以新一代智能安全网关为核心的安全防护解决方案。 锐捷网络教育系统部总经理马雪峰为发布会致开场辞,他指出,在数字化浪潮席卷全球的今天,教育行业正进来前所…

企智汇项目管理软件有哪些优势?

一款非常好用、高效的软件——企智汇软件有哪些优势呢? 首先,我们来看看它的界面设计。企智汇软件界面简洁直观,用户可以轻松地使用各种功能,不需要学习复杂的操作流程。而且,软件还提供了多种配色方案和主题&#xf…

南网上行通信规约报文解析软件

本文分享一个南网上行通信规约20140617 报文解析软件 下载链接: https://pan.baidu.com/s/1ngbBG-yL8ucRWLDflqzEnQ 提取码: y1de 主界面如下图所示: 本软件同时支持南网上行通信规约20140617-Fn查询功能 软件同时支持多种规约类型,如:国网…

Sam Blackshear谈Move语言的创新

Sui上的Move编程语言融合了三项基本创新:面向对象的数据模型、可编程交易区块和动态字段。Mysten Labs的联合创始人兼首席技术官Sam Blackshear在五年前创建了Move,这是一种专门为在区块链上编写智能合约而设计的语言。这三项在Sui上的创新提升了Move的潜…

JavaScript对象的声明

JS声明对象的语法 1 通过new Object()直接创建对象2 通过 { }形式创建对象 1 通过new Object()直接创建对象 代码 var person new Object(); // 给对象添加属性并赋值 person.name"张小明"; person.age10; person.foods["苹果","橘子","香…

C语言之父和Linux之父谁的C语言更好?

在开始前我有一些资料,是我根据网友给的问题精心整理了一份「C语言的资料从专业入门到高级教程」, 点个关注在评论区回复“888”之后私信回复“888”,全部无偿共享给大家!!!C语言之父丹尼斯里奇(Dennis Ri…

Google IO 2024有哪些看点呢?

有了 24 小时前 OpenAI 用 GPT-4o 带来的炸场之后,今年的 Google I/O 还未开始,似乎就被架在了一个相当尴尬的地位,即使每个人都知道 Google 将发布足够多的新 AI 内容,但有了 GPT-4o 的珠玉在前,即使是 Google 也不得…

malloc_consolidate

此文章用于详细介绍malloc_consolidate。 众所周知,fastbin一般是不能合并,但在malloc_consolidate中是个例外。 1.触发机制 首先构造这样的堆块结构 一个0x40的堆块在fastbin中,一个0x110的堆块在unbin中 随后我们尝试分配一个0x300的堆…

【Day3:JAVA运算符、方法的介绍】

目录 1、运算符1.1 赋值运算符1.2 比较运算符1.3 逻辑运算符1.3.1 逻辑运算符概述1.3.2 逻辑运算符分类1.3.3 短路的逻辑运算符 1.4 三元运算符1.5 运算符优先级 2、方法2.1 方法介绍2.2 方法的定义和调用格式2.2.1 方法的调用2.2.2 带参数方法的调用2.2.3 带返回值方法的调用2…