架构师 阅读笔记 MiniMind 项目快速上手指南

news/2025/3/22 23:00:54/文章来源:https://www.cnblogs.com/258-333/p/18787276

数据集和训练准备

Ⅰ Tokenizer

分词器(Tokenizer)是语言模型训练中的一个关键步骤。MiniMind使用了一个简化版的tokenizer,以控制词表的大小并减少计算开销。你可以选择自己训练词典,或者使用现成的tokenizer来加速训练。

Ⅱ 预训练数据(Pretrain Data)

预训练数据用于模型的初步训练,MiniMind采用了一些高质量的数据集(例如pretrain_hq.jsonl),经过清洗和格式化,可以用来为模型提供基本的语言知识。

Ⅲ 监督微调数据(SFT Data)

监督微调数据集用于帮助模型学习对话的结构和行为,MiniMind已经准备了多个中文和英文的对话数据集,帮助模型在实际对话中更加自然。

Ⅳ 强化学习数据(RLHF Data)

MiniMind还使用了强化学习优化模型,使得其回答更加符合用户的偏好。dpo.jsonl文件包含了训练数据,经过进一步优化,可以使得模型更好地回应用户的提问。

Ⅴ Reason数据集

Reason数据集主要用于推理任务,它结合了Llama3.1和DeepSeek的技术,模拟了人类的推理过程,进一步提升了模型的推理能力。

Ⅵ 更多数据集

MiniMind不断更新数据集,包括中文的LLM相关数据集、中文对话数据集等,确保模型在多个任务中都能得到优化。

MiniMind训练数据集(无需全部clone,可单独下载所需的文件)

  • ModelScope:https://www.modelscope.cn/datasets/gongjy/minimind_dataset/files
  • HuggingFace:https://huggingface.co/datasets/jingyaogong/minimind_dataset/tree/main

将下载的数据集文件放到./dataset/目录下(✨为推荐的必须项):

./dataset/
├── dpo.jsonl (909MB)
├── lora_identity.jsonl (22.8KB)
├── lora_medical.jsonl (34MB)
├── pretrain_hq.jsonl (1.6GB, ✨)
├── r1_mix_1024.jsonl (340MB)
├── sft_1024.jsonl (5.6GB)
├── sft_2048.jsonl (9GB)
├── sft_512.jsonl (7.5GB)
├── sft_mini_512.jsonl (1.2GB, ✨)
└── tokenizer_train.jsonl (1GB)

注:各数据集简介

  • dpo.jsonl -- RLHF阶段数据集
  • lora_identity.jsonl -- 自我认知数据集(例如:你是谁?我是minimind...),推荐用于LoRA训练(亦可用于全参SFT,勿被名字局限)
  • lora_medical.jsonl -- 医疗问答数据集,推荐用于LoRA训练(亦可用于全参SFT,勿被名字局限)
  • pretrain_hq.jsonl ✨ -- 预训练数据集,整合自jiangshu科技
  • r1_mix_1024.jsonl -- DeepSeek-R1-1.5B蒸馏数据,每条数据字符最大长度为1024(因此训练时设置max_seq_len=1024
  • sft_1024.jsonl -- 整合自Qwen2.5蒸馏数据(是sft_2048的子集),每条数据字符最大长度为1024(因此训练时设置max_seq_len=1024
  • sft_2048.jsonl -- 整合自Qwen2.5蒸馏数据,每条数据字符最大长度为2048(因此训练时设置max_seq_len=2048
  • sft_512.jsonl -- 整合自匠数科技SFT数据,每条数据字符最大长度为512(因此训练时设置max_seq_len=512
  • sft_mini_512.jsonl ✨ -- 极简整合自匠数科技SFT数据+Qwen2.5蒸馏数据(用于快速训练Zero模型),每条数据字符最大长度为512(因此训练时设置max_seq_len=512
  • tokenizer_train.jsonl -- 均来自于匠数大模型数据集,这部分数据相对次要,(不推荐自己重复训练tokenizer,理由如上)如需自己训练tokenizer可以自由选择数据集。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/903671.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

NSSCTF ROUND#28 Ciallo~(∠・ω )⌒☆ WriteUp

WriteUp 题目信息 来源:NSSCTF 名称:ROUND#28 Ciallo~(∠・ω )⌒☆ 分类:Reverse 描述:无题目链接: https://www.nssctf.cn/contest/732/解题思路 首先使用DIE对文件进行查壳,发现这是一个无壳的64位exe文件。于是使用64位IDA对文件进行反汇编,得到伪代码如下:先一步步…

day35 nfs共享服务器的学习

day35 nfs共享服务器的学习 1.企业集群为什么要共享服务器 没有共享服务器先看一下没有共享服务器的问题 A用户上传啦图片到web01的服务器,然后B用户访问但是负载均衡服务器把请求分发到了web02的服务器上,导致B用户查看不了图片。配置啦共享服务器无论是用户把图片发送给web…

Nature Communications | 全基因组沉默子图谱揭示人类细胞基因调控新机制

摘要总结 这篇文章是2025年1月发表在《Nature Communications》杂志上的一篇研究,标题为“Uncovering the whole genome silencers of human cells via Ss-STARR-seq”。这篇文章通过开发一种名为Ss-STARR-seq的高通量筛选技术,首次在全基因组范围内系统性鉴定了人类细胞中的…

数据结构3

基本数据处理技术概率论与数理统计1-基本概念 概率论与数理统计2-基本数据结构 概率论与数理统计3-基本数据处理技术 基本的数据处理技术 查找 查找的基本概念 在哪里找:查找表是由同一类型的数据元素(或记录)构成的集合,集合中的数据元素之间关系松散。 按什么查找:根据给…

NSSCTF ROUND#28 动态调试 WriteUp

WriteUp 题目信息 来源:NSSCTF 名称:ROUND#28 动态调试 分类:Reverse 描述:无题目链接: https://www.nssctf.cn/contest/732/解题思路 首先使用DIE对文件进行查壳,发现这是一个无壳的32位ELF文件。于是使用32位IDA对文件进行反汇编,得到伪代码如下:为方便阅读伪代码,修…

Video Analysis Assignment

This scene is what the heroine saw from a begin sycarmore at the first time . It was this landscape that awake the heroine of her father’s word: “ A painting is more than the sum of its parts”. This scene is shot from the big sycarmore and it is a estab…

AI一键生成流程图架构图甘特图饼图等可视化图形 原创

AI脑图除了使用文字、语音、图片、文件、网页和视频等一键生成思维导图外,现在也可以支持一键生成流程图、架构图、甘特图等可视化图形了,使用非常简单,告诉AI脑图你想要生成什么图,大概不到两分钟就会制作好并以图片回复给你啦。 支持的可视化图形有: 流程图 例如向AI脑图…

Atcoder ABC398.F - ABCBA 题解 KMP的next函数

题目链接:https://atcoder.jp/contests/abc398/tasks/abc398_f 题目大意: 给你一个字符串 \(s\),要求在字符串 \(s\) 的末尾添加尽可能少的字符使其变成一个回文串。 解题思路: 首先,设输入的字符串为 \(s = s_1 s_2 \ldots s_n\),设字符串 \(s\) 翻转后的字符串为 \(s\)…

方法的定义和调用

//方法的应用 package Base; public class Demon16 { public static void main(String[] args) {// TODO Auto-generated method stubint max=max(10,10);System.out.println(max); } //比大小 public static int max(int num1,int num2) {int result=0;if(num1==num2) {System…

浅说线性差分和树上差分

目录线性差分正常思路差分思路二维差分的定义二维差分的解释例题1 地毯树上差分引入点差分例题1——wwx的出玩分析与解答例题2——松鼠的新家分析与解答边差分例题1——边差分模版分析与解答例题2——运输计划分析与解答 线性差分 当我们这里有\(n\)个数,现在我要对其中一段进…

Spring 事务失效

场景1:代码:执行结果:异常抛出,但是数据没有回滚。 代理对象调用 b() 方法 没有开启事务:普通对象调用a() 方法开启事务:在b() 方法上加入事务注解,开启事务就没问题:本文来自博客园,作者:chuangzhou,转载请注明原文链接:https://www.cnblogs.com/czzz/p/18787133

征程 6X CAMSYS 性能测试方案介绍

1.性能测试方法原理 CAMSYS 其性能指标主要包括:帧率、延迟,以及系统的 DDR 带宽、CPU 占用率等。 对于帧率、延迟,通过在驱动中创建 trace event,分别记录通路上的每个 IP,每帧开始处理(frame_start)和结束处理(frame_end)的时间戳信息和帧信息,来实现帧率计算和延迟…