架构师阅读笔记 MiniMind 项目快速上手指南-编程知识

架构师阅读笔记 MiniMind 项目快速上手指南

news/2025/3/22 23:00:54/文章来源:https://www.cnblogs.com/258-333/p/18787276

数据集和训练准备

Ⅰ Tokenizer

分词器（Tokenizer）是语言模型训练中的一个关键步骤。MiniMind使用了一个简化版的tokenizer，以控制词表的大小并减少计算开销。你可以选择自己训练词典，或者使用现成的tokenizer来加速训练。

Ⅱ 预训练数据（Pretrain Data）

预训练数据用于模型的初步训练，MiniMind采用了一些高质量的数据集（例如pretrain_hq.jsonl），经过清洗和格式化，可以用来为模型提供基本的语言知识。

Ⅲ 监督微调数据（SFT Data）

监督微调数据集用于帮助模型学习对话的结构和行为，MiniMind已经准备了多个中文和英文的对话数据集，帮助模型在实际对话中更加自然。

Ⅳ 强化学习数据（RLHF Data）

MiniMind还使用了强化学习优化模型，使得其回答更加符合用户的偏好。dpo.jsonl文件包含了训练数据，经过进一步优化，可以使得模型更好地回应用户的提问。

Ⅴ Reason数据集

Reason数据集主要用于推理任务，它结合了Llama3.1和DeepSeek的技术，模拟了人类的推理过程，进一步提升了模型的推理能力。

Ⅵ 更多数据集

MiniMind不断更新数据集，包括中文的LLM相关数据集、中文对话数据集等，确保模型在多个任务中都能得到优化。

MiniMind训练数据集（无需全部clone，可单独下载所需的文件）

ModelScope：https://www.modelscope.cn/datasets/gongjy/minimind_dataset/files
HuggingFace：https://huggingface.co/datasets/jingyaogong/minimind_dataset/tree/main

将下载的数据集文件放到./dataset/目录下（✨为推荐的必须项）：

./dataset/
├── dpo.jsonl (909MB)
├── lora_identity.jsonl (22.8KB)
├── lora_medical.jsonl (34MB)
├── pretrain_hq.jsonl (1.6GB, ✨)
├── r1_mix_1024.jsonl (340MB)
├── sft_1024.jsonl (5.6GB)
├── sft_2048.jsonl (9GB)
├── sft_512.jsonl (7.5GB)
├── sft_mini_512.jsonl (1.2GB, ✨)
└── tokenizer_train.jsonl (1GB)

注：各数据集简介

dpo.jsonl -- RLHF阶段数据集
lora_identity.jsonl -- 自我认知数据集（例如：你是谁？我是minimind...），推荐用于LoRA训练（亦可用于全参SFT，勿被名字局限）
lora_medical.jsonl -- 医疗问答数据集，推荐用于LoRA训练（亦可用于全参SFT，勿被名字局限）
pretrain_hq.jsonl ✨ -- 预训练数据集，整合自jiangshu科技
r1_mix_1024.jsonl -- DeepSeek-R1-1.5B蒸馏数据，每条数据字符最大长度为1024（因此训练时设置max_seq_len=1024）
sft_1024.jsonl -- 整合自Qwen2.5蒸馏数据（是sft_2048的子集），每条数据字符最大长度为1024（因此训练时设置max_seq_len=1024）
sft_2048.jsonl -- 整合自Qwen2.5蒸馏数据，每条数据字符最大长度为2048（因此训练时设置max_seq_len=2048）
sft_512.jsonl -- 整合自匠数科技SFT数据，每条数据字符最大长度为512（因此训练时设置max_seq_len=512）
sft_mini_512.jsonl ✨ -- 极简整合自匠数科技SFT数据+Qwen2.5蒸馏数据（用于快速训练Zero模型），每条数据字符最大长度为512（因此训练时设置max_seq_len=512）
tokenizer_train.jsonl -- 均来自于匠数大模型数据集，这部分数据相对次要，（不推荐自己重复训练tokenizer，理由如上）如需自己训练tokenizer可以自由选择数据集。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/903671.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

NSSCTF ROUND#28 Ciallo～(∠・ω )⌒☆ WriteUp

WriteUp 题目信息来源：NSSCTF 名称：ROUND#28 Ciallo～(∠・ω )⌒☆ 分类：Reverse 描述：无题目链接: https://www.nssctf.cn/contest/732/解题思路首先使用DIE对文件进行查壳，发现这是一个无壳的64位exe文件。于是使用64位IDA对文件进行反汇编，得到伪代码如下：先一步步…

day35 nfs共享服务器的学习

day35 nfs共享服务器的学习 1.企业集群为什么要共享服务器没有共享服务器先看一下没有共享服务器的问题 A用户上传啦图片到web01的服务器，然后B用户访问但是负载均衡服务器把请求分发到了web02的服务器上，导致B用户查看不了图片。配置啦共享服务器无论是用户把图片发送给web…

Nature Communications | 全基因组沉默子图谱揭示人类细胞基因调控新机制

摘要总结这篇文章是2025年1月发表在《Nature Communications》杂志上的一篇研究，标题为“Uncovering the whole genome silencers of human cells via Ss-STARR-seq”。这篇文章通过开发一种名为Ss-STARR-seq的高通量筛选技术，首次在全基因组范围内系统性鉴定了人类细胞中的…

数据结构3

基本数据处理技术概率论与数理统计1-基本概念概率论与数理统计2-基本数据结构概率论与数理统计3-基本数据处理技术基本的数据处理技术查找查找的基本概念在哪里找：查找表是由同一类型的数据元素（或记录）构成的集合，集合中的数据元素之间关系松散。按什么查找：根据给…

NSSCTF ROUND#28 动态调试 WriteUp

WriteUp 题目信息来源：NSSCTF 名称：ROUND#28 动态调试分类：Reverse 描述：无题目链接: https://www.nssctf.cn/contest/732/解题思路首先使用DIE对文件进行查壳，发现这是一个无壳的32位ELF文件。于是使用32位IDA对文件进行反汇编，得到伪代码如下：为方便阅读伪代码，修…

This scene is what the heroine saw from a begin sycarmore at the first time . It was this landscape that awake the heroine of her father’s word: “ A painting is more than the sum of its parts”. This scene is shot from the big sycarmore and it is a estab…