1.如何使用大模型
阿里云(K8s容器服务、Serverless架构等),千问
2.大模型的训练
预训练、SFT(监督微调)以及RLHF(基于人类反馈的强化学习)
预训练:预测(补全句子),Transformer框架
SFT:按照人类意图回答专业问题、预测(但是模型的回答有时候可能不符合人类的偏好,可能输出涉黄、涉政、涉暴或者宗族歧视等言论)
RLHF:
3.大模型的特点
- 规模和参数量大
- 适应性和灵活性强
- 广泛数据集的预训练(数据成本很值钱)
- 计算资源需求大
主要功能:降本增效
4.大模型的分类
- 大语言模型(LLM):专注于自然语言处理(NLP),旨在处理语言、文章、对话等自然语言文本。它们通常基于深度学习架构(Transformer模型),经过大规模文本数据集训练而成。能够捕捉语言的复杂性
- 多模态模型:计算机视觉模型、音频处理模型
5.大模型的工作流程
-
分词化与词表映射
分词化是自然语言处理NLP中重要的概念,它是将段落和句子分割成更小的分词(token)的过程。
将一个句子分解成更小的、独立的部分可以帮助计算机理解句子的各个部分,以及它们上下文中的作用
词粒度、字符粒度、子词粒度,每一个token都会通过预先设置好的词表,映射为一个token id,这是token的身份证,
一句话最终会被表示为一个元素为token id 的列表
-
文本生成过程