文章目录
- Speculative decoding(sampling)
- 重复
- Beam search
- Contrastive search
- Hallucination
- Embbeding overlappep
- 简单例子
- vector space overlapped
- Top K, Top P, Temperature
- MOE
Speculative decoding(sampling)
(感谢 Efficient NLP)
以下的内容,主要帮助decoding高质量内容,特别是速度上有了提升,并且是,这种一大一小两个模型一起跑的方式比一个大模型单跑要快~
Draft model (P): 一般指比较小的模型。 Target model (Q):一般指正式的大模型
算法:
1:先在小模型(Draft model)上将N个tokens 得到,多少个token就跑多少次
2:然后在大模型(Target model)上一次性得到小模型分次跑的所有tokens,一次性得到N个tokens,并且还可以得到第N+1次的token
3: 图中目前获得了从两种模型得到的token 对应的probabilities。这时,需要确定哪些token是有效的要保留的,判断条件如下:
- 1: q(x) >= p(x), 保留
- 2:如果q(x) < p(x), 先得到: