输入经过encoder得到特征,4个特征当作decoder的输入(打辅助),把标签拿过来做输入得到序列
自回归
区别![](https://img2024.cnblogs.com/blog/3530486/202502/3530486-20250208200118129-700589324.png)
- 一步错步步错
- 只能串行
输出多长 分类/回归(不太行)
输入选到END表示结束
输入:start+label 输出:label+END
测试
测试时没有label
Beam Search在有些生成的时候,不是单纯的推测,会加入算法
贪婪:每一步只看当前的
beamsearch规定每次要看的步数
- 输入
- mask
- cross
- 训练的loss如何计算
- 训练和测试的差别