在预测阶段, 我们希望输入 "天雷滚滚我好怕怕" 和 "[cls]" 能预测出下一个token: 劈
于是我们在训练阶段,我们的输入是 "天雷滚滚我好怕怕" 和 “[cls]劈得我浑身掉渣渣”, 由于我们希望"[cls]" 能预测出 “劈” 字。
我们在损失函数计算的入参设置为: "劈得我浑身掉渣渣[sep]"
我们强制让“[cls]”学习到需要输出的token为“劈”,同理让 “[cls]劈” 学习到需要的输出token为 “得”
这儿的重点在于预测词与我们目标词之间有一个有移位。同时让损失函数的计算也右移一位。