对Transformer中Add&Norm层的理解-CSDN博客
GPT模型总结【模型结构及计算过程_详细说明】_gpt结构-CSDN博客
推荐30个以上比较好的中文nlp意图识别模型源码?-CSDN博客
Few-shot learning(少样本学习)入门 - 知乎 (zhihu.com)
零次学习(Zero-Shot Learning)入门 (zhihu.com)
ERNIE 3.0: 用于语言理解和生成的大规模知识强化预训练 - 知乎 (zhihu.com)
全连接层的主要作用就是将前层(卷积、池化等层)计算得到的特征空间映射样本标记空间。简单的说就是将特征表示整合成一个值,其优点在于减少特征位置对于分类结果的影响,提高了整个网络的鲁棒性。