GShard arxiv链接 GShard 模型架构图: 参考GShard论文笔记(1)-MoE结构可知,MOE具备以下几种特点: 改造了原本的FFN层,变成Gate+n个FFN层。n个FFN层的训练数据集不同。推理时会计算token与每个FFN的匹配程度,并k个被最匹配的FFN的输出对作加权平均。 https://github.com/laekov/fastmoe