规模法则（Scaling Law）与参数效率的提高，-编程知识

规模法则（Scaling Law）与参数效率的提高，

news/2025/3/1 8:20:35/文章来源:https://www.cnblogs.com/jellyai/p/18606435

上一篇：《人工智能大语言模型起源篇（三），模型规模与参数效率》

规模法则与效率提高

如果你想了解更多关于提高变换器效率的各种技术，我推荐阅读2020年的《Efficient Transformers: A Survey》https://arxiv.org/abs/2009.06732论文，接着是2023年的《A Survey on Efficient Training of Transformers》https://arxiv.org/abs/2302.01107论文。

此外，下面是我发现特别有趣和值得阅读的几篇论文。

（10）FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness（2022），由Dao、Fu、Ermon、Rudra 和 Ré 合著，https://arxiv.org/abs/2205.14135

虽然大多数变换器论文没有专门讨论如何替代原始的缩放点积机制来实现自注意力，但FlashAttention是我最近看到最多被提到的一种机制。

来源：https://arxiv.org/abs/2205.14135

（11）Geiping 和 Goldstein 于2022年发表的《Cramming: Training a Language Model on a Single GPU in One Day》，https://arxiv.org/abs/2212.14034

在这篇论文中，研究人员用一块GPU训练了一个掩蔽语言模型/编码器风格的大型语言模型（这里是BERT），训练时间为24小时。做个对比，2018年原始的BERT论文是用16块TPU训练了四天。一个有趣的发现是，尽管小模型的吞吐量更高，但小模型的学习效率较低。因此，大模型并不需要更长的训练时间就能达到特定的预测性能阈值。

                                            来源: https://arxiv.org/abs/2212.14034

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/852441.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

规模法则（Scaling Law）与参数效率的提高，

相关文章

postman -- 把上一接口的响应值作为下一接口的入参

HarmonyOS NEXT开发实战教程—淘宝搜索页

易优EyouCMS的“易优修改重置后台密码小工具”有哪些功能，如何使用？

如何在易优EyouCMS中手动创建缺失的数据表？

WSL搭建深度强化学习环境

【Word文档】结构分析+安全

【Word文档】结构分析

财务知识-开票加税点的合理点数

【大数据】大数据 Hadoop 管理工具 Apache Ambari（HDP）

读数据保护：工作负载的可恢复性13一致性模型

【Hadoop框架】生态组件之分布式文件系统 HDFS 常用命令

渗透测试-前端验签绕过之SHA256