大语言模型的“大”体现在哪里-编程知识

大语言模型的“大”体现在哪里

大语言模型中的"大"通常体现在以下几个方面，参数数量，训练数据和计算资源：

参数数量：

上图为大规模语言模型的参数量随着时间的变化图，2022年左右大规模语言模型大量出现，参数量在100B（1千亿）左右。

大语言模型通常是通过大规模的文本数据进行训练的，这些数据包含了丰富的语言信息，有助于模型学习更准确的语言表示。

从下面的图可以看到，Meta 开源的llama所需要的训练数据有2T（2万亿）token,阿里开源的通义千问模型的训练数据达到了3T（3万亿）。这个训练数据是什么量级呢，我们可以来类比一下，2022年底的时候，维基上有640万篇文章，这些文章的token量大概是40亿。

上图中我们可以看到一台8卡的A100(80G)的服务器大概可以提供的计算量为5PFlop/s-day，假设GPT4有万亿参数量，其大概需要的计算量为75352 PFlop/s-day，如果需要15天训练完成的话，估计需要万卡的GPU集群。

所以，大语言模型的规模不仅体现在参数数量上，还包括训练数据、计算资源上，这些“大”使得大规模语言模型的泛化能力和应用领域等都得到极大增强。大语言模型在增强泛化能力的情况下，还会带来给应用领域带来变革。

PS：欢迎扫码关注公众号^_^.

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/525420.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！