规模法则(Scaling Law)与参数效率的提高,

news/2024/12/14 10:17:54/文章来源:https://www.cnblogs.com/jellyai/p/18606435

上一篇:《人工智能大语言模型起源篇(三),模型规模与参数效率》

规模法则与效率提高

如果你想了解更多关于提高变换器效率的各种技术,我推荐阅读2020年的《Efficient Transformers: A Survey》https://arxiv.org/abs/2009.06732论文,接着是2023年的《A Survey on Efficient Training of Transformers》https://arxiv.org/abs/2302.01107论文。

此外,下面是我发现特别有趣和值得阅读的几篇论文。

(10)FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness(2022),由Dao、Fu、Ermon、Rudra 和 Ré 合著,https://arxiv.org/abs/2205.14135

虽然大多数变换器论文没有专门讨论如何替代原始的缩放点积机制来实现自注意力,但FlashAttention是我最近看到最多被提到的一种机制。


来源:https://arxiv.org/abs/2205.14135

(11)Geiping 和 Goldstein 于2022年发表的《Cramming: Training a Language Model on a Single GPU in One Day》,https://arxiv.org/abs/2212.14034

在这篇论文中,研究人员用一块GPU训练了一个掩蔽语言模型/编码器风格的大型语言模型(这里是BERT),训练时间为24小时。做个对比,2018年原始的BERT论文是用16块TPU训练了四天。一个有趣的发现是,尽管小模型的吞吐量更高,但小模型的学习效率较低。因此,大模型并不需要更长的训练时间就能达到特定的预测性能阈值。

                                            来源: https://arxiv.org/abs/2212.14034

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/852441.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

HarmonyOS NEXT开发实战教程—淘宝搜索页

今天忙里偷闲,分享一个淘宝搜索页实现过程,先上效果图:界面部分比较简单,大体分为导航栏、历史搜索、猜你想搜和热搜榜几个部分,历史搜索采用用户首选项进行存储数据。 导航栏部分相关代码如下:Flex({direction:FlexDirection.Row,wrap:FlexWrap.NoWrap,alignItems:ItemA…

易优EyouCMS的“易优修改重置后台密码小工具”有哪些功能,如何使用?

易优EyouCMS的“易优修改重置后台密码小工具”是一个非常实用的工具,可以帮助您在忘记后台密码或其他登录问题时快速解决问题。以下是该工具的主要功能及其使用方法:后台密码重置:功能介绍:如果您忘记了后台管理员密码,可以使用此工具快速重置。 使用方法:下载 setpwd.ph…

如何在易优EyouCMS中手动创建缺失的数据表?

在使用易优EyouCMS时,如果遇到数据表缺失的情况,您可以通过以下步骤手动创建缺失的数据表:确认数据表缺失:登录到您的数据库管理工具(如phpMyAdmin),检查报错中提到的数据表是否存在于当前数据库中。例如,如果报错提示“数据表 ey_product_spec_value_handle 不存在”,…

WSL搭建深度强化学习环境

WSL搭建深度强化学习环境 https://zhuanlan.zhihu.com/p/683058297 假定你已经安装好wsl 安装miniconda https://docs.anaconda.com/miniconda/install/ curl -O https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh bash ~/Miniconda3-latest-Linux-x86_6…

【Word文档】结构分析+安全

结构分析 自2000年代中期以来,办公文档(如2005年发布的 OpenOffice.org 2.0)已经被设计为一种包含文档内容的归档文件。在下图中,可以看到一个 Word 文档的结构。从上图可以发现,这个归档文件中的所有结构是相互关联的,而这种关系是从末端开始的。 在归档文件的末尾,有一…

【Word文档】结构分析

自2000年代中期以来,办公文档(如2005年发布的 OpenOffice.org 2.0)已经被设计为一种包含文档内容的归档文件。在下图中,可以看到一个 Word 文档的结构。从上图可以发现,这个归档文件中的所有结构是相互关联的,而这种关系是从末端开始的。 在归档文件的末尾,有一个名为中…

财务知识-开票加税点的合理点数

财务知识-开票加税点的合理点数

【大数据】大数据 Hadoop 管理工具 Apache Ambari(HDP)

一、概述 Apache Ambari 是 Hortonworks 贡献给Apache开源社区的顶级项目,它是一个基于web的工具,用于安装、配置、管理和监视 Hadoop 集群。 Ambari 目前已支持大多数 Hadoop 组件,包括 HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop 和 Hcatalog 等。 Apache Amba…

读数据保护:工作负载的可恢复性13一致性模型

一致性模型1. 一致性模型 1.1. 数据库与其他东西相比,还有一个很重要的区别就在于,它们需要通过某种机制来确保数据一致,对于运行在多个节点上的数据库来说,这尤其重要1.1.1. 一致性模型(consistency model)1.2. 立即一致性1.2.1. 立即一致性(immediate consistency)也叫强…

【Hadoop框架】 生态组件之分布式文件系统 HDFS 常用命令

一、HDFS集群的启动停止1.1 单服务启动停止方式1.1.1 单服务启动1.1.2 单服务停止1.2 多服务启动停止方式1.2.1 多服务启动1.2.2 多服务停止二、获取HDFS集群信息三、HDFS常用命令3.1 查看HDFS帮助命令3.1.1 查看hdfs命令使用提示3.1.2 查看特定指定的使用方法3.2 在HDFS上创建…

渗透测试-前端验签绕过之SHA256

本文是高级前端加解密与验签实战的第1篇文章,本系列文章实验靶场为Yakit里自带的Vulinbox靶场,本文讲述的是绕过SHA256签名来爆破登录。 绕过通过查看源代码可以看到key为 1234123412341234通过查看源代码可以看到是通过SHA256来进行签名的,他把请求体的username和password字…