[PaperReading] Scaling Vision Transformers to 22 Billion Parameters-编程知识

[PaperReading] Scaling Vision Transformers to 22 Billion Parameters

名称
TL;DR
Method
Code && Implementation
Experiment
- 实现细节
- Linear Eval on ImageNet
- Zero-shot Eval on ImageNet
- Dense Prediction
Related works中值得深挖的工作

Scaling Vision Transformers to 22 Billion Parameters
论文链接
时间：2023.02
作者与单位：Google Research
相关领域：计算机视觉、大规模视觉模型
作者相关工作：PaLM2, Genmini, ViT
被引次数：604

本文展示了将Vision Transformer扩展到220亿参数的研究。这是目前最大的视觉模型，展示了视觉模型也可以像语言模型一样进行大规模扩展，ViT 22B取得了89.5%的ImageNet分类准确率, zero-shot的精度85.9%，蒸馏了ViT-B/16达到88.6%的精度。

解决将模型参数量放大8B之后，训练Loss出现发散的问题，参考其它工作，在QK之后加上LayerNorm。

模型架构参数

训练数据：

3epoch, 1024 TPUs

89.5%

85.9%

仅1200图即可SOTA

暂无

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/897424.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！