Transformer的发展历程

news/2025/3/26 18:10:29/文章来源:https://www.cnblogs.com/yubo-guan/p/18790305

目录
  • 1. 2017年:Transformer 的诞生(革命开始)
  • 2. 2018年:BERT 和 GPT 登场(NLP 大爆发)
    • (1) BERT(Google 出品)
    • (2) GPT(OpenAI 出品)
  • 3. 2020年:GPT-3 和更大规模的模型
  • 4. 2021-2023年:ChatGPT 和 AI 普及化
  • 5. 未来方向
    • 总结:Transformer 的发展时间线


好的!我来用通俗易懂的方式介绍 Transformer 的发展历程,从它的诞生到现在的应用,尽量避开复杂术语~


1. 2017年:Transformer 的诞生(革命开始)

  • 论文:Google 团队发表《Attention Is All You Need》。
  • 核心贡献:提出 自注意力机制(Self-Attention),完全抛弃了传统的 RNN 和 CNN,用纯注意力机制处理序列数据。
  • 为什么重要?
    • 比 RNN(如 LSTM)训练更快(可以并行计算)。
    • 能捕捉长距离依赖(比如一句话开头和结尾的关系)。
  • 主要应用:机器翻译(比如 Google 翻译)。

💡 类比:以前翻译是“一个词一个词慢慢看”,Transformer 是“一眼扫过整句,直接找重点”。


2. 2018年:BERT 和 GPT 登场(NLP 大爆发)

Transformer 火了之后,研究者发现它可以做得更强,于是出现了两大分支:

(1) BERT(Google 出品)

  • 特点双向理解(同时看左右上下文)。
  • 训练方式
    • 遮住句子中的一些词,让模型猜(类似“完形填空”)。
    • 学习单词在不同上下文中的含义(比如“苹果”可以是水果或手机品牌)。
  • 应用:搜索引擎、文本分类等。

(2) GPT(OpenAI 出品)

  • 特点单向生成(从左到右预测下一个词)。
  • 训练方式
    • 给一段文字,让模型续写(类似“猜下一个词”)。
  • 应用:文本生成、聊天机器人(比如 ChatGPT 的前身)。

💡 对比

  • BERT 像“阅读理解高手”(擅长分析现有文本)。
  • GPT 像“作家”(擅长自己写文章)。

3. 2020年:GPT-3 和更大规模的模型

  • GPT-3(OpenAI):

    • 参数量高达 1750亿(是 GPT-2 的 100 倍!)。
    • 能力爆炸:能写代码、写诗、回答问题,甚至模仿人类写作风格。
    • 问题:需要巨大算力,普通人用不起。
  • 其他模型

    • T5(Google):把所有 NLP 任务都变成“文本生成”任务。
    • ViT(Vision Transformer):把 Transformer 用在图像识别上(证明它不只适合文本)。

💡 关键进步
模型越大,能力越强,但训练成本也越高。


4. 2021-2023年:ChatGPT 和 AI 普及化

  • ChatGPT(2022年底)
    • 基于 GPT-3.5,通过人类反馈强化学习(RLHF)优化对话能力。
    • 普通人也能用,引发 AI 热潮。
  • GPT-4(2023年)
    • 更强、更稳定,支持多模态(文本+图像)。
  • 开源模型爆发
    • LLaMA(Meta)、BLOOM(BigScience)等,让更多人能训练自己的模型。

💡 现状

  • Transformer 已成为 AI 的核心架构,不仅用于文本,还用于图像(如 Stable Diffusion)、语音、视频等。
  • 趋势是更大模型+更高效训练

5. 未来方向

  1. 更高效的模型:减少计算成本(比如 Mixture of Experts)。
  2. 多模态融合:同时处理文字、图片、声音。
  3. 通用人工智能(AGI):像人类一样多任务学习。

总结:Transformer 的发展时间线

时间 里程碑 贡献
2017 原始 Transformer 提出自注意力机制
2018 BERT / GPT-1 NLP 大突破
2020 GPT-3 / ViT 超大模型 + 多模态
2022 ChatGPT 对话 AI 普及
2023 GPT-4 / LLaMA 更强 + 开源

Transformer 就像 AI 界的“内燃机”,彻底改变了技术发展方向。未来还会有更多惊喜! 🚀

如果有哪里不清楚,欢迎继续提问! 😊

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/905012.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MQ 消息幂等性保证

MQ 消息幂等性保证 1. 什么是幂等性 在程序开发中,是指同一个业务,执行一次或多次对业务状态的影响是一致的。例如:根据 id 删除数据 查询数据在实际业务中,避免不了出现用户连续点击退款、重复点击删除等情况,这种情况下,就需要对多个消息进行处理,避免短时间内多次执行…

3.24 曲线/曲面积分

1 第一类曲线积分 (理解成求曲线的质量) 要把ds(弧微分)转化成dt(参数方程里面的自变量)(积分里面只留下的变量),也可以转化成dx什么的,注意ds转化成dx的公式 2 第一类曲面积分 还是先求投影,比如投影到xoy平面上,就求z=z(x,y) 2.1 普通对称性奇函数为0,偶函数*2 2.…

SmolVLM2: 让视频理解能力触手可及

一句话总结: SmolVLM 现已具备更强的视觉理解能力📺 SmolVLM2 标志着视频理解技术的根本性转变——从依赖海量计算资源的巨型模型,转向可在任何设备运行的轻量级模型。我们的目标很简单: 让视频理解技术从手机到服务器都能轻松部署。 我们同步发布三种规模的模型 (22 亿/5 亿…

React-Native开发鸿蒙NEXT-video

React-Native开发鸿蒙NEXT-video 前几周的开发,基本把一个”只读型“社区开发的差不多了。帖子列表,详情,搜索都迁移实现了,但还差了一点------视频类型帖子的展示。之前开发RN社区中,对于视频的处理用的是react-native-video,这个三方组件也已经实现了鸿蒙化,部分逻辑可…

React-Native开发鸿蒙NEXT-cookie设置

React-Native开发鸿蒙NEXT-cookie设置 应用有个积分商城,做一些积分兑换的业务,就一个基于react-native-webview开发的页面,在页面加载的时候通过js注入来设置cookie带入用户信息。 早先应甲方要求web网站关闭了,现在又要继续运行。于是就把web服务启动了,然后发现应用里积…

第六天

单词 以下是今天需学习的35个单词复习,同时前几天的单词阅读 理解文章大意,记录不认识的单词。今天这个阅读非常应当下的情景。 How to Teach Yourself Anything in Less than Three Months 如何在3个月内学习任何一件事(一) Self-education can be wonderful and frustrat…

React Native开发鸿蒙Next---富文本浏览

React Native开发鸿蒙Next---富文本浏览 最近在继续开发App剩余的社区功能。地铁的社区相对较为特殊,只有公告/政策规章/操作指南等资讯阅读功能,无法进行交互。对于原先的社区RN,除了移植适配鸿蒙,还需要做大量的功能屏蔽等改造。新的社区后台大量采用富文本进行内容编辑,…

17.指针

正如您所知道的,每一个变量都有一个内存位置,每一个内存位置都定义了可使用 & 运算符访问的地址,它表示了在内存中的一个地址。 请看下面的实例,它将输出定义的变量地址:#include <stdio.h>int main(){int var_runoob = 10;int *p; //定义指针变量p = &var…

3.24 学习记录

实现了学习记录APP的登录注册功能

2025西安交大集训Day2:DFS,BFS记忆化搜索,迭代加深搜索,二分搜索

2025西安交大集训Day2:DFS,BFS记忆化搜索,迭代加深搜索,二分搜索

掌握 Postman:高级 GET 请求技术与响应分析

欢迎阅读本指南,它将详细介绍如何在 Postman 中发送 GET 请求并理解 API 响应。对于希望提升 API 测试和开发能力的开发者来说,这是不可或缺的技能。 Postman 对开发者的重要性Postman 是 API 开发和测试中不可或缺的工具。它不仅简化了发送请求和分析响应的过程,还提供了一…

带你一起来熟悉linux文件权限体系

了解 Linux 文件权限对于有效且可靠的linux相关系统管理和安全管理至关重要。通过本文中概述的概念并加以实践,您将可以轻松浏览文件权限并确保 Linux 系统的完整,可靠和安全。下面将从权限的格式,常用设置,修改,解析等方面分别说明。 A).Linux 文件权限由三个权限部分组成…