transformer与神经网络的联系

news/2025/3/28 8:56:17/文章来源:https://www.cnblogs.com/yubo-guan/p/18791166

目录
  • 1. 本质联系:都是“数学函数拟合器”
  • 2. Transformer vs 传统神经网络
    • (1) 传统神经网络的局限
    • (2) Transformer的突破
  • 3. Transformer如何借鉴并改进神经网络?
  • 4. 直观例子:翻译任务
  • 5. 结构对比图
    • 传统RNN(如LSTM)
    • Transformer
  • 6. 为什么Transformer更强大?
  • 7. 总结:进化关系


Transformer 和传统神经网络(如RNN、CNN)的核心目标是一致的——通过数学模型学习数据中的规律,但Transformer通过独特的结构解决了传统神经网络的许多痛点。以下是它们的联系和区别的通俗解析:


1. 本质联系:都是“数学函数拟合器”

  • 共同目标:将输入数据(如文本、图像)映射到输出(如翻译结果、分类标签)。
  • 核心方法:通过层层非线性变换(权重计算 + 激活函数)逐步提取高级特征。
  • 训练方式:都用梯度下降优化参数,最小化预测误差。

2. Transformer vs 传统神经网络

(1) 传统神经网络的局限

  • RNN(循环神经网络)

    • 问题:必须逐字处理序列,速度慢且难以记住长距离依赖(比如段落开头的关键词影响结尾)。
    • 例子:翻译长句子时,RNN可能忘记开头的主语。
  • CNN(卷积神经网络)

    • 问题:擅长捕捉局部特征(如图像边缘),但难以建模全局关系(如文本中远距离的词关联)。

(2) Transformer的突破

  • 自注意力机制(Self-Attention)

    • 直接计算序列中所有元素两两之间的关系,无论距离多远。
    • 例子:翻译句子时,动词可以直接关联到句首的主语,无视中间隔了多少词。
    • 效果:解决了RNN的“记忆短”和CNN的“局部视野”问题。
  • 并行计算

    • 传统RNN必须串行计算,Transformer像CNN一样并行处理所有输入,极大加速训练。

3. Transformer如何借鉴并改进神经网络?

组件 传统神经网络 Transformer的改进
信息传递 RNN靠隐藏状态逐步传递信息(易丢失) 自注意力直接关联任意位置(全局建模)
特征提取 CNN用卷积核扫描局部特征 多头注意力多角度捕捉局部和全局特征
位置处理 RNN依赖顺序输入,CNN隐含位置信息 显式添加位置编码(保留顺序信息)
层次结构 深层网络梯度消失/爆炸 残差连接(Residual)+ 层归一化稳定训练

4. 直观例子:翻译任务

  • RNN的做法
    "The cat sat on the mat" → 逐词输入,隐藏状态传递 → 输出翻译

    • 问题:读到“mat”时可能已忘记“cat”是主语。
  • Transformer的做法

    1. 同时看所有词,计算“sat”与“cat”、“mat”的关联权重。
    2. 直接建立“cat→sat→mat”的语义链,无视距离。
    3. 输出更准确的翻译。

5. 结构对比图

传统RNN(如LSTM)

graph LR A["词1"] --> B["LSTM"] B --> C["隐藏状态1"] A --> D["词2"] --> E["LSTM"] --> F["隐藏状态2"] C --> E
  • 信息单向流动,依赖隐藏状态传递。

Transformer

graph TD A["词1"] --> B[自注意力] A --> C["词2"] --> B A --> D["词3"] --> B B --> E[全连接层]
  • 所有词直接交互,通过注意力权重动态聚焦关键信息。

6. 为什么Transformer更强大?

  • 长处
    • 处理长文本(如GPT-4支持128K上下文)。
    • 并行计算(训练速度比RNN快数倍)。
    • 可扩展性(模型参数可达万亿级)。
  • 代价
    • 计算资源需求高(需要GPU集群)。
    • 数据饥渴(依赖海量训练数据)。

7. 总结:进化关系

  • 神经网络是基础框架(如人的神经系统)。
  • RNN/CNN是早期专用模型(各有所长,但缺陷明显)。
  • Transformer是新一代通用架构(结合全局理解+并行计算,成为当前AI基石)。

就像从“自行车(RNN)”→“汽车(CNN)”→“高铁(Transformer)”的升级,速度、容量和效率全面提升! 🚄

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/905412.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

20244221李留斌《python程序设计》实验一报高

20244104 2024-2025-2 《Python程序设计》实验x报告 课程:《Python程序设计》 班级:2442 姓名:李留斌 学号:20244221 实验教师:王志强 实验日期:2025年3月23日 必修/选修: 公选课 一、实验内容 1.熟悉Python开发环境; 2.练习Python运行、调试技能; 3.编写程序,练习…

Pydantic异步校验器深:构建高并发验证系统

title: Pydantic异步校验器深:构建高并发验证系统 date: 2025/3/25 updated: 2025/3/25 author: cmdragon excerpt: Pydantic异步校验器基于async/await实现非阻塞验证,支持DNS查询等网络操作。高并发场景下运用批量API验证与异步数据库查询,通过asyncio.gather提升吞吐效…

《电子营业执照》的下载及使用

【电子营业执照的下载及使用】可以直接点此进行学习,也可以看下面我自己写的 一、电子营业执照的下载 (1)打开法人的手机微信,在微信中搜索“电子营业执照小程序”(2)点击“下载执照”(3)输入身份信息(4)人脸识别(5)选择登记地“甘肃”(6)下载执照二、电子营业执…

3月24日练习

第五题:最优配餐 考点:多源bfs 当权重(每条边开销为1)的最短路问题可以用bfs 做法:将每个分店先入队,然后依次对每个分店向前后左右走,只要能到达客户那里那么当前饭店就是距离客户最近的饭店,满足了这个客户以后要对这个用户标注不重复遍历。 算法思想:#include<b…

lc 315. 计算右侧小于当前元素的个数

```C typedef struct Node {int num; // 值int index; // 原数组索引int size; // 逆序对数量 } Node;class Solution { public:void mergeSort(vector<Node> &arr, int left, int right) {if (left >= right) return;int mid = (left + right) >> 1;…

windows 修改chrome默认安装目录

现在最新版的 Chrom 在安装时仍然不允许用户选择安装路径, 32 位版本会安装到 C:\Program Files (x86)\Google\Chrome 目录,64 位版本会安装到 C:\Program Files\Google\Chrome 目录,而其用户数据目录仍然被设置在当前用户目录下 C:\Users\%USERPROFILE%\AppData\Local\Goog…

Android 8.0系统的通知栏适配

为什么要进行通知栏适配? 现在经常是早上一觉醒来拿起手机一看,通知栏上全是各种APP的推送,烦。随着智能手机发展的成熟,通知栏搞得越来越不讨人喜欢了。各个App都希望抢占通知栏的空间,来尽可能地销售自己的产品。 通知栏是Android系统原创的,虽说乔布斯一直认为Android…

日事清25年战略目标如何高效执行?企业组织架构优化与项目管理全流程解析

如何使用日事清搭建一份可实现的25年战略目标-执行体系?在这个快节奏的商业世界里,每个企业都需要弄清楚几个超重要的问题: 首先,你的企业使命和抱负够不够清晰 ——能不能让每一个员工充满归属感和使命感? 然后,你们团队有没有一个明确的目标体系?还是只是在“摸着石头…

Obsidian 笔记一键转换发布为 Jekyll 博客

Obsidian 是一款功能强大且灵活的知识管理和笔记软件,与 Jekyll 这一轻量级静态博客框架的结合,既能保留 Obsidian 的网状知识关联优势,又能借助 Jekyll 的高效编译能力快速生成标准化博文。 Obsidian 笔记自动转换为 Jekyll 博客一文介绍了如何把挑选出的 Obsidian 笔记转换…

变更《营业执照》操作流程

第一步:打开甘肃政务服务网 https://zwfw.gansu.gov.cn/ 第二步:登录 (1)右上角(2)点“法人登录”(3)点“电子营业执照登录”第三步:使用【电子营业执照】的【扫一扫】进行登录 (1)打开法人的手机微信,在微信中搜索“电子营业执照小程序”(2)点击“扫一扫”(3)…

DVWA靶场安装教程

1 靶场下载github 下载 https://github.com/digininja/DVWAgithub网站在国外,有时不能访问,可以下载我分享的这个:百度网盘分享 https://pan.baidu.com/s/1vIsf_VFiY9Ah3DG3Ichsyg?pwd=zyvf 2 靶场部署 2.1 解压缩靶场 解压缩后,只保留DVWA-master文件夹,里面是靶场代码…

leaflet框选范围下载地图离线瓦片:以高德地图为例(附源码下载)

demo源码运行环境以及配置运行环境:依赖Node安装环境,demo本地Node版本:14.19.1。 运行工具:vscode或者其他工具。 配置方式:下载demo源码,vscode打开,然后顺序执行以下命令: (1)下载demo环境依赖包命令:npm i (2)启动Node后端接口命令:node nodeServer.js (3)打…