transformer与神经网络的联系-编程知识

transformer与神经网络的联系

news/2025/3/28 8:56:17/文章来源:https://www.cnblogs.com/yubo-guan/p/18791166

1. 本质联系：都是“数学函数拟合器”
2. Transformer vs 传统神经网络
- (1) 传统神经网络的局限
- (2) Transformer的突破
3. Transformer如何借鉴并改进神经网络？
4. 直观例子：翻译任务
5. 结构对比图
- 传统RNN（如LSTM）
- Transformer
6. 为什么Transformer更强大？
7. 总结：进化关系

Transformer 和传统神经网络（如RNN、CNN）的核心目标是一致的——通过数学模型学习数据中的规律，但Transformer通过独特的结构解决了传统神经网络的许多痛点。以下是它们的联系和区别的通俗解析：

1. 本质联系：都是“数学函数拟合器”

共同目标：将输入数据（如文本、图像）映射到输出（如翻译结果、分类标签）。
核心方法：通过层层非线性变换（权重计算 + 激活函数）逐步提取高级特征。
训练方式：都用梯度下降优化参数，最小化预测误差。

2. Transformer vs 传统神经网络

(1) 传统神经网络的局限

RNN（循环神经网络）
- 问题：必须逐字处理序列，速度慢且难以记住长距离依赖（比如段落开头的关键词影响结尾）。
- 例子：翻译长句子时，RNN可能忘记开头的主语。
CNN（卷积神经网络）
- 问题：擅长捕捉局部特征（如图像边缘），但难以建模全局关系（如文本中远距离的词关联）。

(2) Transformer的突破

自注意力机制（Self-Attention）：
- 直接计算序列中所有元素两两之间的关系，无论距离多远。
- 例子：翻译句子时，动词可以直接关联到句首的主语，无视中间隔了多少词。
- 效果：解决了RNN的“记忆短”和CNN的“局部视野”问题。
并行计算：
- 传统RNN必须串行计算，Transformer像CNN一样并行处理所有输入，极大加速训练。

3. Transformer如何借鉴并改进神经网络？

组件	传统神经网络	Transformer的改进
信息传递	RNN靠隐藏状态逐步传递信息（易丢失）	自注意力直接关联任意位置（全局建模）
特征提取	CNN用卷积核扫描局部特征	多头注意力多角度捕捉局部和全局特征
位置处理	RNN依赖顺序输入，CNN隐含位置信息	显式添加位置编码（保留顺序信息）
层次结构	深层网络梯度消失/爆炸	残差连接（Residual）+ 层归一化稳定训练

4. 直观例子：翻译任务

RNN的做法：
"The cat sat on the mat" → 逐词输入，隐藏状态传递 → 输出翻译
- 问题：读到“mat”时可能已忘记“cat”是主语。
Transformer的做法：
1. 同时看所有词，计算“sat”与“cat”、“mat”的关联权重。
2. 直接建立“cat→sat→mat”的语义链，无视距离。
3. 输出更准确的翻译。

5. 结构对比图

传统RNN（如LSTM）

graph LR A["词1"] --> B["LSTM"] B --> C["隐藏状态1"] A --> D["词2"] --> E["LSTM"] --> F["隐藏状态2"] C --> E

信息单向流动，依赖隐藏状态传递。

Transformer

graph TD A["词1"] --> B[自注意力] A --> C["词2"] --> B A --> D["词3"] --> B B --> E[全连接层]

所有词直接交互，通过注意力权重动态聚焦关键信息。

6. 为什么Transformer更强大？

长处：
- 处理长文本（如GPT-4支持128K上下文）。
- 并行计算（训练速度比RNN快数倍）。
- 可扩展性（模型参数可达万亿级）。
代价：
- 计算资源需求高（需要GPU集群）。
- 数据饥渴（依赖海量训练数据）。

7. 总结：进化关系

神经网络是基础框架（如人的神经系统）。
RNN/CNN是早期专用模型（各有所长，但缺陷明显）。
Transformer是新一代通用架构（结合全局理解+并行计算，成为当前AI基石）。

就像从“自行车（RNN）”→“汽车（CNN）”→“高铁（Transformer）”的升级，速度、容量和效率全面提升！ 🚄

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/905412.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

20244221李留斌《python程序设计》实验一报高

20244221李留斌《python程序设计》实验一报高

20244104 2024-2025-2 《Python程序设计》实验x报告课程：《Python程序设计》班级：2442 姓名：李留斌学号：20244221 实验教师：王志强实验日期：2025年3月23日必修/选修：公选课一、实验内容 1．熟悉Python开发环境； 2．练习Python运行、调试技能； 3．编写程序，练习…

阅读更多...

Pydantic异步校验器深：构建高并发验证系统

Pydantic异步校验器深：构建高并发验证系统

title: Pydantic异步校验器深：构建高并发验证系统 date: 2025/3/25 updated: 2025/3/25 author: cmdragon excerpt: Pydantic异步校验器基于async/await实现非阻塞验证，支持DNS查询等网络操作。高并发场景下运用批量API验证与异步数据库查询，通过asyncio.gather提升吞吐效…

阅读更多...

《电子营业执照》的下载及使用

《电子营业执照》的下载及使用

【电子营业执照的下载及使用】可以直接点此进行学习，也可以看下面我自己写的一、电子营业执照的下载（1）打开法人的手机微信，在微信中搜索“电子营业执照小程序”（2）点击“下载执照”（3）输入身份信息（4）人脸识别（5）选择登记地“甘肃”（6）下载执照二、电子营业执…

阅读更多...

3月24日练习

3月24日练习

第五题：最优配餐考点：多源bfs 当权重（每条边开销为1）的最短路问题可以用bfs 做法：将每个分店先入队，然后依次对每个分店向前后左右走，只要能到达客户那里那么当前饭店就是距离客户最近的饭店，满足了这个客户以后要对这个用户标注不重复遍历。算法思想：#include<b…

阅读更多...

lc 315. 计算右侧小于当前元素的个数

lc 315. 计算右侧小于当前元素的个数

```C typedef struct Node {int num; // 值int index; // 原数组索引int size; // 逆序对数量 } Node;class Solution { public:void mergeSort(vector<Node> &arr, int left, int right) {if (left >= right) return;int mid = (left + right) >> 1;…

阅读更多...

windows 修改chrome默认安装目录

windows 修改chrome默认安装目录

现在最新版的 Chrom 在安装时仍然不允许用户选择安装路径， 32 位版本会安装到 C:\Program Files (x86)\Google\Chrome 目录，64 位版本会安装到 C:\Program Files\Google\Chrome 目录，而其用户数据目录仍然被设置在当前用户目录下 C:\Users\%USERPROFILE%\AppData\Local\Goog…

阅读更多...

Android 8.0系统的通知栏适配

Android 8.0系统的通知栏适配

为什么要进行通知栏适配？现在经常是早上一觉醒来拿起手机一看，通知栏上全是各种APP的推送，烦。随着智能手机发展的成熟，通知栏搞得越来越不讨人喜欢了。各个App都希望抢占通知栏的空间，来尽可能地销售自己的产品。通知栏是Android系统原创的，虽说乔布斯一直认为Android…

阅读更多...

日事清25年战略目标如何高效执行？企业组织架构优化与项目管理全流程解析

日事清25年战略目标如何高效执行？企业组织架构优化与项目管理全流程解析

如何使用日事清搭建一份可实现的25年战略目标-执行体系？在这个快节奏的商业世界里，每个企业都需要弄清楚几个超重要的问题：首先，你的企业使命和抱负够不够清晰 ——能不能让每一个员工充满归属感和使命感？然后，你们团队有没有一个明确的目标体系？还是只是在“摸着石头…

阅读更多...

Obsidian 笔记一键转换发布为 Jekyll 博客

Obsidian 笔记一键转换发布为 Jekyll 博客

Obsidian 是一款功能强大且灵活的知识管理和笔记软件，与 Jekyll 这一轻量级静态博客框架的结合，既能保留 Obsidian 的网状知识关联优势，又能借助 Jekyll 的高效编译能力快速生成标准化博文。 Obsidian 笔记自动转换为 Jekyll 博客一文介绍了如何把挑选出的 Obsidian 笔记转换…

阅读更多...

变更《营业执照》操作流程

变更《营业执照》操作流程

第一步：打开甘肃政务服务网 https://zwfw.gansu.gov.cn/ 第二步：登录（1）右上角（2）点“法人登录”（3）点“电子营业执照登录”第三步：使用【电子营业执照】的【扫一扫】进行登录（1）打开法人的手机微信，在微信中搜索“电子营业执照小程序”（2）点击“扫一扫”（3）…

阅读更多...

DVWA靶场安装教程

DVWA靶场安装教程

1 靶场下载github 下载 https://github.com/digininja/DVWAgithub网站在国外，有时不能访问，可以下载我分享的这个：百度网盘分享 https://pan.baidu.com/s/1vIsf_VFiY9Ah3DG3Ichsyg?pwd=zyvf 2 靶场部署 2.1 解压缩靶场解压缩后，只保留DVWA-master文件夹，里面是靶场代码…

阅读更多...

leaflet框选范围下载地图离线瓦片:以高德地图为例(附源码下载)

leaflet框选范围下载地图离线瓦片:以高德地图为例(附源码下载)

demo源码运行环境以及配置运行环境：依赖Node安装环境，demo本地Node版本:14.19.1。运行工具：vscode或者其他工具。配置方式：下载demo源码，vscode打开，然后顺序执行以下命令：（1）下载demo环境依赖包命令：npm i （2）启动Node后端接口命令：node nodeServer.js （3）打…

阅读更多...

推荐文章

最新文章