Transformer的代码实现 day04（FFN）-编程知识

Transformer的代码实现 day04（FFN）

news/2025/3/15 11:31:09/文章来源:https://blog.csdn.net/u011453680/article/details/137344657

前馈神经网络（FFN）

几个线性层、激活函数、归一化层的叠加
- 注意：归一化是在保持数据分布的前提下，将数据缩放到特定范围，方便运算。
- 注意：标准化是让不同特征的数据保持相似的尺度，但是会改变数据的分布。

前馈神经网络的代码

class PositionWiseFeedForward(nn.Module):"""w2(relu(w1(layer_norm(x))+b1))+b2"""def __init__(self, d_model, d_ff, dropout=0.1):super(PositionWiseFeedForward, self).__init__()# nn.Linear是一个全连接层，它接受一个输入特征维度和一个输出特征维度作为参数。self.w_1 = nn.Linear(d_model, d_ff)self.w_2 = nn.Linear(d_ff, d_model)self.layer_norm = nn.LayerNorm(d_model, eps=1e-6)self.dropout_1 = nn.Dropout(dropout)self.relu = nn.ReLU()self.dropout_2 = nn.Dropout(dropout)def forward(self, x):inter = self.dropout_1(self.relu(self.w_1(self.layer_norm(x))))output = self.dropout_2(self.w_2(inter))return output

参考文献

05 Transformer 中的前馈神经网络（FFN）的实现

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/589656.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

【CANN训练营笔记】Atlas 200I DK A2体验手写数字识别模型训练推理

【CANN训练营笔记】Atlas 200I DK A2体验手写数字识别模型训练推理

环境介绍开发板：Huawei Atals 200I DK A2 内存：4G NPU：Ascend 310B4 CANN：7.0 准备环境下载编译好的torch_npu wget https://obs-9be7.obs.cn-east-2.myhuaweicloud.com/wanzutao/torch_npu-2.1.0rc1-cp39-cp39-linux_aarch…

阅读更多...

python基础——模块【模块的介绍，模块的导入，自定义模块，*和__all__，__name__和__main__】

python基础——模块【模块的介绍，模块的导入，自定义模块，*和all，name和main】

📝前言： 这篇文章主要讲解一下python基础中的关于模块的导入： 1，模块的介绍 2，模块的导入方式 3，自定义模块 🎬个人简介：努力学习ing 📋个人专栏：C语言入门基…

阅读更多...

Transformer的代码实现 day03（Positional Encoding）

Transformer的代码实现 day03（Positional Encoding）

Positional Encoding的理论部分注意力机制是不含有位置信息，这也就表明：“我爱你”，“你爱我”这两者没有区别，而在现实世界中，这两者有区别。所以位置编码是在进行注意力计算之前，给输入加上一个位置信息…

阅读更多...

Leetcode 234. 回文链表

Leetcode 234. 回文链表

给你一个单链表的头节点 head ，请你判断该链表是否为回文链表。如果是，返回 true ；否则，返回 false 。示例 1： 输入：head [1,2,2,1] 输出：true 示例 2： 输入：he…

阅读更多...

Maven依赖管理项目构建工具

Maven依赖管理项目构建工具

一、Maven简介 1、为什么学习Maven 1.1、Maven是一个依赖管理工具 ①jar 包的规模随着我们使用越来越多的框架，或者框架封装程度越来越高，项目中使用的jar包也越来越多。项目中，一个模块里面用到上百个jar包是非常正常的。比如下面的例…

阅读更多...

jvm总结学习

jvm总结学习

四种加载器 1.启动类加载器 2.拓展类加载器 3.应用程序加载器 4.自定义加载器沙箱机制就是为了保证安全，增加的一些权限。 native方法区（静态变量，常量，类信息（构造方法，接口定义）&…

阅读更多...

基于深度学习的钢材表面缺陷检测系统（网页版+YOLOv8/v7/v6/v5代码+训练数据集）

基于深度学习的钢材表面缺陷检测系统（网页版+YOLOv8/v7/v6/v5代码+训练数据集）

摘要：本文深入研究了基于YOLOv8/v7/v6/v5的钢材表面缺陷检测系统，核心采用YOLOv8并整合了YOLOv7、YOLOv6、YOLOv5算法，进行性能指标对比；详述了国内外研究现状、数据集处理、算法原理、模型构建与训练代码，及基于Strea…

阅读更多...

算法基础--递推

算法基础--递推

😀前言递推算法在计算机科学中扮演着重要的角色。通过递推，我们可以根据已知的初始条件，通过一定的规则推导出后续的结果，从而解决各种实际问题。本文将介绍递推算法的基础知识，并通过一些入门例题来帮助读者更好地理…

阅读更多...

代码随想录第29天|491.递增子序列 46.全排列 47.全排列 II

代码随想录第29天|491.递增子序列 46.全排列 47.全排列 II

目录： 491.递增子序列 46.全排列 47.全排列 II 491.递增子序列 491. 非递减子序列 - 力扣（LeetCode） 代码随想录 (programmercarl.com) 回溯算法精讲，树层去重与树枝去重 | LeetCode：491.递增子序列_哔哩哔哩_bili…

阅读更多...

PS从入门到精通视频各类教程整理全集，包含素材、作业等（7）复发

PS从入门到精通视频各类教程整理全集，包含素材、作业等（7）复发

PS从入门到精通视频各类教程整理全集，包含素材、作业等最新PS以及插件合集，可在我以往文章中找到由于阿里云盘有分享次受限制和文件大小限制，今天先分享到这里，后续持续更新 PS敬伟01——90集等文件 https://www.alipan.com/s…

阅读更多...

盲盒一番赏小程序搭建：打造神秘与惊喜的赏玩新体验

盲盒一番赏小程序搭建：打造神秘与惊喜的赏玩新体验

随着移动互联网的快速发展，小程序因其便捷、轻量级的特点，逐渐成为了连接商家与消费者的新桥梁。盲盒一番赏小程序的搭建，旨在为用户带来一种全新的赏玩体验，满足他们对神秘与惊喜的追求。盲盒一番赏小程序将传统的盲盒概念与一…

阅读更多...

【智能算法】猎豹优化器（CO）原理及实现

【智能算法】猎豹优化器（CO）原理及实现

目录 1.背景2.算法原理2.1算法思想2.2算法过程 3.结果展示4.参考文献 1.背景 2022年，MA Akbari等人受到自然界中猎豹捕猎行为启发，提出了猎豹优化器（The Cheetah Optimizer，CO）。 2.算法原理 2.1算法思想 CO法对猎…

阅读更多...

推荐文章

最新文章