翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习二

合集 ChatGPT 通过图形化的方式来理解 Transformer 架构

  1. 翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习一
  2. 翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习二
  3. 翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习三
  4. 翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习四
  5. 翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习五
  6. 翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习六
    在这里插入图片描述

在本章中,我们将深入探讨
在这里插入图片描述

网络的开始和
在这里插入图片描述

结束阶段发生的情况,
在这里插入图片描述

我将花大量时间回顾一些重要的背景知识,这些知识是熟悉Transformer的机器学习工程师的基础知识。
在这里插入图片描述

如果你已经熟悉背景知识,迫不及待地想了解更多,你可以跳到下一节,重点将放在Transformer的核心部分——注意力模块上。
在这里插入图片描述

之后,我将更详细地介绍多层感知器模块、训练过程以及之前省略的一些其他细节。

对于背景信息,这些视频是对我们深度学习课程系列的补充,你不一定要按顺序观看,
在这里插入图片描述

但在深入研究Transformer之前,我认为确保我们对深度学习的基本概念和架构有共同的理解很重要。
在这里插入图片描述

这里要明确的是,
在这里插入图片描述

机器学习是一种使用数据来指导模型行为模式的方法。
在这里插入图片描述

具体来说,你可能需要一个函数,它接受一个图像,输出一个词描述,
在这里插入图片描述

或者为给定的文本预测下一个词,
在这里插入图片描述

或者其他需要直觉和模式识别的任务,
在这里插入图片描述

虽然我们现在已经习惯了,但机器学习的核心思想是,我们不再试图编写固定的程序来完成这些任务,这是人们在人工智能最早期会做的事情。
在这里插入图片描述

相反,构建一个具有可调参数的灵活结构,就像一系列旋钮和调节器,
在这里插入图片描述

然后通过学习大量实例输入和期望输出来调整和微调参数值,从而模拟这种直觉行为。
在这里插入图片描述

例如,可能最直观的入门机器学习模型是线性回归,你将输入和输出视为单个数字,如房屋面积和价格,你要做的就是找到最适合这些数字的直线。这用于预测未来的房价。
在这里插入图片描述

这条线由两个连续的参数组成,即斜率和y截距。

线性回归的目标是确定这些参数以尽可能接近地匹配数据。

不用说,深度学习模型会更加复杂。
在这里插入图片描述

例如,GPT-3有1750亿个参数,而不仅仅是两个。
在这里插入图片描述

然而,重要的是要注意,你不能简单地构建一个具有许多参数的大型模型就能有效工作,这样做可能会导致模型严重过拟合训练数据,或者极难训练。
在这里插入图片描述

深度学习包括一系列在过去几十年中已被证明在扩展能力方面表现出色的模型类别。
在这里插入图片描述

它们成功的关键在于,它们都使用相同的训练算法:反向传播,我们在前面的章节中已经介绍过。
在这里插入图片描述

你需要理解的是,为了让这个训练算法在大规模应用中很好地工作,模型必须遵循特定的结构。

如果你了解这个结构的一些知识,你将更好地理解Transformer如何处理语言以及其背后的逻辑,否则某些设计选择可能看起来有点随意。
在这里插入图片描述

首先,无论你要构建什么样的模型,输入必须是一个实数数组。
在这里插入图片描述

这可能只是一个数字列表,或者是一个二维数组,或者更常见的是一个更高维的数组,这个通用术语叫做张量(tensor)。
在这里插入图片描述

这些输入通常通过多个不同的层逐步转换,每一层形成一个实数数组,直到最后一层,你可以将其视为输出层。
在这里插入图片描述

例如,我们文本处理模型的最终输出层是一个数字列表,表示所有可能的下一个词的概率分布。
在这里插入图片描述

在深度学习领域,这些模型的参数通常被称为权重(weight)。
在这里插入图片描述

这样称呼的原因是,这些模型的核心特征之一是,这些参数与正在处理的数据交互的唯一方式是通过加权求和。

虽然模型中穿插了一些非线性函数,但它们并不依赖于这些参数。
在这里插入图片描述

总的来说,我们不会直接以裸露的形式看到这些权重,而是看到它们被封装为矩阵向量乘积的不同部分。

在这里插入图片描述
如果你回想一下矩阵向量乘法的工作原理,输出的每个部分都像是权重的总和。
在这里插入图片描述

一种更直观的方式是将这些可调参数填充的矩阵,
在这里插入图片描述

视为对正在处理的数据进行向量变换的工具。

参考

https://youtu.be/wjZofJX0v4M?si=DujTHghH5dYM3KpZ

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/661780.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

PHP定时任务框架taskPHP3.0学习记录7宝塔面板手动可以执行自动无法执行问题排查及解决方案(sh脚本、删除超过特定天数的日志文件、kill -9)

PHP定时任务框架taskPHP3.0学习记录 PHP定时任务框架taskPHP3.0学习记录1(TaskPHP、执行任务类的实操代码实例)PHP定时任务框架taskPHP3.0学习记录2(环境要求、配置Redis、crontab执行时间语法、命令操作以及Screen全屏窗口管理器&#xff0…

算法:双指针题目练习

目录 题目一:移动零 题目二:复写零 题目三:快乐数 题目四:盛最多水的容器 题目五:有效三角形的个数 题目六:和为s的两个数字(剑指offer) 题目七:三数之和 题目八:四数之和 常…

线上线下收银一体化,新零售POS系统引领连锁门店数字化转型-亿发

在市场竞争日益激烈的背景下,没有哪个商家能够永远屹立不倒。随着互联网技术的快速发展,传统的线下门店面临着来自电商和新零售的新型挑战。实体零售和传统电商都需要进行变革,都需要实现线上线下的融合。 传统零售在客户消费之后就与商家失…

【Web】2024XYCTF题解(全)

目录 ezhttp ezmd5 warm up ezMake ez?Make εZ?мKε? 我是一个复读机 牢牢记住,逝者为大 ezRCE ezPOP ezSerialize ezClass pharme 连连看到底是连连什么看 ezLFI login give me flag baby_unserialize ezhttp 访问./robots.txt 继…

Redis---------实现短信登录业务

目录 基于Session的短信登录 ①首先看他的业务逻辑 ②进行代码逻辑处理 基于Redis的短信登录 ①首先看他的业务逻辑 ②进行代码逻辑处理 Controller: Service接口: Service实例: Mapper: 封装ThreadLocal线程的数据操作&#x…

LeetCode 102.对称二叉树

题目描述 给你一个二叉树的根节点 root , 检查它是否轴对称。 示例 1: 输入:root [1,2,2,3,4,4,3] 输出:true示例 2: 输入:root [1,2,2,null,3,null,3] 输出:false提示: 树中节点数…

手把手实现一个简约酷美美的版权声明模块

1. 导语 版权声明在很多网站都有用到,出场率还是很高的。所以今天就实现一个属于自己分风格的版权声明模块,技术上采用原生的前端三剑客: HTMLCSSJavaScript(可能会用到) 比如CSDN的版权声明是这样的 2. 需求分析 先看看成品吧,这篇文字结…

帕鲁杯2024 RE wp

1. Auth_System 改标志位ZF 2. 茶 壳脱不脱也没啥影响 查一下字符串,有个hint 那就猜测chacha20(根本没想到) ChaCha20 - Crypto Wikihttps://www.cryptopp.com/wiki/ChaCha20 法一:脚本解密 加密需要两个参数,ke…

最新即时聊天源码,支持视频语音聊天

最新即时聊天源码,支持视频语音聊天 网站手机电脑H5可打包APP、视频语音聊天、注册、添加好友、群聊创建、群管理、文件在线预览、群公告、后台管理 功能说明: 支持单聊和群聊,支持发送表情、图片、语音、视频和文件消息 单聊支持消息已读未…

java8 Stream流常用方法(持续更新中...)

java8 Stream流常用方法 1.过滤数据中年龄大于等于十八的学生2.获取对象中其中的一个字段并添加到集合(以学生姓名(name)为例)3.获取对象中其中的一个字段并转为其他数据类型最后添加到集合(以学生性别(sex)为例,将Str…

国产操作系统上如何比较软件版本 _ 统信UOS _ 麒麟KOS _ 中科方德

原文链接:国产操作系统上如何比较软件版本 | 统信UOS | 麒麟KOS | 中科方德 Hello,大家好啊!在国产操作系统上管理软件版本是确保系统安全性和功能稳定性的关键一环。今天,我将向大家展示如何通过编写脚本在国产操作系统上检查软件…

【前端】-【防止接口重复请求】

文章目录 需求实现方案方案一方案二方案三 需求 对整个的项目都做一下接口防止重复请求的处理 实现方案 方案一 思路:通过使用axios拦截器,在请求拦截器中开启全屏Loading,然后在响应拦截器中将Loading关闭。 代码: 问题&…