Mamba:4 魔幻矩阵A

若在阅读过程中有些知识点存在盲区,可以回到如何优雅的谈论大模型重新阅读。另外斯坦福2024人工智能报告解读为通识性读物。若对于如果构建生成级别的AI架构则可以关注AI架构设计。技术宅麻烦死磕LLM背后的基础模型。

​Mamba自从出道就一直被拿来和Transformer对比,文章巨多,带着标题的爆炸性字样“颠覆Transfomer”,“全面包围”等等。文章深浅不一,小编认为其背后的设计思路以及演化过程更加重要。为此本专题将从山上有座庙开始,沿着RNN、SSM、S4、HIPPO一路走来。期间抛弃冗杂的文辞,以更接地气的模式协助读者打开新的逻辑思维。

1分钟读完本文

接着Mamab3的话题,带领着读者们梳理一下前情回顾。SSM接受一组连续的信号,然后吐出对应的输出信号。中间的黑盒子基于输入信号和上一时刻的状态进行某种变换而得到新的状态。

这里需要提及S4,它可以认为是SSM的升级版本。其主要贡献不是HiPPO的魔幻矩阵,而是在拥有HiPPO矩阵的前提下,进行高效的计算。HiPPO是在《HiPPO: Recurrent Memory with Optimal Polynomial Projections. NeurIPS 2020》中定义的。

S4究竟依靠着魔法矩阵A来记住序列的所有历史,因此擅长对长序列建模,核心技术就是在线函数逼近。

  • 将输入序列视为时间的连续函数

  • 用一组预定义的简单函数的线性组合来近似模拟出输入函数

  • 只存储(线性组合的)系数作为状态

  • 系数可以通过求解线性常微分方程而(ODE)获得,其中方程参数就是魔幻矩阵A(全场MVP)

  • 值得一提的是当将连续时间转换为离散时间,线性ODE就成为了RNN,函数逼近的系数成为该RNN的隐藏状态

  • 重建信号也是十分简单,使用给定的隐藏状态(系数)来线性组合多项式基,从而重建所有输入的近似值

HiPPO的论文就是一本行走的数学书,鉴于大部分读者的数学基础,本文不展开具体的推导。中间摘取部分内容主要还是围绕着:在选定度量(或者衰减模式)和基函数的前提下,系数是如何求解出来的,以及魔幻矩阵A是从哪来的本章温馨提醒:意会即可,不可深究,否则夜不成寐。

HiPPO

HiPPO起源于函数逼近,就是用一系列更简单的函数来逼近一个复杂的函数。相信读者都知道的就是傅里叶变换,它用简单的不同频率的正弦曲线的线性组合来逼近复杂函数。

在原始的HiPPO论文中,研究人员用了多项式作为基函数。函数逼近理论基于泛函分析(一门学科)。 怎么理解呢,可以将它看成是定义在函数空间(而不是向量空间)上的线性代数(高端)版本。

下面的例子可以带给读者一些直观的印象,例如存在三个基向量,每个基向量乘上各自的系数a1,a2,a3进行线性组合就可以得到新的向量。同样的道理可以将A1,A2,A3替换成一组函数。

在泛函分析中将函数f(t)视为无穷维度的向量,也是可以表示为基函数的线性组合。注意这里ei是函数。在实践中当然不可能使用无穷多的基函数,因此一般的做法就是采用有限数量的N个基函数近视模拟。按照常识N越大,近似误差就越小。

S4中使用缩放勒让德多项式(Scaled Legendre Measure),后面会提及的多种优点。下图就采用8个基函数配合不同的系数,拟合出红色的曲线。

魔幻矩阵A

在真实的场景中输入信号是持续进来的,因此模拟和逼近也是时刻进行。

其中f<t定义为目标函数f在时间t之前的逼近和拟合。在时间t1时刻只能观察函数f(黑线)到t1,可以得到如下的组合。

同理当时间窗口来到t4的时候,又得到新的组合。在不同的时间,系统存储的是系数向量,也就是C[c_{t_{i},0}, c_{t_{i},1}, ... , c_{t_{i},n}]

那么现在的问题就来到了如何计算系数。解决的办法和线性代数类似,采用计算内积的方式将目标函数f投影到基函数ei。看到这儿不用慌,在泛函分析中,函数和函数之间基于μ的内积的定义公式如下:

μ可以先忽略,这个积分可以看成中学学过的普通积分。对所有系数ci按照上面的公式进行微分并经过(大量)的数学推理将得到一个ODE(微分方程)。在HiPPO的原文中就是这样的,

然后将这个式子整理整理,用向量化来表示就得到公式29。

紧接着再仔细观察下公式29,再结合下面连续SSM的公式,是不是很相似。上面的c(t)和下面x(t)一个含义,f(t)和u(t)一个含义

那么魔幻矩阵A就是这么被推导出来。

HiPPO框架

刚才提到了度量μ,抛开繁杂的数学公式,可以来这么理解:当用一组函数的线性组合去拟合输入信号的时候,需要有个评估的标准。也就是怎么证明是最优的,或者能够按照期望的模式去拟合。(比如指数衰减还是平均衰减),不同的度量会对应着不同的魔幻矩阵A。因此这里就郑重的提出了HiPPO框架,一般工作流程如下:

  • 定义一个度量μ(t)(例如缩放的勒让德度量)或者权重函数ω(t,x)

  • 确定基函数集Pn(t,x)

  • 对度量或者权重函数,以及基函数集求导

  • 按照02小节进行基于内积与ODE的魔幻矩阵A推导

进而得到结果:

动态扩展的勒让德多项式

另外其实随着时间的流动会存在输入信号大于基函数,在HiPPO的论文中研究人员做了一些改进,提出了可以缩放的基多项式。

本文讨论了S4和魔幻矩阵A背后的一些数学原理,核心技术就是在线函数逼近。魔幻矩阵A是为了求解ODE而推导出来,通过求解ODE可以得到这一时刻的线性组合的系数。将连续ODE离散化为离散序列,可以得到RNN。通过改良的RNN能够记住过往的历史,然而计算效率不高。下文将开展S4剩余的部分进行讲解。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/698253.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于.NET的跨平台应用程序框架介绍

基于.NET的跨平台应用程序框架介绍 随着.NET 8的发布&#xff0c;我也将我的书.NET MAUI Cross-Platform Application Development更新到了第二版&#xff0c;已经在3月25日开始正式发行。第一版是基于.NET 6编写的&#xff0c;第二版更新到了 .NET 8。这是一本介绍.NET MAUI的…

AR项目开发的技术难点

AR项目开发涉及多种技术&#xff0c;例如计算机视觉、图形学、传感器融合和人机交互。因此&#xff0c;AR项目开发存在以下难点&#xff0c;AR项目开发是一项具有挑战性的工作。但是&#xff0c;随着技术的进步和标准的完善&#xff0c;AR项目开发将会变得更加容易。北京木奇移…

计算机毕业设计 | springboot+vue电影院会员管理系统 影院后台管理(附源码)

1&#xff0c;项目背景 随着互联网时代的到来&#xff0c;同时计算机网络技术高速发展&#xff0c;网络管理运用也变得越来越广泛。因此&#xff0c;建立一个B/S结构的电影院会员管理系统&#xff1b;电影院会员管理系统的管理工作系统化、规范化&#xff0c;也会提高影院形象…

浅谈SiC MOSFET之双脉冲原理

1.双脉冲实验实验的必要性 在平常的使用中&#xff0c;我们基本通过芯片手册来了解功率器件的各种性能参数&#xff0c;但是手册中的参数的测量环境都是在理想状态下&#xff0c;与实际使用或多或少都会有差别。通过双脉冲实验可以获取器件在真实工况下的参数&#xff0c;对于产…

Pikachu 靶场 SQL 注入通关解析

前言 Pikachu靶场是一种常见的网络安全训练平台&#xff0c;用于模拟真实世界中的网络攻击和防御场景。它提供了一系列的实验室环境&#xff0c;供安全专业人士、学生和爱好者练习和测试他们的技能。 Pikachu靶场的目的是帮助用户了解和掌握网络攻击的原理和技术&#xff0c;…

对博客系统基本功能进行自动化测试(Junit + Selenium)

环境搭建&#xff1a; 浏览器&#xff1a; 本次测试使用Chrome浏览器在jdk的bin目录下安装对应浏览器驱动&#xff08;尽量选择与浏览器版本相近的驱动&#xff09;chromedriver.storage.googleapis.com/index.htmlJunit依赖&#xff1a; <!-- https://mvnreposit…

不同品牌的SSL证书价格差异大吗?

在数字化时代&#xff0c;网络安全的重要性日益凸显&#xff0c;SSL证书作为保护网站和用户数据安全的重要工具&#xff0c;其价值不言而喻。SSL证书通过加密技术保障网站与用户之间的通信安全&#xff0c;防止敏感信息的泄露和篡改。对于网站运营者而言&#xff0c;了解SSL证书…

【触想智能】无风扇工控一体机的优点与定制要求分析

随着工业自动化的不断推进&#xff0c;工控一体机作为自动化生产的核心设备&#xff0c;在工业生产中发挥着越来越重要的作用。 在工控一体机的设计中&#xff0c;散热是一个非常关键的问题&#xff0c;而无风扇工控一体机的出现为解决这个问题提供了新方法。 无风扇工控一体机…

快速清理系统盘空间

占用系统盘资源比较大&#xff0c;有两种log与cache。 使用如下命令查看 du -h /var/cache --max-depth1 | sort -hr | head -n 10结果如下&#xff1a;

怎么申请一年期免费的https证书

随着互联网的推广和普及&#xff0c;如今HTTPS证书的普及度还是比较高的了&#xff0c;大家对于https证书的需求度也在日益提升。针对于一些个人用户或是企业而言&#xff0c;实现网站的https访问已经成为了一种标配。从去年年底开始&#xff0c;各大SSL证书厂商陆续下架一年期…

C# XPTable in .net6(XPTable控件使用说明八)

经过作者schoetbi、armin-pfaeffle的努力&#xff0c;XPTable已经可以在 winform .net6 .net8的环境下使用&#xff0c;版本升级到了2.0&#xff0c;这样就可以在winform下同时使用XPTABLE和EFcore, 这样就可以解决大部分的场景了。

Ubuntu 20.04在Anaconda虚拟环境中配置PyQt4

一、创建一个虚拟环境 1 创建一个python2.7的虚拟环境&#xff1a; conda create -n pyqt4 numpy matplotlib python2.72 在环境中安装几个需要的包&#xff1a; pip install Theano pip install python-opencv3.4.0.14 pip install qdarkstyle pip install dominate二、在主…