第六十二周周报

学习目标:

一、实验

二、论文

学习时间:

2023.11.11-2023.11.17

学习产出:

实验

1、CB模块实验效果出来了,加上去效果不太行,后续实验考虑是否将CB模块换到其他地方
2、CiFAR100实验已完成,效果比ViTGAN好
3、Diffusion + 其他模块的实验还在跑,目前Diffusion+相对位置编码的效果比以前三个模块加一起的效果都好,考虑再多跑几次看是否是偶然结果,下周也会在这个代码上加上傅里叶看是否效果还和模型以前一样。

论文

FourierFormer: Transformer Meets Generalized Fourier Integral Theorem

NIPS2022年的论文,提出FourierFormer,将点积核替代为广义傅里叶积分核。

1、介绍

点积自注意力遵循混合高斯分布这一假设所使用的未归一化高斯核,但这一假设在实践中是否有效并无保证。本文将Trasformer注意力解释为一个非参数核回归,提出FourierFormer,将点积核替代为广义傅里叶积分核。理论上证明了提出的傅里叶积分核可以有效逼近任何键和查询分布。与使用点积注意力的传统Transformer相比,FourierFormer能够取得更好的准确性,并减少注意头之间的冗余。

2、方法

点积自注意力可能无法捕获查询向量(Q)中特征与关键向量(V)之间的相关性,传统Transformer的方法是额外使用协方差矩阵建立QV之间的联系。本文提出使用广义傅里叶积分建立自注意力与非参数核回归之间的对应关系,利用广义傅里叶积分定理,自动捕获向量的相关性

3、贡献

(1)通过求解一个非参数核回归问题推导出自注意力的公式,从而为研究和进一步发展自注意力提供了一种非参数回归解释。
(2)提出了非参数回归问题的广义傅里叶积分估计量,并为这些估计量提供了理论保证。
(3)提出FourierFormer,使用广义傅立叶积分估计来更有效地捕获查询中特征和关键向量之间的相关性

4、结果

FourierFormer在WikiText语言建模和ImageNet图像分类中比具有点积自注意力的Transformer baseline获得了明显更好的精度。在实验中证明了FourierFormer有助于减少注意头之间的冗余。
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/188990.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

场景交互与场景漫游-osgGA库(5)

osgGA库 osgGA库是OSG的一个附加的工具库,它为用户提供各种事件处理及操作处理。通过osgGA库读者可以像控制Windows窗口一样来处理各种事件 osgGA的事件处理器主要由两大部分组成,即事件适配器和动作适配器。osgGA:GUIEventHandler类主要提供了窗口系统的…

基于SSM的智能仓储系统研究与设计

末尾获取源码 开发语言:Java Java开发工具:JDK1.8 后端框架:SSM 前端:采用JSP技术开发 数据库:MySQL5.7和Navicat管理工具结合 服务器:Tomcat8.5 开发软件:IDEA / Eclipse 是否Maven项目&#x…

C++--STL总结

参考教程:黑马程序员匠心之作|C教程从0到1入门编程,学习编程不再难_哔哩哔哩_bilibili 软件界一直希望建立一种可重复利用的东西,C的面向对象和泛型编程思想,目的就是复用性的提升。 大多情况下,数据结构和算法都未能有一套标准,…

python趣味编程-5分钟实现一个F1 赛车公路游戏(含源码、步骤讲解)

Python 中的 F1 赛车公路游戏及其源代码 F1 Race Road Game是用Python编程语言开发的,它是一个桌面应用程序。 这款 Python 语言的 F1 赛道游戏可以免费下载开源代码,它是为想要学习 Python 的初学者创建的。 该项目系统使用了 Pygame 和 Random 函数。 Pygame 是一组跨平…

Flutter笔记: 在Flutter应用中使用SQLite数据库

Flutter笔记 在Flutter应用中使用SQLite数据库(基于sqflite) 作者:李俊才 (jcLee95):https://blog.csdn.net/qq_28550263 邮箱 :291148484163.com 本文地址:https://blog.csdn.net/q…

大模型之十二十-中英双语开源大语言模型选型

从ChatGPT火爆出圈到现在纷纷开源的大语言模型,众多出入门的学习者以及跃跃欲试的公司不得不面临的是开源大语言模型的选型问题。 基于开源商业许可的开源大语言模型可以极大的节省成本和加速业务迭代。 当前(2023年11月17日)开源的大语言模型如下&#…

牛客——OR36 链表的回文结构(C语言,配图,快慢指针)

本题是没有对C的支持的,但因为Cpp支持C,所以这里就用C写了,可以面向更多用户 链表的回文结构_牛客题霸_牛客网 (nowcoder.com) 思路一:链表翻转 简单的想想整形我们怎么比较,就是将整形A 依次取尾,放到整形…

gorm的简单操作

1. 什么是orm ORM全称是:Object Relational Mapping(对象关系映射),其主要作用是在编程中,把面向对象的概念跟数据库中表的概念对应起来。举例来说就是,我定义一个对象,那就对应着一张表,这个对象的实例&a…

基于SSM的设备配件管理和设备检修系统

末尾获取源码 开发语言:Java Java开发工具:JDK1.8 后端框架:SSM 前端:Vue 数据库:MySQL5.7和Navicat管理工具结合 服务器:Tomcat8.5 开发软件:IDEA / Eclipse 是否Maven项目:是 目录…

Redis数据的持久化

Redis的持久化有两种方式: RDB(Redis Database)和AOF(Append Only File) 目录 一、RDB 保存方式 2、rdb在redis.conf文件中的配置 二、AOF 1、保存方式 2、aof方式持久化在redis.conf文件中的配置 三、持久化建…

spring cloud openfeign 使用注意点

近期在做项目时给自己挖了一个坑,问题重现如下 使用的组件版本如下 spring boot 2.7.15,对应的 spring cloud 版本为 2021.0.5,其中 spring cloud 适配的 openfeign 版本是 3.1.5。 项目中使用的 feign 接口如下 public interface QueryApi…

vulnhub靶场—matrix-breakout-2-morpheus靶机

一,实验环境 靶机ip:192.168.150.131攻击机ip:192.168.150.130 二,信息收集 arp-scan -l 扫描网段,寻找靶机ip 使用工具nmap进行端口扫描 nmap -A -T4 -p- 192.168.150.131 通过信息收集发现了靶机有80和81这两个…