论文笔记: One Fits All:Power General Time Series Analysis by Pretrained LM

1 intro

  • 时间序列领域预训练模型/foundation 模型的研究还不是很多
    • 主要挑战是缺乏大量的数据来训练用于时间序列分析的基础模型
  • ——>论文利用预训练的语言模型进行通用的时间序列分析
    • 为各种时间序列任务提供了一个统一的框架

 

  • 论文还调查了为什么从语言领域预训练的Transformer几乎不需要任何改动就可以适应时间序列分析
    • —预训练Transformer中的自注意模块通过训练获得了执行某些非数据相关操作的能力
    • 这些操作与输入模式上的主成分分析(PCA)密切相关

2 模型

2.1 模型架构

  •  利用自然语言处理预训练的Transformer的参数进行时间序列分析
    • 重点关注GPT-2模型
  • 还尝试了其他模型,如BERT和BEiT,以进一步证明跨领域知识传递的通用性存在于广泛的预训练模型中

2.1.1 冻结的预训练块

  • 由于自注意层和前馈神经网络(FFN)包含了来自预训练语言模型的大部分学习知识,因此我们选择在微调时冻结他们

2.1.2 位置嵌入和层归

        

  • 为了以最小的努力增强下游任务,我们微调了位置嵌入和layer normalization层
    • layer normalization 计算均值和方差也是用神经网络计算的,所以也需要微调
  • 机器学习笔记:神经网络层的各种normalization_relu 和 batchnorm的神经元数目一样吗_UQI-LIUWJ的博客-CSDN博客

2.1.3  输入embedding

  • 重新设计和训练输入嵌入层,以将NLP预训练模型应用于各种任务和新的模态
    • 将时间序列数据投影到特定预训练模型所需的维度
    • 使用linear probing

2.1.4 归一化

  • 数据归一化对于各种模态的预训练模型至关重要
    • 除了预训练LM中使用的Layer Normalization外,还加入了一个简单的数据归一化块,即反向实例归一化(reverse instance norm)
    • 简单地使用均值和方差对输入时间序列进行归一化,然后将它们添加回输出中

2.1.5 patching

  • 为了提取局部语义信息,论文利用分块(Patching)
    • 通过聚合相邻的时间步骤来形成一个基于Patch的Token
    • 在normalization 后进行patching

4 实验

4.1 主要结论

4.2 补全

 4.3 分类

 4.4 异常检测

 4.5 长期预测

 4.6 短期预测

 4.7 few shot 预测

只使用很少的一部分训练数据(10%,5%)

 4.8 zero-shot 预测

在A数据集上训练,在B数据集上测试

 5 消融实验

5.1 模型的选择

  • 分析了GPT2层数和微调参数的选择。
  • 附录H中的结果表明,与完整或少量层数相比,具有6层的GPT2是一个合理的选择,并且部分冻结可以避免灾难性遗忘,使微调能够在不过拟合的情况下进行。

5.2 预训练的有效性

  • GPT2(6)在时间序列任务中表现优于GPT2(0)和GPT2随机初始化
    • ——>具有预训练参数的GPT2可以在时间序列任务上取得改进
  • 此外,GPT2(6)的表现也优于GPT2非冻结,表明部分冻结也有所帮助。

  • 附录H.2中的结果显示,随机初始化的GPT2(6)在冻结情况下表现不佳,预训练知识对于时间序列任务至关重要。

 6  预训练模型在跨领域知识转移方面的普遍性

  • 对BERT和图像预训练领域的BEiT进行了实验
    • 知识转移的能力不仅限于基于GPT2的预训练语言模型

 7 预训练模型中的Transformer和PCA 对应

证明略

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/82246.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

什么是软件压力测试?软件压力测试工具和流程有哪些?

软件压力测试 一、含义:软件压力测试是一种测试应用程序性能的方法,通过模拟大量用户并发访问,测试应用程序在压力情况下的表现和响应能力。软件压力测试的目的是发现系统潜在的问题,如内存泄漏、线程锁、资源泄漏等,…

开源软件的崛起:历史与未来

🌷🍁 博主猫头虎 带您 Go to New World.✨🍁 🦄 博客首页——猫头虎的博客🎐 🐳《面试题大全专栏》 文章图文并茂🦕生动形象🦖简单易学!欢迎大家来踩踩~🌺 &a…

go学习之go的语法知识

文章目录 1.go语言开发注意事项2.golang常用的转义字符(escape char)3.golang开发常用的问题小结与提示: 4.go语言注释类型(1).注释类型1)行注释2)块注释(多行注释) (2)使用细节:1&a…

2023国赛数学建模思路 - 案例:退火算法

文章目录 1 退火算法原理1.1 物理背景1.2 背后的数学模型 2 退火算法实现2.1 算法流程2.2算法实现 建模资料 ## 0 赛题思路 (赛题出来以后第一时间在CSDN分享) https://blog.csdn.net/dc_sinor?typeblog 1 退火算法原理 1.1 物理背景 在热力学上&a…

Qt跨平台无边框窗口探索记录

一、前言 实现的效果为:通过黑色矩形框预操作,鼠标释放时更新窗口。效果图如下: 1.功能 1.1 已实现功能 8个方向的缩放标题栏拖动标题栏双击最大化/正常窗口窗口最小尺寸预操作框颜色与背景色互补多屏幕默认标题栏 1.2 待开发功能 拖动到…

(学习笔记-调度算法)内存页面置换算法

在了解内存页面置换算法前,我们得先了解 缺页异常(缺页中断)。 当 CPU 访问的页面不在物理内存中时,便会产生一个缺页中断,请求操作系统将缺页调入到物理内存。那它与一般的中断主要区别在于: 缺页中断在指令执行 [期…

vue项目引入svg组件全过程

文件格式 svg下方对应 .svg index.vue svg-icon 组件 <template><svg:viewBox"viewBox"xmlns"http://www.w3.org/2000/svg"xmlns:xlink"http://www.w3.org/1999/xlink"ref"svg"class"svg-icon":class"class…

Mysql 设置表字段自动赋值创建时间,以及自动更新某一个字段的更新时间

使用场景 一般表设计中记录都有创建时间以及更新时间&#xff0c;而 Mysql 也支持了这种通用的设计需求。 即&#xff1a;可以通过默认值来给时间字段自动赋值&#xff0c;在创建时的默认值就是当前时间也就是记录的创建时间。 记录更新&#xff1a;即某一记录更新时我们要更…

OceanMind海睿思签约常州市建筑科学研究院,打造检验检测行业数字化转型标杆

近日&#xff0c;中新赛克海睿思 与 中国知名综合性建筑研究和科技创新型高科技企业——常州市建筑科学研究院集团股份有限公司&#xff08;以下简称“建科股份”&#xff09;达成深度战略合作&#xff0c;为建科股份提供行业领先的数据工程建设服务&#xff0c;携手推进检验检…

对于pycharm 运行的时候不在cmd中运行,而是在python控制台运行的情况,如何处理?

对于pycharm 运行的时候不在cmd中运行&#xff0c;而是在python控制台运行的情况&#xff0c;如何处理&#xff1f; 比如&#xff0c;你在运行你的代码的时候 它总在python控制台运行&#xff0c;十分难受 解决方法 在pycharm中设置下即可&#xff0c;很简单 选择运行点击…

opencv 车牌号的定位和识别+UI界面识别系统

目录 一、实现和完整UI视频效果展示 主界面&#xff1a; 识别结果界面&#xff1a;&#xff08;识别车牌颜色和车牌号&#xff09; 查看历史记录界面&#xff1a; 二、原理介绍&#xff1a; 车牌检测->图像灰度化->Canny边缘检测->膨胀与腐蚀 边缘检测及预处理…

Mac常见恶意软件再现,办公应用程序潜藏风险如何防范?

Mac电脑正受到臭名昭著的XLoader恶意软件的新变种的攻击&#xff0c;该恶意软件已被重写为在最好的MacBook上本地运行。 虽然XLoader至少从2015年开始出现&#xff0c;但在2021年发现macOS变体之前&#xff0c;它主要用于针对Windows PC。然而&#xff0c;该版本是作为Java程序…