Decision Transformer

DT个人理解

emmm, 这里的Transformer 就和最近接触到的whisper一样,比起传统Transformer,自己还设计了针对特殊情况的tokens。比如whisper里对SOT,起始时间,语言种类等都指定了特殊tokens去做Decoder的输入和输出。
在这里插入图片描述

DT这里的作为输入的Tokens由RL里喜闻乐见的历史数据:State,Action,Reward组成。输出只是简单的Actions(历史+即将需要的)

在这里插入图片描述
这里的输入是基于“Retures to go”的设计:Sum of remaining future returns. 类似于从当下的此时此刻开始,到目的地结束,你有N条路径可以走,但是,你需要在训练过程中,让model学习预测当下到未来可获得的最高reward。但因为你对未来是空白的,Monte carlor 是一种喜闻乐见的方式去疯狂采样模拟来估计,目前自己能想到的,但是还没看到后面,作者到底是怎么处理这一步的。好吧,不是我想的那样,也对,不然猴年马月才能得到最高的reward。作者在这里的处理是将reward直接放进0-1之间,并且取1作为目标。So called “Goal conditioning”,就是先设定目标,再根据离目标做出学习调整。

~ 自己就是RL开始的,后来

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/499135.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

安秉源代码加密,不仅可以正常加密,对编译调试无任何影响

源代码防泄密对于很多企业来讲都在使用,特别是在广东一些做智能制造的企业,这些企业在很早就意识到源代码防泄密的重要性,很多企业采用加密的方式对企业的源代码进行加密,也采用了相对应的加密软件,但是在使用一些加密…

nodejs配置环境变量后不生效(‘node‘ 不是内部或外部命令,也不是可运行的程序或批处理文件)

一、在我们安装Node.js后,有时候会遇到node命令不管用的情况,关键是在安装时候已经添加配置了环境变量,向下面这样 但是还是不管用,这是因为环境变量配置不正确,权重不够,或者是命令冲突导致,解…

存内计算技术大幅提升机器学习算法的性能—挑战与解决方案探讨

一.存内计算技术大幅机器学习算法的性能 1.1背景 人工智能技术的迅速发展使人工智能芯片成为备受关注的关键组成部分。在人工智能的构建中,算力是三个支柱之一,包括数据、算法和算力。目前,人工智能芯片的发展主要集中在两个方向&#xff1…

nginx使用详解--缓存使用

Nginx 是一个功能强大的 Web 服务器和反向代理服务器,它可以用于实现静态内容的缓存,缓存可以分为客户端缓存和服务端缓存。 客户端缓存 客户端缓存指的是浏览器缓存, 浏览器缓存是最快的缓存, 因为它直接从本地获取(但有可能需要发送一个协商缓存的请…

【程序员的金三银四求职宝典】《春风拂面,代码在手:程序员的金三银四求职指南》

《春风拂面,代码在手:程序员的金三银四求职指南》 随着春风的轻拂,大地复苏,万物更新。在这个生机勃勃的季节,不仅自然界在迎接新生,对于广大的程序员朋友们而言,这也是一个全新的开始——金三…

数据库JSON类型到映射JAVA上

Mysql存放JSON数据如何映射JAVA实体类 概述:最近写在写SKU模块中,需要表中字段存放JSON类型数据,mybatis-plus在查询的时候如何跟JSON类型所匹配呢?再次记录一下。 直接上代码,后面有解释到底如何映射上的。 Mysql表…

推荐几款优秀免费开源的导航网站

🦩van-nav 项目地址:van-nav项目介绍:一个轻量导航站,汇总你的所有服务。项目亮点:全平台支持,单文件部署,有配套浏览器插件。效果预览 🦩发现导航 项目地址:nav项目…

Spring Cloud2022之OpenFeign使用以及部分源码分析

OpenFeign使用 Feign和OpenFeign Feign是Netflix开发的⼀个轻量级RESTful的HTTP服务客户端,可以使用⽤它来发起请求,进行远程调用。Fegin是以Java接口注解的⽅式调⽤Http请求,而不是像RestTemplate那样,在Java中通过封装HTTP请求…

android开发技术论文,Android中为什么需要Handler

前言 马爸爸总结了一句话:跳槽,要么是钱不到位,要么是受了委屈。 我给自己这次的跳槽经历做了一个分析,希望能对那些想换工作的朋友有所帮助。 许多朋友想换工作,但是对“换工作”的理解可能仅限于写简历、投简历、…

信号系统之滤波器比较

比较 1:模拟与数字滤波器 大多数数字信号源自模拟电子设备。**如果需要对信号进行滤波,是在数字化之前使用模拟滤波器,还是在数字化后使用数字滤波器更好?**将通过两个对比来回答问题。 目标是提供 1 kHz的低通滤波器。模拟端是…

华为HarmnyOS TypeScript基础语法快速入门

华为HarmnyOS TypeScript基础语法快速入门 一、JavaScript、TypeScript、ArkTS二、TypeScript基础语法1. 基础类型2. 条件语句3. 函数4. 类5. 模块6. 迭代器 一、JavaScript、TypeScript、ArkTS ArkTS是HarmonyOS优选的主力应用开发语言。它在TypeScript(简称TS&am…

程序员必备开发工具(IDE)推荐

程序员必备开发工具(IDE)推荐 1.Python语言程序员必备开发工具(IDE)推荐1.1 **IDLE**1.2 ⭐️PyCharm1.3 **Anaconda**1.4 **Jupyter Notebook**1.5 **Sublime Text** 2.C语言程序员必备开发工具(IDE)推荐2…