机器学习:增强式学习Reinforcement learning

在这里插入图片描述

  • 收集有标签数据比较困难的时候
  • 同时也不知道什么答案是比较好的时候
  • 可以考虑使用强化学习
  • 通过互动,机器可以自己知道什么结果是好的,什么结果是坏的

Outline

在这里插入图片描述

什么是RL

在这里插入图片描述

  • Action就是一个function
  • Environment就是告诉这个Action是好的还是坏的

例子 Space invader

在这里插入图片描述

  • 只能左移动,右移动,开火
  • 任务就是杀死外星人
  • 奖励就是分数
  • 终止:杀死所有的外星人,或者自己被外星人杀死
    在这里插入图片描述
  • 找到一个function使得得分总和最大

例子:Play Go

在这里插入图片描述
在这里插入图片描述

  • 下围棋的score只有在游戏结束的时候才有分数,+1, -1, 0
  • 中间时刻是没有得分的

RL和ML关系

在这里插入图片描述

Step1: 未知数的Function

在这里插入图片描述

  • 在RL中,未知数的Function就是Action
  • 输入是网络观察到的
  • 输出是每个动作的反馈
  • 分数就是激励,基于分数去有概率的随机性采取对应的行动,增加多样性

Step2:定义Loss

在这里插入图片描述
在这里插入图片描述

  • 把所有的reward进行累加作为最终分数
  • Loss就是要最大虾该总和分数

Step3:优化器

在这里插入图片描述

  • 给定的随机行为,有随机的反应
  • 如何找到一组参数去使得分数越大越好
  • 类比于GAN,但是Reward和env不能当作是network,是一个黑盒子

Policy Gradient

在这里插入图片描述
如何控制你的action
在这里插入图片描述

  • 希望采用的模型,可以类比一个分类器
  • 希望不采用什么动作的模型,可以使用上面取反
    在这里插入图片描述
  • 使得e1越小越好,使得e2越大越好

收集一些训练数据
在这里插入图片描述
但不一定是只有两种情况,不是二分类问题,可以采用不同的数字表示不同程度的期待
在这里插入图片描述

定义A

版本1

随机的Action得到结果,然后进行评价正负
在这里插入图片描述

  • 该版本不是一个好的版本
  • 短视近利的Action,没有长远规划
  • 每个动作都影响后续的动作
  • 奖励延迟,需要牺牲短期利益获得长远利益
    在这里插入图片描述

版本2

在这里插入图片描述

  • 把每个动作之后的分数都加起来作为该动作的分数

版本3

在这里插入图片描述

  • 相邻的动作影响更大一点,越远的距离的动作影响越小

版本4

在这里插入图片描述

  • 需要对分数进行标准化,减掉一个baseline b,使得分数有正有负

Policy Gradient

在这里插入图片描述

  • 收集资料是在epoch循环中
    在这里插入图片描述
    在这里插入图片描述
  • 每次Update之后需要重新收集资料
  • RL训练非常耗时
    同一种行为对于不同的s是好坏是不一样的,是一个连续的。
    在这里插入图片描述
    在这里插入图片描述
  • off-policy可以不用在更新前收集资料了,只需要收集一次
    在这里插入图片描述
    在这里插入图片描述
  • 增加随机性,尝试不同的action

PPO

在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/285429.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

竞赛保研 python+opencv+深度学习实现二维码识别

0 前言 🔥 优质竞赛项目系列,今天要分享的是 🚩 pythonopencv深度学习实现二维码识别 🥇学长这里给一个题目综合评分(每项满分5分) 难度系数:3分工作量:3分创新点:3分 该项目较为新颖&…

mysql自动安装脚本(快速部署mysql)

mysql_install - 适用于生产环境单实例快速部署 MySQL8.0 自动安装脚本 mysql8_install.sh(执行前修改一下脚本里的配置参数,改成你自己的)(博客末尾) my_test.cnf(博客末尾)(这个…

工作:三菱PLC程序开发流程总结

工作:三菱PLC程序开发流程总结 一、程序流程图 程序流程图是逻辑思维与动作流程的检查图,是保证逻辑思维合理的前提,写代码丢失方向可从程序流程图重新整理,程序流程图非常重要。 二、组态配置 组态配置是将所用到的基板和模块…

基于Java SpringBoot和Vue的医院信息管理挂号系统

摘要 医院信息管理系统(Hospital Information Management System,简称HIMS)是一种应用于医疗机构的信息化管理系统,旨在提高医疗服务质量、降低运营成本、提高工作效率和满足患者需求。HIMS通过对医院内各种信息的集成、管理和共享…

C++11 【初识】

C11简介 1.在2003年C标准委员会曾经提交了一份技术勘误表(简称TC1),使得C03这个名字已经取代了C98称为C11之前的最新C标准名称。 2.不过由于C03(TC1)主要是对C98标准中的漏洞进行修复,语言的核心部分则没有改动,因此人们习惯性的把两个标准合…

用户行为分析遇到的问题-ubantu16,hadoop3.1.3

用户行为分析传送门 我的版本 ubantu16 hadoop 3.1.3 habse 2.2.2 hive3.1.3 zookeeper3.8.3 sqoop 1.46/1.47 我sqoop把MySQL数据往hbase导数据时候有问题 重磅:大数据课程实验案例:网站用户行为分析(免费共享) 用户行为分析-小…

QT添加新的组件

qt安装完成后,想要添加新的组件时: 1、找到QT安装的tool 2、找到其所在的文件夹位置 将该tool软件拖到终端页面 将源改为国内清华的路径,下载速度较快 installer.exe --mirror https://mirrors.tuna.tsinghua.edu.cn/qt

1951 年以来的美国ACIS 气候地图数据集(5 公里空间分辨率)

应用气候信息系统 (ACIS) NRCC NN ACIS是Applied Climate Information System的缩写,是由美国国家气象局(NOAA)开发的一种气候信息系统。ACIS气候地图是通过收集和整理全球的气象数据,利用计算机技术和数据分析方法生成的气候图表…

FPGA时序分析与时序约束(二)——时钟约束

目录 一、时序约束的步骤 二、时序网表和路径 2.1 时序网表 2.2 时序路径 三、时序约束的方式 三、时钟约束 3.1 主时钟约束 3.2 虚拟时钟约束 3.3 衍生时钟约束 3.4 时钟组约束 3.5 时钟特性约束 3.6 时钟延时约束 一、时序约束的步骤 上一章了解了时序分析和约束…

首次使用 git 配置 github,gitee 密钥

gitee 和 github 密钥配置 1. 检查配置信息 使用命令 git config --global --list 检查邮箱是否一致 不一致可以使用如下命令进行设置 git config --global user.name "name" git config --global user.email "emailqq.com" 2. 生成 SSH 密钥 # 为 G…

信号与系统分析导论——“信号与系统”

小雅兰马上就要期末考试啦,最近也要开始准备期末复习了,下面,就让我们进入信号与系统分析导论的世界吧!!!! 信号(signal) 系统(system) 信号的描…

ElasticSearch单机或集群未授权访问漏洞

漏洞处理方法: 1、可以使用系统防火墙 来做限制只允许ES集群和Server节点的IP来访问漏洞节点的9200端口,其他的全部拒绝。 2、在ES节点上设置用户密码 漏洞现象:直接访问9200端口不需要密码验证 修复过程 2.1 生成认证文件 必须要生成…