深度学习--强化学习--基本概念Q V--94

目录
  • 1. 强化学习
  • 2. 马尔科夫链
  • 3. Q值和V值

1. 强化学习

首先我们需要明确,强化学习的任务是什么?
这用大白话说:就是我们希望用强化学习的方式,使智能体获得独立自主地完成某种任务的能力。
智能体学习和工作的地方,我们就称为环境。
注意!所谓独立自主,就是智能体一旦启动,就不需要人指挥了。

state action reward

有兴趣的可以参看:https://openai.com/index/emergent-tool-use/

A(action)动作
动作其实不用解释,就是智能体做出的具体行为。
例如扫地机器人会移动,吸尘,甚至喷水。无人驾驶汽车能够移动,加速,刹车,转弯等。
动作空间就是该智能体能够做出的动作数量。
举个例子:智能体身处十字路口。那么我们的方向就有4个。也就是说,我们能做的动作,就是4个。我们称我们能做的动作的集合,称为动作空间 π

R(reward)奖励
当我们在某个状态下,完成动作。环境就会给我们反馈,告诉我们这个动作的效果如何。这种效果的数值表达,就是奖励。
其实这里的reward翻译为“反馈”可能更合适一点。因为反馈并不是完全正面的,也有负面。当奖励可以是正数,表示鼓励当前的行为;如果是负数负数,表示惩罚这种行为。当然也可以是0。 而奖励值的大小,表示鼓励的和惩罚的力度不同。
奖励在强化学习中,起到了很关键的作用,我们会以奖励作为引导,让智能体学习做能获得最多奖励的动作。
例如:我需要训练机器人打乒乓球。机器人每次赢球,都可以加分;输球,就减分。这分数就表现了机器人的动作好坏。如果机器人希望获得更多的分数,就需要想办法赢球。
又例如:无人驾驶汽车如果成功到达目标地点,那么可以获得奖励;但如果闯红灯,那么就会被扣除大量的奖励作为惩罚。如果无人驾驶汽车希望获得更多的分数,那么就必须在遵守交通规则的情况下,成功到达目标地点。
注意,奖励的设定是主观的,也就是说我们为了智能体更好地学习工作,自己定的。所以大家可以看到,很多时候我们会对奖励进行一定的修正,这也是加速智能体学习的方法之一。

state 是环境的状态,输入给智能体agent,
对于智能体来说是它看到的,所以也叫做observation

2. 马尔科夫链


有三个重要的元素:S,A,R。我们分别来看一下,他们代表的是什么。然后大家就会明白,为什么马尔科夫链是一个很好很常用的模型。

1.智能体在环境中,观察到状态(S);
2.状态(S)被输入到智能体,智能体经过计算,选择动作(A);
3.动作(A)使环境进入另外一个状态(S),并返回奖励(R)给智能体。
4.智能体根据返回,调整自己的策略。 重复以上步骤,一步一步创造马尔科夫链。
所以你看,强化学习跟教孩子是一个道理: 孩子做了好事,必须给奖励;孩子做错事了,必须惩罚。就这么简单!

两个不确定性:
第一个,是“选择”的过程。智能体“选择”会影响到下一个状态。比如state/observation一样,agent对于action的选择也可能不同,这种不同动作之间的选择,我们称为智能体的策略。策略我们一般用Π表示。我们的任务就是找到一个策略,能够获得最多的奖励。
第二个不确定性,是环境的随机性,这是智能体无法控制的,比如action一样但反馈回来新的state/observation或reward也可能有所不同。但马尔科夫链允许我们有不确定性的存在。
所以,这种不确定性来自两个方面:1.智能体的行动选择(策略)。2.环境的不确定性。

3. Q值和V值

当智能体从一个状态S,选择动作A,会进入另外一个状态S';同时,也会给智能体奖励R。 奖励既有正,也有负。正代表我们鼓励智能体在这个状态下继续这么做;负得话代表我们并不希望智能体这么做。 在强化学习中,我们会用奖励R作为智能体学习的引导,期望智能体获得尽可能多的奖励。

并不能单纯通过R来衡量一个动作的好坏。我们必须用长远的眼光来看待问题。我们要把未来的奖励也计算到当前状态下,再进行决策。
所以我们在做决策的时候,需要把眼光放远点,把未来的价值换到当前,才能做出选择。

评估动作的价值,我们称为Q值:
它代表了智能体选择这个动作后,一直到最终状态奖励总和的期望; 对action的评估 所以能指引agent采取哪种action

评估状态的价值,我们称为V值:
它代表了智能体在这个状态下,一直到最终状态的奖励总和的期望。
对state的评估, 所以能指引agent尽量让环境进入哪种state,让自身处于哪种state更有利。

假设现在需要求某状态S的V值,那么我们可以这样:

1.我们从S点出发,并影分身出若干个自己;
2.每个分身按照当前的策略 选择行为;
3.每个分身一直走到最终状态,并计算一路上获得的所有奖励总和;
4.我们计算每个影分身获得的平均值,这个平均值就是我们要求的V值。
从某个状态,按照策略,走到最终状态很多很多次;最终获得奖励总和的平均值,就是V值。

V值是会根据不同的策略有所变化的

假设策略 采用平均策略[A1:50%,A2:50%],根据用影分身(如果是学霸直接求期望),那么我们可以求得V值为15

改变策略[A1:60%,A2:40%],那么我们可以求得V值为14,变少了!

Q值和V值的概念是一致的,都是衡量在马可洛夫树上某一个节点的价值。只不过V值衡量的是状态节点的价值,而Q值衡量的是动作节点的价值。
现在我们需要计算,某个状态S0下的一个动作A的Q值:
1.我们就可以从A这个节点出发,使用影分身之术;
2.每个影分身走到最终状态,并记录所获得的奖励;
3.求取所有影分身获得奖励的平均值,这个平均值就是我们需要求的Q值。
与V值不同,Q值和策略并没有直接相关,而与环境的状态转移概率相关,而环境的状态转移概率是不变的。

总结一下,从以上的定义,
我们可以知道Q值和V值的意义相通的:
1.都是马可洛夫树上的节点;
2.价值评价的方式是一样的:

  • 从当前节点出发 - 一直走到最终节点 - 所有的奖励的期望值

Monte Carlo Sampling(1947)
大量的重复试验的方法就叫做Monte Carlo Sampling(1947)
1.我们把智能体放到环境的任意状态;
2.从这个状态开始按照策略进行选择动作,并进入新的状态。
3.重复步骤2,直到最终状态;
4.我们从最终状态开始向前回溯:计算每个状态的G值。
5.重复1-4多次,然后平均每个状态的G值,这就是我们需要求的V值。


第一步,我们根据策略往前走,一直走到最后,期间我们什么都不用算,还需要记录每一个状态转移,我们获得多少奖励r即可。
第二步,我们从终点往前走,一边走一边计算G值。G值等于上一个状态的G值(记作G'),乘以一定的折扣(gamma),再加上r。

1.G的意义:在某个路径上,状态S到最终状态的总收获。
2.V和G的关系:V是G的平均数。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/738350.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

京东毫秒级热key探测框架设计与实践,已实战于618大促

在拥有大量并发用户的系统中,热key一直以来都是一个不可避免的问题。或许是突然某些商品成了爆款,或许是海量用户突然涌入某个店铺,或许是秒杀时瞬间大量开启的爬虫用户, 这些突发的无法预先感知的热key都是系统潜在的巨大风险。 风险是什么呢?主要是数据层,其次是服务层…

刷题Phuck2--data协议差异

刷题Phuck2 使用arjun扫出hl参数,获取到源码 ​​ 源码: <?phpstream_wrapper_unregister(php);if(isset($_GET[hl])) highlight_file(__FILE__);$mkdir = function($dir) {system(mkdir -- .escapeshellarg($dir));};$randFolder = bin2hex(random_bytes(16));$mkdir(us…

常见Linux命令

1、查看目录:ls 常用用法: ls -l :以列表的形式展示;简写ll效果展示:2、终端清屏:clear 常用用法: ctr+L:清空屏幕当前的内容,不会重置终端效果展示: 使用前使用后3、切换目录:cd 常用用法:cd /:切换到根目录cd /xx(目录名) :切换到根目录下的xx目录cd ..:切换…

R语言大学城咖啡店消费问卷调查报告:信度分析、主成分分析可视化

全文链接:https://tecdat.cn/?p=34656 原文出处:拓端数据部落公众号 本次调查旨在了解文汇路咖啡店的市场状况,以便为学校周边咖啡店的经营发展提供积极的引导意义。我们通过问卷调查的方式,收集了大量的数据,通过r软件对数据进行了基本情况分析、信度分析、问卷调查数据…

R语言武汉流动人口趋势预测:灰色模型GM(1,1)、ARIMA时间序列、logistic逻辑回归模型|附代码数据

全文链接:http://tecdat.cn/?p=32496 原文出处:拓端数据部落公众号 人口流动与迁移,作为人类产生以来就存在的一种社会现象,伴随着人类文明的不断进步从未间断。 人力资源是社会文明进步、人民富裕幸福、国家繁荣昌盛的核心推动力量。当前,我国经济正处于从以政府主导的投…

1panel搭建halo+alist+兰空图床

由于服务器更新过后,ssh连接不上,机商vnc延迟卡的很,输个命令都不行,刚好centos断更了,换ubuntu系统了。也顺便从MySQL转到PostgreSQL。这个算是个记录,给有基础的人看的,你连ssh都不会连,那你得自己一步一步慢慢百度来。其实还是比较无脑的,除了1panel的反代,感觉设…

7.4

1005.K次取反后最大化的数组和 题意描述:[!NOTE] 给你一个整数数组 nums 和一个整数 k ,按以下方法修改该数组:选择某个下标 i 并将 nums[i] 替换为 -nums[i] 。重复这个过程恰好 k 次。可以多次选择同一个下标 i 。 以这种方式修改数组后,返回数组 可能的最大和 。 示例 1…

【专题】2024年6月数字化行业报告合集汇总PDF分享(附原数据表)

原文链接:https://tecdat.cn/?p=36658 原文出处:拓端数据部落公众号 随着科技的飞速发展和全球数字化进程的加速推进,我们正处在一个充满变革与机遇的时代。从人工智能的深入应用到工业互联网的蓬勃发展,从智慧医疗的兴起到新能源汽车的普及,每一个领域都在经历着前所未有…

Body SurfaceModel Geometry

Body SurfaceModel Geometry 实体曲面模型几何图形是通过曲面模型表示产品的三维形状。应使用保持该几何表示的IfcShapeResentation的以下属性值:IfcShapeRepresentation.RepresentationIdentifier = Body IfcShapeRepresentation.RepresentationType = SurfaceModel IfcShape…

CSRF攻击与修复

基本原理受害者登录a.com,并保留了登录凭证(Cookie)。 攻击者引诱受害者访问了b.com。 b.com 向 a.com 发送了一个请求:a.com/act=xx。浏览器会默认携带a.com的Cookie。 a.com接收到请求后,对请求进行验证,并确认是受害者的凭证,误以为是受害者自己发送的请求。 a.com以…

同步、异步、阻塞、非阻塞、Linux五种 I/O 模型,一篇文章搞定

●什么是同步、什么是异步?什么是阻塞、什么非阻塞?我自己的理解,大白话啊,同步和异步指的是函数调用完成任务的程度。一个任务的完成,包括发起、执行和结果返回三个阶段。   同步(synchronize)调用涵盖了这三个阶段。调用结束之后,任务肯定是有结果的,无论成败。  …

阿里Qwen2-72B大模型已是开源榜的王者,为什么还要推出其他参数模型,被其他模型打榜?

阿里Qwen2-72B大模型已是开源榜的王者,为什么还要推出其他参数模型,被其他模型打榜?6 月 27 日,全球知名的开源平台 Hugging Face 的联合创始人兼首席执行官 Clem 在社交平台激动宣布,阿里 Qwen2-72B 成为了开源模型排行榜的王者。这是一件大好事,说明了我们在大模型领域…