强化学习-强化学习的基本概念

news/2024/10/5 14:52:55/文章来源:https://www.cnblogs.com/pomolnc/p/18287981

强化学习的目标

强化学习是一种学习如何将状态映射到动作，以获得最大奖励的学习机制。学习者不会被告知要采取哪些动作，而是必须通过尝试来发现哪些动作会产生最大的回报。

强化学习与监督学习的区别

监督学习的样本都具有标记或者标签，明确知道什么是正确的动作。
强化学习的样本的都是交互的记录，不知道正确的动作是什么，但是会有每个动作的 反应，要根据 反应 来推断什么动作是正确的。

强化学习与无监督学习的区别

无监督学习主要是寻找数据间的隐藏结构。
强化学习虽然同样没有正确行为的标记，但是它并不关心样本数据不同维度之间的关系，只关心交互的奖励。

强化学习区别于其他学习方式的其他特征

探索（Exploration）与利用（Exploitation）的权衡是强化学习区别监督与非监督的特征，也是关键挑战。
强化学习的另一个特征是，它考虑了个体的目标在不确定环境中交互的整个问题。（这一点还没有很明显的 get 到。）强化学习个体都有明确的目标，可以感知环境的各个方面，并可以选择影响其环境的动作。此外，尽管个体面临的环境有很大的不确定性，通常从一开始就假设个体必须采取动作。当强化学习涉及规划时，它必须解决规划和实时动作选择之间的相互作用，以及如何获取和改进环境模型的问题。当强化学习涉及监督学习时，它要确定决定哪些能力是关键的，哪些是不重要。为了学习研究以取得进步，必须隔离和研究重要的子问题，即使不能体现所有完整的细节，它们也应该是在完整的、交互式的、寻求目标的个体中有明确功能的子问题。

强化学习的要素

智能体

做行为决策的机器。
可以感知环境的状态，做出决策，并且根据环境的变化能理解“奖励”。

环境

智能体以外的变化的且影响智能体的事情。

策略

定义的是智能体如何在特定状态下的行为方式，就是从环境状态到智能体行为动作的映射。

奖励

定义的是强化学习的目标。每个时间步骤（每次交互），环境给智能体一个标量值，就是奖励。智能体强化学习的目标就是使累积的奖励最大化。
奖励通常是环境状态和动作的随机函数。

价值函数

奖励信号表明了直接或者说即时的利益，而价值函数描述的是长期的收益。
状态的价值是该状态开始在未来可以预期累积的收益总额。一个状态可能短期产生较低的收益，但是可能在未来存在很高的收益，那它的价值也会很高。（比如内啡肽）。

奖励很好估计，可以由环境直接给出；但是价值需要智能体在整个生命周期内观察和评估。事实上，大多数的强化学习算法的核心部分就是有效地估计价值。

环境模型

环境的模拟，在给定的状态和动作，预测环境未来的状态。一般在基于模型的方法（比如，动态规划）里面会有，智能体可以根据模型来规划自己的行为。在不基于模型的方法里面就没有环境模型，智能体通过试错来学习。
现代强化学习已经从低级的、试错学习跨越到高层次的、有计划的学习。

More Reading

Reference

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/739547.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

（9）逻辑综合添加约束（时序、DRC）

（9）逻辑综合添加约束（时序、DRC）

一、前言dc综合是一个不断迭代的过程，如果设计的RTL代码不满足时序约束的需求，则需要重新进行修改，然后再去综合，一直迭代到时序满足需求。二、面积约束面积约束指令：set_max_area 100面积约束的定义有三种，一种指的是两输入与非门的个数，一种是晶体管的个数，第三种是…

阅读更多...

深度解析 Raft 分布式一致性协议

深度解析 Raft 分布式一致性协议

深度解析 Raft 分布式一致性协议本文参考转载至：浅谈 Raft 分布式一致性协议｜图解 Raft - 白泽来了 - 博客园 (cnblogs.com) 深度解析 Raft 分布式一致性协议 - 掘金 (juejin.cn) raft-zh_cn/raft-zh_cn.md at master maemual/raft-zh_cn (github.com)本篇文章将模拟一个KV数…

阅读更多...

nacos学习笔记之服务发现中心

nacos学习笔记之服务发现中心

一.什么是服务发现在微服务中，服务的消费方需要调用服务的生产方，这样服务的消费方就需要知道服务的消费方的网络地址（ip+端口号）。二、流程上图中服务实例本身并不记录服务生产方的网络地址，所有服务实例内部都会包含服务发现客户端（例如spring cloud中的ribbon）。（…

阅读更多...

第一次学习Java的碎碎念

第一次学习Java的碎碎念

2024年夏新的学习开始了；今天做了什么？在B站上收藏了黑马程序员学习Java的教学视频，观看了几篇入门教程，暂时学会了如何打开CMD，以及几个常见的CMD命令，例如盘符名称：、dir、cd目录、cd..、cls、exit等等，做了一个练习（利用cmd打开qq），学会了如何把应用程序的路径…

阅读更多...

测试标题

测试标题

测试摘要\[a /ge b /eq c \]

阅读更多...

Java反射与Fastjson的危险反序列化

Java反射与Fastjson的危险反序列化

Preface 在前文中，我们介绍了 Java 的基础语法和特性和 fastjson 的基础用法，本文我们将深入学习fastjson的危险反序列化以及预期相关的 Java 概念。什么是Java反射？在前文中，我们有一行代码 Computer macBookPro = JSON.parseObject(preReceive,Computer.class); 这行代…

阅读更多...

哈哈哈

哈哈哈

阅读更多...

Win10双屏设置之鼠标不能从中间划过问题解决

Win10双屏设置之鼠标不能从中间划过问题解决

Win10双屏设置之鼠标不能从中间划过解决-百度经验 (baidu.com)

阅读更多...

比赛获奖的武林秘籍：03 好的创意选取-获得国奖的最必要前提

比赛获奖的武林秘籍：03 好的创意选取-获得国奖的最必要前提

本文主要介绍了大学生电子计算机类比赛和创新创业类比赛创意选取的重要性，并列举了好的创意选取和坏的创意选取的例子，同时说明了好的创意选取具有哪些特点，同时对常见的创意选取途径与来源进行了基本介绍。比赛获奖的武林秘籍：03 好的创意选取-获得国奖的最必要前提摘要 …

阅读更多...

阶段测试

阶段测试

Sre网络班阶段测试一：用sed 命令修改/etc/fstab文件，删除文件中的空行，注释行，并保留文件备份（7分）答案写这里：二：用 find 命令查找出 /var/ 目录中大于1M且以db结尾的文件（7分）答案写这里：三：先判断当前主机是否安装了nginx包，如果没安装，则执行命令安装，…

阅读更多...

时间序列分析专题——利用SPSS专家建模器进行建模

时间序列分析专题——利用SPSS专家建模器进行建模

SPSS的专家建模器可以自动识别数据，给出最适合的模型，本章通过三个例题介绍如何使用SPSS实现时间序列分析。由于本人对时间序列分析的理解尚浅，做出模型后在论文上的呈现形式需要取查阅资料，以便更好地在论文上呈现在此之前，我们还需要了解时间序列分析的一些基础的名词 …

阅读更多...

如何在ubuntu上设置清华源

如何在ubuntu上设置清华源

如何在ubuntu上设置清华源 apt介绍 apt（Advanced Packaging Tool）是一个在 Debian 和 Ubuntu 中的 Shell 前端软件包管理器。 apt 命令提供了查找、安装、升级、删除某一个、一组甚至全部软件包的命令，而且命令简洁而又好记。 apt 命令执行需要超级管理员权限(root)。操作 …

阅读更多...

推荐文章

最新文章