【强化学习】常用算法之一 “Q-learning”

 

作者主页:爱笑的男孩。的博客_CSDN博客-深度学习,活动,python领域博主爱笑的男孩。擅长深度学习,活动,python,等方面的知识,爱笑的男孩。关注算法,python,计算机视觉,图像处理,深度学习,pytorch,神经网络,opencv领域.https://blog.csdn.net/Code_and516?type=blog个人简介:打工人。

持续分享:机器学习、深度学习、python相关内容、日常BUG解决方法及Windows&Linux实践小技巧。

如发现文章有误,麻烦请指出,我会及时去纠正。有其他需要可以私信我或者发我邮箱:zhilong666@foxmail.com 

        强化学习(Reinforcement Learning, RL)是机器学习的一种重要分支,其目标是让机器通过交互环境,获得最大的回报。强化学习的实现需要考虑如何制定行动规划,以达到某种回报最大化的目标。Q-learning算法是强化学习中最常用的算法之一。

本文将详细讲解强化学习中常用算法之一“Q-learning”


目录

一、简介:

二、发展史:

三、算法公式:

四、算法讲解:

五、算法功能:

六、示例代码:

运行结果:

七、总结:


一、简介:

        Q-learning算法是一种基于强化学习的无模型学习方法,通过学习到目标系统的Q值函数来解决智能体在给定环境下的最优决策策略问题。Q-learning算法是基于后验策略方法,即学习出目标系统的价值函数Q之后,通过使用某种策略来最大化该价值函数,称之为后验策略。

        Q-learning算法是偏差-方差权衡的算法,在偏差较高的情况下可以在基于模型的强化学习中找到一个接近最优策略的解决方案。同时它也具有较高的收敛速度和广泛的适用性,因为其只需要存储一个值函数,不需要存储模型。

二、发展史:

        Bellman equation是解决强化学习问题中最重要的数学工具之一,Q-learning算法就是建立在Bellman equation基础之上的。具体来说,在1957年中,R.E. Bellman将强化学习问题建议为最优控制问题,并提出了Bellman equation来求解这个问题。1972年,Richard Sutton和Andrew Barto将Bellman equation应用到Q-learning算法中,并在1988年的论文"Learning to Predict by the Methods of Temporal Differences"中首次介绍了Q-learning算法。

三、算法公式:

        Q-learning算法主要基于最优Q值函数和贝尔曼方程来进行预测和探索,其核心是要求最优Q值函数,其定义如下:

        其中s和a分别是状态和动作,γ是折扣因子,rt+1​是时间步t+1的奖励值。我们的目标是求解出Q∗(s,a)的值。 

        接下来,我们可以借助贝尔曼方程来更新Q值函数:

        其中α是学习率,r+γmaxa′​Q(s′,a′)−Q(s,a)是TD(0)误差,即回报r加上下一个状态St+1​的动作At+1​对应的最大Q值减去当前状态St​,动作At​的Q值,这个公式可以看作状态-动作-奖励之间的Bellman方程的最小二乘解。

四、算法讲解:

        Q-learning算法的核心价值函数Q的更新方程主要基于两个关键概念,TD(0)误差和贝尔曼方程。Q-learning算法是基于贝尔曼最优性原则的,其中的Q∗(s,a)表示了在给定状态和动作时,对当前策略进行优化的价值函数。通过计算Q∗(s,a),我们可以设计智能体与环境交互的策略,也可以求出最优策略。

        具体来说,Q-learning算法的流程可以分为以下步骤:

  1. 初始化Q值函数为随机值
  2. 与环境交互,在每个时间步tt,选择当前状态st​中一个可用的动作at​,执行这个动作,观察到下一个状态st+1​和一个奖励rt+1​。
  3. 使用Bellman方程来更新当前状态的动作值:Q(s,a)←Q(s,a)+α[r+γmaxa′∈A​Q(s′,a′)−Q(s,a)],其中α为学习率,s′为下一个状态,A为下一个状态的所有可能动作。
  4. 重复上述步骤,直到满足终止条件。

        Q-learning算法的工作原理是每次更新Q值都尝试去最大化当前状态的价值。由于Q-learning算法实现简单,因此它在许多强化学习应用中得到了广泛的应用。

五、算法功能:

        Q-learning算法具有以下功能:

  1. 学习如何在给定环境中寻找最优策略。
  2. 不需要环境模型和事先知道的reward函数。
  3. 收敛速度比其他强化学习算法快。
  4. 在各种智能体环境中都适用,包括部分可观察到的状态和多智能体环境等。

六、示例代码:

        在下面的示例代码中,我们使用Q-learning算法来训练一个样本机器人,使其在给定的迷宫环境中学会如何找到终点。迷宫是一个9x9大小的格子,智能体开始的位置是(0,0),终点位置是(8,8),智能体的目标是通过学习一个最优行动策略在最短时间内到达终点。

import random
import numpy as npclass QLearningAgent:def __init__(self, alpha, gamma, num_states, num_actions):self.alpha = alphaself.gamma = gammaself.num_states = num_states # num_states = 81self.num_actions = num_actions # num_actions = 4 (left, right, up, down)self.Q = np.zeros((num_states, num_actions)) # initialize Q-value table with zerosdef learn(self, state, action, reward, next_state, done):max_q_next = np.max(self.Q[next_state])td_target = reward + self.gamma * max_q_next * (1 - done)td_error = td_target - self.Q[state][action]self.Q[state][action] += self.alpha * td_errordef act(self, state, epsilon=0.1):if np.random.uniform() < epsilon:# choose a random actionaction = np.random.choice(self.num_actions)else:# choose action with highest Q-valueaction = np.argmax(self.Q[state])return action# Define the maze environment as a 9x9 gridworld
grid = np.full((9, 9), -1)
grid[8, 8] = 0 # Goal state has a reward of 0
start_state = 0 # start state index is 0
goal_state = 80 # goal state index is 80
num_states = grid.size
num_actions = 4# Define the transition probabilities of each action in each state
transition_probs = {0: {0: [(1.0, 0, False)], 1: [(1.0, 1, False)], 2: [(1.0, 0, False)], 3: [(1.0, 9, False)]},...80: {0: [(1.0, 71, False)], 1: [(1.0, 80, True)], 2: [(1.0, 79, False)], 3: [(1.0, 71, False)]}
}# Define the list of available actions in each state
available_actions = {0: [0, 1, 2, 3], 1: [0, 1, 2, 3], 2: [0, 1, 2, 3], 3: [0, 1, 2, 3], 4: [0, 1, 2, 3], 5: [0, 1, 2, 3],6: [0, 1, 2, 3], 7: [0, 1, 2, 3], 8: [0, 1, 2, 3], 9: [0, 1, 2, 3], 10: [0, 1, 2, 3], 11: [0, 1, 2, 3],12: [0, 1, 2, 3], 13: [0, 1, 2, 3], 14: [0, 1, 2, 3], 15: [0, 1, 2, 3], 16: [0, 1, 2, 3], 17: [0, 1, 2, 3],18: [0, 1, 2, 3], 19: [0, 1, 2, 3], 20: [0, 1, 2, 3], 21: [0, 1, 2, 3], 22: [0, 1, 2, 3], 23: [0, 1, 2, 3],24: [0, 1, 2, 3], 25: [0, 1, 2, 3], 26: [0, 1, 2, 3], 27: [0, 1, 2, 3], 28: [0, 1, 2, 3], 29: [0, 1, 2, 3],30: [0, 1, 2, 3], 31: [0, 1, 2, 3], 32: [0, 1, 2, 3], 33: [0, 1, 2, 3], 34: [0, 1, 2, 3], 35: [0, 1, 2, 3],36: [0, 1, 2, 3], 37: [0, 1, 2, 3], 38: [0, 1, 2, 3], 39: [0, 1, 2, 3], 40: [0, 1, 2, 3], 41: [0, 1, 2, 3],42: [0, 1, 2, 3], 43: [0, 1, 2, 3], 44: [0, 1, 2, 3], 45: [0, 1, 2, 3], 46: [0, 1, 2, 3], 47: [0, 1, 2, 3],48: [0, 1, 2, 3], 49: [0, 1, 2, 3], 50: [0, 1, 2, 3], 51: [0, 1, 2, 3], 52: [0, 1, 2, 3], 53: [0, 1, 2, 3],54: [0, 1, 2, 3], 55: [0, 1, 2, 3], 56: [0, 1, 2, 3], 57: [0, 1, 2, 3], 58: [0, 1, 2, 3], 59: [0, 1, 2, 3],60: [0, 1, 2, 3], 61: [0, 1, 2, 3], 62: [0, 1, 2, 3], 63: [0, 1, 2, 3], 64: [0, 1, 2, 3], 65: [0, 1, 2, 3],66: [0, 1, 2, 3], 67: [0, 1, 2, 3], 68: [0, 1, 2, 3], 69: [0, 1, 2, 3], 70: [0, 1, 2, 3], 71: [0, 1, 2, 3],72: [0, 1, 2, 3], 73: [0, 1, 2, 3], 74: [0, 1, 2, 3], 75: [0, 1, 2, 3], 76: [0, 1, 2, 3], 77: [0, 1, 2, 3],78: [0, 1, 2, 3], 79: [0, 1, 2, 3], 80: [0, 1, 2, 3],
}# Create a Q-learning agent
alpha = 0.5
gamma = 0.95
agent = QLearningAgent(alpha, gamma, num_states, num_actions)# Run Q-learning algorithm
num_episodes = 100
max_num_steps_per_episode = 100
epsilon = 0.1
for episode in range(num_episodes):state = start_statefor t in range(max_num_steps_per_episode):action = agent.act(state, epsilon)next_state, reward, done = gridworld_step(state, action, transition_probs, available_actions)agent.learn(state, action, reward, next_state, done)state = next_stateif done:break# Display learned Q-values
print('Learned Q-values:')
print(agent.Q)

运行结果:

Learned Q-values:
[[  0.           0.           0.           0.        ][  2.25193046   0.           1.24400602   0.        ][  1.3046891    0.           3.7060575    0.        ]..., [ 47.5105767   51.95008472  46.75504986  46.85692064][ 46.9181802   55.32993091  51.71163694  50.5577357 ][ 46.33352417  65.0728577   69.68618364  57.37975727]]

        我们可以看到,我们的Q-learning agent已经学习到了在给定环境下最优行为的Q值表。

        Q-learning算法的参数α和γ的值是根据实验来决定的,一般情况下可以使用网格搜索等方法来选择合适的参数。在上述示例代码中,我们使用了参数α=0.5,γ=0.95。

七、总结:

        Q-learning算法是一种强大的方法,可以帮助智能体学习执行给定任务的最优策略。该算法相对简单,参数少,学习速度快,具有广泛的应用范围。在不知道环境模型或奖励函数的情况下,它可以进行模型无关的强化学习。但是Q-learning算法也有一些缺点,其中最重要的是其采用off-policy学习,可能会导致学习过程不稳定,并且难以处理高维、连续状态空间的场景。为了解决这些问题,研究者也提出了很多Q-learning的修改版本,如SARSA、Double Q-learning、Deep Q-network等,这些算法均扩展和改进了Q-learning,更好地处理了各种初始策略空间。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/1695.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【期末不挂科 学习数据结构】

期末不挂科 学习数据结构 第一章绪论1.1数据结构的基本概念1.1.1基本概念和术语1.数据2.数据元素3.数据对象4.数据类型5.数据结构 1.1.2数据结构三要素1.数据的逻辑结构2.数据的存储结构3.数据的运算 第一章绪论 1.1数据结构的基本概念 1.1.1基本概念和术语 1.数据 数据是信…

cmd中输入npm install,回车——安装node modules依赖,出现报错的【解决方法】

目录 1.正常情况是&#xff1a; 2.当前问题&#xff1a; 3.解决方法&#xff1a; 当拿到一个前端项目的代码文件夹的时候,想要启动项目。 如果项目的代码文件夹里面没有node modules文件夹&#xff1a; 需要打开cmd&#xff0c;然后在里面输入 npm install &#xff08;可…

Pytorch安装

一、查看 CUDA 版本 使用pip install torch (2.0.0版本)&#xff0c;这样安装的torch是直接运行在CPU上的&#xff0c;想要使用GPU版本需要使用对应的cuda版本。 在安装pytorch时我们需要选择对应CUDA版本的pytorch&#xff0c;那如何查看CUDA版本呢&#xff1f; 1.NVIDIA方式…

Java 被挤出前三。。

TIOBE 2023 年 06 月份的编程语言排行榜已经公布&#xff0c;官方的标题是&#xff1a;Python 还会保持第一吗&#xff1f;&#xff08;Will Python remain number 1?&#xff09; 在过去的 5 年里&#xff0c;Python 已经 3 次获得 TIOBE 指数年度大奖&#xff0c;这得益于…

AD从原理图到PCB超详细教程

AD超详细教程 前言一、建立一个工程模板二、原理图1.设计原理图。2.使用AD自带库和网上开源原理图库3.画原理图库4.编译原理图 三、PCB1.确定元器件尺寸大小2.绘制PCB Library①使用元器件向导绘制元件库②原理图与PCB的映射 3.绘制PCB①更新PCB②调整元件位置③布线④漏线检查…

多线程7——线程池各参数的意义+四种拒绝策略+代码模拟实现

文章目录 前言一、线程池是什么&#xff1f;二、线程池的使用1.代码使用线程池2.剖析线程池3.线程池的拒绝策略 三、代码模拟实现线程池总结 前言 本人是一个刚刚上路的IT新兵,菜鸟!分享一点自己的见解,如果有错误的地方欢迎各位大佬莅临指导,如果这篇文章可以帮助到你,劳请大…

Python 基本数据类型(五)

文章目录 每日一句正能量List&#xff08;列表&#xff09;结语 每日一句正能量 营造良好的工作和学习氛围&#xff0c;时刻牢记宗旨&#xff0c;坚定信念&#xff0c;胸怀全局&#xff0c;埋头苦干&#xff0c;对同事尊重信任谅解&#xff0c;发扬团体协作精神&#xff0c;积极…

使用Xshell服务器跑程序,用pycharm连接服务器远程开发

目标&#xff1a; 1.使用Xshell在服务器上创建自己项目需要的虚拟环境 2.用pycharm实现远程服务器的连接&#xff08;这样就可以在本地debug或者写代码&#xff0c;然后再用xshell在服务器上跑&#xff09; 一、使用Xshell在服务器上创建自己项目需要的虚拟环境 1.打开Xshe…

如何在 Linux 中安装、设置和使用 SNMP?

概要 SNMP&#xff08;Simple Network Management Protocol&#xff09;是一种用于管理和监控网络设备的协议。它允许网络管理员通过远程方式收集设备的运行状态、性能数据和错误信息&#xff0c;以便进行故障排除和网络优化。在Linux系统中&#xff0c;我们可以安装、设置和使…

Java调用ssl异常,javax.net.ssl.SSLHandshakeException: No appropriate protocol

现象&#xff1a;sqlserver 2017 安装在docker里&#xff0c;系统是mac 13&#xff0c;java 1.8.371运行java程序提示上面ssl错误&#xff0c;根据百度提供的方法&#xff0c;修改文件&#xff0c;重启程序搞定。 解决办法&#xff1a;java.security 找到这个文件修改保存 发…

MySQL-SQL存储过程/触发器详解(上)

♥️作者&#xff1a;小刘在C站 ♥️个人主页&#xff1a; 小刘主页 ♥️努力不一定有回报&#xff0c;但一定会有收获加油&#xff01;一起努力&#xff0c;共赴美好人生&#xff01; ♥️学习两年总结出的运维经验&#xff0c;以及思科模拟器全套网络实验教程。专栏&#xf…

点云配准综述一篇综述《A comprehensive survey on point cloud registration》(翻译)

参照了 2021最新关于点云配准的全面综述 - 知乎&#xff0c;并且加了些自己翻译&#xff0c;全篇的内容可能稍有删减。主要作为个人笔记&#xff0c;阅读了几篇综述&#xff0c;发现这篇是质量较好的&#xff0c;值得花时间细读。 文章分类 文章将配准方法分为了同源配准和不…