机器学习-强化学习扩充-编程知识

机器学习-强化学习扩充

news/2025/1/11 20:39:49/文章来源:https://blog.csdn.net/uncle_ll/article/details/136244663

在这里插入图片描述
AI = RL + DL

基于Action，Enviroment给予Reward

enviroment是对手

alpha go is supervised learning + reinforcement learning

学两个agent，让两个互相沟通。

使用一些预定义的规则来判断对话的好坏。

更多应用

在这里插入图片描述

强化学习的困难就是奖励延迟，需要各种探索

在这里插入图片描述
alpha go：policy-based + value-based + model-based

在这里插入图片描述
更多学习资料

Policy-based 方法

Learning an Actor
在这里插入图片描述

在这里插入图片描述
使用神经网络代替查找表的优势是：generative 泛化能力

在这里插入图片描述

actor实际的去玩，来表现这个actor的好坏

在这里插入图片描述
好的期望值如何计算呢？

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/496881.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

android后端开发书籍，阿里内部核心Android进阶手册

android后端开发书籍，阿里内部核心Android进阶手册

努力的人，应该像好色那样好学做Android开发的同学，对Gradle肯定不陌生，我们用它配置、构建工程，可能还会开发插件来促进我们的开发，我们必须了解Gradle，而不仅限于只会当配置构建工具，我想学习…

阅读更多...

only office-用着确实很省心

only office-用着确实很省心

小程一言最近一直在使用各种办公软件进行学习笔记整理，但是在使用过程中，总感觉不是自己想要的一款软件，想要一款真正懂自己的软件，是一个选择的过程。最近在网上闲逛发现一款宝藏软件，好奇心驱使我去进行适用&#…

阅读更多...

【MySQL】基本查询（表的增删改查）-- 详解

【MySQL】基本查询（表的增删改查）-- 详解

CRUD：Create（创建），Retrieve（读取），Update（更新），Delete（删除）。一、Create insert [into] table_name [(column [, column] ...)] v…

阅读更多...

Jenkins与服务器时间不一致

Jenkins与服务器时间不一致

问题复现今天在Jenkins上设置定时部署项目时，发现Jenkins显示的时间与Linux系统显示的时间不一致，这太难过了，必须保持颗粒度一致。解决办法 ①查看当前服务器上的时区因为是CentOS系统，直接通过以下命令即可查看时区&#xf…

阅读更多...

Java Stream流指南：优雅处理集合数据

Java Stream流指南：优雅处理集合数据

文章目录一、为什么要使用stream流呢？二、如何获取Stream流？三、Stream流的中间方法四、Stream流的终结方法总结一、为什么要使用stream流呢？ 想必我们在日常编程中，会经常进行数据的处理，我们先来看看没有stram流时…

阅读更多...

要在Javascript中实现表格新增行功能，且添加元素，增删操作

要在Javascript中实现表格新增行功能，且添加元素，增删操作

起始表格元素： <div class"container"><table id"myTable"><caption><h3>员工信息管理系统</h3></caption><thead><tr>&…

阅读更多...

Java设计模式 | 七大原则之迪米特法则

Java设计模式 | 七大原则之迪米特法则

基本介绍一个对象应该对其他对象保持最少的了解类与类关系越密切，耦合度越大迪米特法则（Demeter Principle）又叫最少知道法则，即一个类对自己依赖的类知道的越少越好。也就是说，对于被依赖的类不管多么复杂&#xff…

阅读更多...

一文带你了解MySQL之B+树索引的原理

一文带你了解MySQL之B+树索引的原理

前言学完前面我们讲解了InnoDB数据页的7个组成部分，知道了各个数据页可以组成一个双向链表，而每个数据页中的记录会按照主键值从小到大的顺序组成一个单向链表，每个数据页都会为存储在它里边儿的记录生成一个页目录，在通过主键查…

阅读更多...

Langchain-Chatchat：离线运行的大模型知识库 | 开源日报 No.182

Langchain-Chatchat：离线运行的大模型知识库 | 开源日报 No.182

chatchat-space/Langchain-Chatchat Stars: 22k License: Apache-2.0 基于 ChatGLM 等大语言模型与 Langchain 等应用框架实现的开源、可离线部署的检索增强生成 (RAG) 大模型知识库项目。该项目是一个可以实现完全本地化推理的知识库增强方案，重点解决数据安全保护…

阅读更多...

二分查找讲解

二分查找讲解

关于我为什么要写单独开一篇文章写二分,实际上那么多困难的算法,比如线段树,并查集等等都没有难倒我,我最近却被二分难倒了,而且是两次,两次在赛场上做不出来二分的应用题,于是我决定写一篇二分查找的算法总结.刚接触算法的时候本来是要写一篇的,但后面因为各种原因搁置了,现在…

阅读更多...

Mybatis插入数据时有外键怎么办？

Mybatis插入数据时有外键怎么办？

今天在写代码的时候遇到了一个问题： 比方说我的数据库如下： 其中work_position和auth都是外键，关联了另一张表。但我现在要往mysql里插入一条数据，如下： insert into t_employee_info(salary, work_time, work_posi…

阅读更多...

LeetCode_Java_动态规划系列(3)（题目+思路+代码）

LeetCode_Java_动态规划系列(3)（题目+思路+代码）

338.比特位计数给你一个整数 n ，对于 0 < i < n 中的每个 i ，计算其二进制表示中 1 的个数 ，返回一个长度为 n 1 的数组 ans 作为答案。 class Solution {public int[] countBits(int n) {/** 思路：* 1.创建一个长度为 n…

阅读更多...

推荐文章

最新文章