通过无模型多代理强化学习掌握Stratego游戏

Stratego是一款流行的双人不完美信息棋盘游戏。由于其复杂性源于其巨大的游戏树、在不完善的信息下进行决策以及一开始的分段部署阶段,Stratego对人工智能(AI)构成了挑战。以前的计算机程序充其量只在业余水平上运行。

Perolat等人引入了一种无模型的多代理强化学习方法,并表明它可以在Stratego中实现人类专家级绩效。目前的工作不仅增加了越来越多的游戏,人工智能系统可以玩得和人类一样好,甚至比人类更好,而且还可能促进强化学习方法在现实世界、大规模多代理问题中的进一步应用,这些问题的特点是信息不完善,因此目前无法解决。

我们介绍了DeepNash,一个在人类专家层面玩不完美的信息游戏Stratego的自主代理。Stratego是人工智能(AI)尚未掌握的为数不多的标志性棋盘游戏之一。

这是一个以双重挑战为特征的游戏:它需要像国际象棋一样进行长期的战略思维,但它也需要像扑克一样处理不完美的信息。

支撑DeepNash的技术使用一种游戏理论、无模型的深度强化学习方法,无需搜索,通过从头开始的自我游戏来学习掌握Stratego。DeepNash击败了Stratego中现有的最先进的人工智能方法,并在Gravon游戏平台上实现了年初至今(2022年)和历史前三名,与人类专家玩家竞争。

 

Stratego是一款流行的双人不完美信息棋盘游戏。由于其复杂性源于其巨大的游戏树、在不完善的信息下进行决策以及一开始的分段部署阶段,Stratego对人工智能(AI)构成了挑战。以前的计算机程序充其量只在业余水平上运行。

Perolat等人引入了一种无模型的多代理强化学习方法,并表明它可以在Stratego中实现人类专家级绩效。目前的工作不仅增加了越来越多的游戏,人工智能系统可以玩得和人类一样好,甚至比人类更好,而且还可能促进强化学习方法在现实世界、大规模多代理问题中的进一步应用,这些问题的特点是信息不完善,因此目前无法解决。

我们介绍了DeepNash,一个在人类专家层面玩不完美的信息游戏Stratego的自主代理。Stratego是人工智能(AI)尚未掌握的为数不多的标志性棋盘游戏之一。

这是一个以双重挑战为特征的游戏:它需要像国际象棋一样进行长期的战略思维,但它也需要像扑克一样处理不完美的信息。

支撑DeepNash的技术使用一种游戏理论、无模型的深度强化学习方法,无需搜索,通过从头开始的自我游戏来学习掌握Stratego。DeepNash击败了Stratego中现有的最先进的人工智能方法,并在Gravon游戏平台上实现了年初至今(2022年)和历史前三名,与人类专家玩家竞争。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/2869.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AD20|原理图导入Pcb时三极管引脚报错 Unkown Pin:Pin Q1-B

完成原理图绘制后,将其导入到Pcb中进行布局时,出现报错;Unknown Pin: Pin Q1-B. 原因是:引脚名称不一致 在原理图中,三个引脚分别定义B、C、E; 而在常见的TO—92A封装中,使用1、2、3作为三个引脚的名称&am…

Windows 下编译 OpenCV 和 OpenCV-contrib

文章目录 导言环境准备源码获取环境获取 配置 CMake 并编译ConfigureGenerate 生成项目总结 导言 在本文中,我们将介绍如何在 Windows 系统下编译 OpenCV 和 OpenCV-contrib。OpenCV 是一个开源的计算机视觉库,它包含了许多图像处理和计算机视觉的功能。…

VS+OpenCV字符动画ikun打篮球

目录 一、环境搭建实现效果模糊知识点资源 一、环境搭建 Visual Studio 2019VSopenCVVS2019配置opencv4.6.0手把手一步一步实现导出OpenCV的VS项目模板从第四步导出项目模板开始看VS安装easyx图形库教程easyx.h报错:无法打开源文件 “xxx.h“ 的解决办法 使用默认的…

Android 图形系统-图解和初步探究

Android 图形系统-图解和初步探究_猎羽的博客-CSDN博客https://blog.csdn.net/feather_wch/article/details/131486729 Android图形系统 2023-7-1 问题:如何将一帧画面显示到屏幕上? 绘制流程 Activity代码 Window的结构 绘制流程 Activity启动后&a…

深度学习(24)——YOLO系列(3)

深度学习(24)——YOLO系列(3) 文章目录 深度学习(24)——YOLO系列(3)1. BOF(bag of freebies)2. Mosaic data augmentation3. 数据增强4. self-adversarial-training(SAT…

Mysql的SQL性能分析【借助EXPLAIN分析】

性能分析 要说sql有问题,需要拿出证据,因此需要性能分析 Mysql查询优化器(Mysql Query Optimizer) Mysql中有专门负责优化SELECT语句的优化器模块,主要功能:通过计算分析系统中收集到的统计信息&#xf…

Spring的存储与获取Bean

Spring的存储与获取Bean 🔎Spring—存储Bean配置扫描路径利用类注解进行存储添加注解存储Bean关于Id为什么需要五个类注解类注解之间的关系 利用方法注解进行存储关于Id 🔎Spring—获取Bean属性注入Set注入构造方法注入总结(Spring的注入方式? 它们之间…

An unexpected connection driver error occured

安装下载好rabbitmq,我在springboot整合mq,启动的时候报错了 An unexpected connection driver error occured 后来又报 Failed to check/redeclare auto-delete queue(s). 综合就是连接问题,端口有问题 我试过添加账户,提高权限&…

【架构】领域驱动设计(DDD)的几种典型架构介绍

文章目录 前言一、专业术语二、架构演变三、限界上下文四、领域驱动设计的四重边界五、整洁分层架构六、六边形架构七、洋葱架构总结 前言 我们生活中都听说了DDD,也了解了DDD,那么怎么将一个新项目从头开始按照DDD的过程进行划分与架构设计呢&#xff…

解决页面等比缩放问题

近些年可视化数据大屏技术早已成熟,在市场上相关技术也是五花八门;通常情况是自行开发,要不找技术比较成熟大厂定制,或者使用较成熟的低代码平台实现。 技术门槛比较低,不过在数据大屏项目实施过程中会发现&#xff0c…

深入理解深度学习——BERT派生模型:BART(Bidirectional and Auto-Regressive Transformers)

分类目录:《深入理解深度学习》总目录 UniLM和XLNet都尝试在一定程度上融合BERT的双向编码思想,以及GPT的单向编码思想,同时兼具自编码的语义理解能力和自回归的文本生成能力。由脸书公司提出的BART(Bidirectional and Auto-Regre…

CDH 之 Hive 中文乱码平定通用法则

一、乱象 1.1 中文注释乱码 hive> DESCRIBE test; OK # col_name data_type comment id string ??ID ?? pcs string ????? …