五子棋AI：实现逻辑与相关背景探讨（上）-编程知识

五子棋AI：实现逻辑与相关背景探讨（上）

news/2025/3/13 20:14:39/文章来源:https://www.cnblogs.com/SXWisON/p/18400902

绪论

本合集将详细讲述如何实现基于群只能遗传算法的五子棋AI，采用C++作为底层编程语言
本篇将简要讨论实现思路，并在后续的文中逐一展开

了解五子棋

五子棋规则

五子棋是一种经典的棋类游戏，规则简单却充满策略性。游戏在一个19×19的棋盘上进行（也可以使用13×13或15×15的棋盘）。游戏的目标是率先在棋盘上连成五个相同颜色的棋子（横向、纵向或斜向）。

基本规则：

棋子：游戏使用两种颜色的棋子，通常为黑白两色。
落子：玩家轮流在棋盘上放置自己的棋子。
胜利条件：第一个在直线上（横向、纵向或对角线）连成五个棋子的玩家获胜。

五子棋操作简单，规则易懂，但需要很高的策略和技巧才能赢得比赛。

人类玩家是如何下五子棋的？

以下是一些五子棋对决的思路：

控制中心区域

中心位置的重要性：棋盘中心的控制对游戏至关重要。控制中心区域可以给你更多的机会去创建和阻止对方的五子连线。

创建威胁

连线威胁：尽量让对方必须防守而不能专注于自己的进攻。
双活三：如果形成两个三子连线，并且这两个连线不会被对方轻易阻挡，就能够在几步内取得胜利。

防守对方的连线

观察对方的棋子布局：注意对方棋子的排列，尤其是对方试图形成的三子、四子连线。
及时阻挡：如果对方有连续的三子或四子的排列，应该优先阻挡对方的连线。

预判对方策略

猜测对方意图：了解对方的策略，预测对方的下一步棋，提前做出相应的防御或进攻。

AI应该如何模仿？

为了让AI棋手学会下五子棋，甚至超越人类玩家的水平，首先应当有以下步骤：

理解棋盘信息：将棋盘的状态转换为程序能够处理的格式。这通常包括将棋盘上每个位置的状态（如空白、黑子或白子）编码为特定的数据结构，以便程序可以进行分析和处理。
设定行为集合：定义AI可以执行的操作范围。在五子棋中，AI可以在棋盘上任意未被占据的位置落子。
设定决策模式：确定AI的决策方式。本例中，AI采用贪心策略，即在每一步中选择预期回报最高的行动。贪心策略通过评估每个可能的落子位置的即时收益，选择对当前局势最有利的行动。

理解棋盘信息

理论上来讲，能够给AI提供的信息越多，那么AI做出的决策质量就越高，对于棋盘信息可以以格子为单位，评估该格子对于己方、和敌方的价值。

举例来说，如果在此处落子，敌方可以构成五子连珠，那么对于地方而言这是非常高价值的格子，那么在己方回合，当务之急是在此处落子，阻止对方胜利，除非在其它位置落子己方可以胜出。

对此，我们可以对棋盘上每一个可行位置进行打分，评估其对于己方、敌方的价值。

如何定义该位置对己方的价值？

一枚棋子可以在四个方向上与其它棋子连成五子，即：水平、竖直、对角线、主对角线

description

可以采用如下方法判断在某一具体方向上的价值

在四个方向中选择某一方向
向正方向、负方向分别查找4格，如遇到空格或敌方棋子则提前停止
统计己方棋子个数，以及两端的被遮拦情况。

例如对于下图，在该处落子后，形成水平方向上的两子连珠，且一端有遮拦一端无遮拦

description

一共可能形成如下几种情形，我们可以依据经验公式评估其价值。

子数	1子	2子	3子	4子	5子
无遮拦	③	③	②	①	MAX
一端遮拦	-	-	③	②	①
两端遮拦	-	-	-	-	①

'-' 表明该位置在该方向上具有的价值较低，不予考虑。然而，如果其他方向上的情况更有利，那么该位置的价值仍然可能非常高。。

接下来，我们可以讨论棋子在多个方向上的价值，一般来说，仅需要考虑最高价值的两个方向。

这是因为两个活三（无遮拦的三子连珠）足以致胜，三个活三并没有明显优势。

价值	最优方向	次优方向
Lv1	MAX	?
Lv1	①	?
Lv2	②	②
Lv3	②	③
Lv3	②	-
Lv4	③	③
Lv4	③	-
Lv4	-	-

“?” 指代任意情况，例如(MAX-?)对应了(MAX-MAX)、(MAX-①)、(MAX-②)、(MAX-③)、(MAX-'-')

该定义方式将行为的优先级分为了四个等级

Lv1：下子直接取胜，或在一回合内取胜。
Lv2：下在大概率在若干回合内取胜。
Lv3：能够迫使对方一直防御。
Lv4：收益较低。

如何综合攻防？

若要综合攻防，必须将具体位置对敌方的价值考虑进去。倘若某一位置对敌方来说是高价值的，那我们在此处落子可以破坏敌方阵型，削弱敌方价值，同样我们可以给出如下价值表

综合价值排序	己方价值	敌方价值	对应的奖励数值
1	Lv1	?	\(2^{20}\)
2	?	Lv1	\(2^{16}\)
3	Lv2	?	\(2^{12}\)
4	？	Lv2	\(2^{8}\)
5	Lv3	？	\(2^{4}\)
6	Lv4	？	\(2^{0}\)

“?” 指代任意情况，例如(Lv1-?)对应了(Lv1-Lv1)、(Lv1-Lv2)、(Lv1-Lv3)、(Lv1-Lv4)
在进行判断时，应当从上往下逐一判断。

这里给出的奖励数值仅供参考。

总结

在本小节中，我们精心构建了一种全新的综合评估方法，旨在全面衡量棋盘上的每个格子对于己方和敌方的战略价值。通过设计一系列精细的量化指标，我们赋予了AI/计算机深入解读棋盘格局的能力，使其能够准确判断每个格子的具体价值。这一方法为AI/计算机制定决策提供了坚实的数据支撑。

行为集规定与决策制定

为了使AI做出高效的决策，我们首先需要定义一套合适且简洁的行为集合。这意味着AI在做出选择时，不必每次都逐一考虑棋盘上的所有位置。在此基础上，我们需要开发一种策略，帮助AI从众多可能的决策中筛选出最为恰当的一个。通过这种方式，AI能够在复杂的环境中迅速而准确地做出最佳决策。

ROI 感兴趣区域

倘若上一轮你在棋盘中心落子，那么下一轮你不应当在棋盘的最角落落子。

一般来说，在落子时，只有与已有棋子（无论是己方还是敌方）邻接的位子才具有价值，首先我们定义邻接。

考虑棋盘上只有一子的情形，规划出与其具有高价值“联动”的区域如下：

description

可以给出更具体的定义：

倘若一个格子位于另一格子的水平、竖直、主对角线或副对角线方向上，并且两格子距离小于等于2，那么称这两个格子为邻接关系。进一步的，称距离为1为强邻接，距离为2为弱邻接。

进一步的，我们定义感兴趣区域如下：

满足以下要求之一的空格子为感兴趣区域：

该格子是棋盘正中心。
该格子与至少一个己方棋子所处格子存在邻接关系。
该格子与至少一个敌方棋子所处格子存在强邻接关系。

下图给出了己方落子ROI区域的示例，其中红色为己方棋子，蓝色为对方棋子，灰色表示感兴趣区域。
description

决策进行

在进行决策前，我们可以评估感兴趣区域中所有格子的价值，假定ROI中格子的个数是\(N\)，格子的价值分别是\(x_0, x_1, ..., x_{N-1}\)，我们可以采用下述两种方法选择决策

硬最大值 hardmax

选择奖励最大的决策，即

\[h(\mathbf{x}) = \arg\max_{i} x_i \]

软最大值 hardmax
不同于硬最大值，软最大值以一定几率接受非最优解，其包含一个常量\(K\)，常量K越大表示对低价值决策的接受程度越大，当常量\(K\to 0\)时，软最大值退化为硬最大值；当常量\(K\to +\infty\)时，软最大值退化为随机抽取。

\[\text{softmax}(x_i) = \frac{e^{x_i/K}}{\sum_{j=1}^N e^{x_j/K}} \]

结语

下一篇中我们将继续讨论如何训练AI。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/793483.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

常用delphi IDE环境配置

常用delphi IDE环境配置

目录常用delphi XE IDE环境配置，大家都需要熟练一、android SDK ：二、环境变量 User System Overrides ：覆盖用户操作系统的全局配置参数：System Variables 操作系统层面的全局变量：其中：重要的，和自己个性化的：三、自己的类库路径四、测试工程默认路径五、…

阅读更多...

如果没有热风枪，如何组合热缩管的5种简单方法

如果没有热风枪，如何组合热缩管的5种简单方法

转载自：https://mil.sohu.com/a/779354413_120429259当谈到收缩热缩管时，没有什么比热风枪更好的了。但如果你没有，你该怎么办？请放心，您仍然可以在没有热风枪的情况下使用热缩管。它可以响应多种热源，因此您可以使用许多替代工具。在本文中，我列出了一些最流行的热收…

阅读更多...

17_电话号码的字母组合

17_电话号码的字母组合

17_电话号码的字母组合【问题描述】给定一个仅包含数字 2-9 的字符串，返回所有它能表示的字母组合。答案可以按任意顺序返回。给出数字到字母的映射如下（与电话按键相同）。注意1不对应任何字母。示例一：输入：digits = "23" 输出：["ad","ae&q…

阅读更多...

读软件设计的要素03概念的组合

读软件设计的要素03概念的组合

概念的组合1. 概念的组合 1.1. 概念不像程序那样，可以用较大的包含较小的1.1.1. 每个概念对用户来说都是平等的，软件或系统就是一组串联运行的概念组合1.2. 概念是通过操作来同步组合的1.2.1. 同步并不增加新的概念操作，但会限制已有的操作，从而消除一些独立概念可能会出现…

阅读更多...

南沙信C++陈老师解一本通题: 1101：不定方程求解

南沙信C++陈老师解一本通题: 1101：不定方程求解

【题目描述】给定正整数a，b，c。求不定方程 ax+by=c关于未知数x和y的所有非负整数解组数。【输入】一行，包含三个正整数a，b，c 两个整数之间用单个空格隔开。每个数均不大于1000。【输出】一个整数，即不定方程的非负整数解组数。【输入样例】 2 3 18 【输出样例】 4 #in…

阅读更多...

musl libc 与 glibc 在 .NET 应用程序中的兼容性

musl libc 与 glibc 在 .NET 应用程序中的兼容性

musl Linux 和 glibc 是两种不同的 C 标准库实现，它们在多个方面存在显著差异。历史和使用情况：glibc 是较早且广泛使用的 C 标准库实现，具有较长的开发历史和广泛的社区支持。它被大多数 Linux 发行版采用，特别是在桌面和服务器环境中。 musl 是一个相对较新的实现，旨在提…

阅读更多...

JDBC,SQL注入,事务,C3P0于Druid连接池(最详细解析)

JDBC,SQL注入,事务,C3P0于Druid连接池(最详细解析)

JDBCJDBC(Java DataBase Connectivty,Java数据库连接)API,是一种用于执行Sql语句的Java API,可以为关系型数据库提供统一的访问,其由一组Java编写的类和接口组成.JDBC驱动程序起初,SUN公司推出JDBC API希望能适用于所有数据库,但实际中是不可能实现的,各个厂商提供的数据库差异…

阅读更多...

Redis 入门 - 安装最全讲解（Windows、Linux、Docker）

Redis 入门 - 安装最全讲解（Windows、Linux、Docker）

最全的Redis安装教程，本文介绍了Redis在Windows（官方建议、脚本、可执行文件方式）、Linux（apt包管理器、源码编译）及Docker下的安装过程，详细步骤包括命令执行、文件操作等。经过上一章节的介绍，相信大家对Redis已经有了大致的认知，今天主要给大家详细讲解Redis在Windo…

阅读更多...

WPF在UserControl使用MVVM模式实现窗体移动，最大化，最小化，关闭

WPF在UserControl使用MVVM模式实现窗体移动，最大化，最小化，关闭

1、在WPF中，我们移动窗体，可以使用MouseDown或者MouseLeftButtonDown去触发DragMove方法 2、当我们使用UserControl的时候，它是没有DragMove方法的，这个时候怎么办我们改为命令的形式，可以直接调出当前的窗体，或者将窗体当参数传入到ViewModel，也没问题我写了 <i:I…

阅读更多...

ATTCK红队评估（红日靶场2）CS篇

ATTCK红队评估（红日靶场2）CS篇

靶机介绍红队实战系列，主要以真实企业环境为实例搭建一系列靶场，通过练习、视频教程、博客三位一体学习。本次红队环境主要Access Token利用、WMI利用、域漏洞利用SMB relay，EWS relay，PTT(PTC)，MS14-068，GPP，SPN利用、黄金票据/白银票据/Sid History/MOF等攻防技术。关…

阅读更多...

esp32笔记[18]-使用汇编在riscv架构的esp32c3点灯

esp32笔记[18]-使用汇编在riscv架构的esp32c3点灯

使用esp-idf工具链编译汇编程序实现在riscv架构的esp32c3点灯. Compiling an assembly program using the esp-idf toolchain to blink an LED on the RISC-V based ESP32-C3.摘要使用esp-idf工具链编译汇编程序实现在riscv架构的esp32c3点灯. Abstract Compiling an assembly…

阅读更多...

linux系统基础

linux系统基础

阅读更多...

推荐文章

最新文章