推广 热搜： 采购方式滤芯带式称重给煤机甲带气动隔膜泵减速机型号无级变速机链式给煤机履带减速机

2025中国人工智能学会系列白皮书⸺棋盘上的人工智能|附下载

日期：2026-03-01 12:30:04 来源：网络整理作者：本站编辑评论：0

前言

计算机博弈是人工智能领域的重要应用，它以高对抗性的棋牌类游戏项目为研究对象，具有怡神益智、评判客观、挑战无穷的特点。近年来，随着人工智能、大模型等技术的飞速发展，计算机博弈模型能够自主学习复杂的策略和技能、处理更加复杂的博弈任务，成为衡量AI智能水平的重要领域之一。从棋类博弈到电子游戏，机器博弈不仅是技术进步的展示窗口，更是人类智慧与机器智能交互融合的舞台。未来，计算机博弈领域将继续快速发展，技术的融合和创新将推动该领域达到新的高度。

本书编写的指导思想是：通识技术和专项技术相结合，依托具体的棋牌类项目，介绍国内外相关技术的应用方法与进展。本书主要介绍了机器博弈的发展历程、国内外研究现状、复杂度分析、机器博弈的典型技术、平台技术，完备信息博弈和非完备信息博弈的关键技术、以及国内外赛事等，提出了机器博弈未来的发展趋势。期望该书的出版能促进全社会对机器博弈、以及人工智能的整体认知和应用水平。：

一、机器博弈的发展脉络：从“智能测试”到“通用决策引擎”

白皮书清晰梳理了机器博弈的四个发展阶段，本质是“人工智能能力的具象化测试”到“通用战略智能载体”的跃迁：

萌芽阶段（1920s-1950s）：
理论奠基期。冯·诺依曼（1928年极大极小值定理）、图灵（1950年纸上国际象棋程序）、香农（1950年象棋编程方案）、麦卡锡（1956年Alpha-Beta剪枝）等学者建立了博弈论与搜索算法的理论基础，将“机器思考”从哲学问题转化为可计算问题。
发展阶段（1960s-1990s）：
工程化突破期。塞缪·塞缪尔（1959年西洋跳棋程序击败州冠军）、IBM“深思”（1988年击败丹麦特级大师）、“深蓝”（1997年击败卡斯帕罗夫）等事件，标志机器博弈从“玩具”走向“挑战人类顶级智能”，核心是搜索算法的优化（如Alpha-Beta剪枝、并行搜索）。
深度学习阶段（2010s-2020s）：
范式革命期。AlphaGo（2016年击败李世石）将深度学习+蒙特卡洛树搜索（MCTS）结合，突破传统搜索的“算力瓶颈”；AlphaZero（2017年无人类数据自对弈）实现“通用棋类智能”；Libratus（2017年击败德州扑克人类高手）攻克非完备信息博弈，标志机器博弈从“完备信息”向“真实世界复杂场景”延伸。
融合创新阶段（2020s至今）：
通用化与产业化期。大语言模型（LLM）与博弈的结合（如MARS框架）、多智能体强化学习（MARL）、软硬件协同（机器人五子棋、坦克大战）成为热点，机器博弈从“游戏”转向“智能决策引擎”（如军事推演、金融交易、自动驾驶）。

二、机器博弈的核心技术：从“搜索”到“认知”的跃迁

白皮书第4章“典型技术”系统总结了机器博弈的16类关键技术，核心逻辑是“用算法模拟人类决策”，可分为传统搜索、智能优化、认知学习三大类：

1. 传统搜索算法：解决“状态空间爆炸”

穷尽搜索：极大极小算法（基础）、负极大值算法（简化实现），适用于小规模博弈（如 tic-tac-toe）。
裁剪搜索：Alpha-Beta剪枝（减少无效节点）、渴望搜索（缩小窗口）、MTD(f)（零窗口迭代），是多数博弈程序的“基础引擎”。
启发式搜索：置换表（存储已搜索节点）、历史启发（优先好着法）、杀手启发（优先剪枝过的着法），提升搜索效率。
随机搜索：蒙特卡洛树搜索（MCTS，适用于围棋、六子棋）、UCT（UCB+树搜索，平衡探索与利用），解决“高分支因子”问题（如围棋的10^170状态空间）。

2. 智能优化算法：提升“决策质量”

遗传算法：模拟自然选择优化评估函数（如中国象棋、亚马逊棋的估值参数），适用于“多目标优化”。
并行计算：SMP（单机多线程）、Cluster（多机集群），利用GPU/TPU加速深度学习训练与搜索。
微分博弈：连续时间动态博弈（如追逃问题、兵棋推演），结合最优控制理论。

3. 认知学习算法：实现“类人智能”

神经网络与深度学习：卷积神经网络（CNN，提取棋盘空间特征）、循环神经网络（RNN，处理序列决策）、Transformer（长程依赖建模），如AlphaGo的“策略网络+价值网络”。
强化学习（RL）：Q-Learning（离散动作）、DQN（深度Q网络）、PPO（近端策略优化），通过“自对弈”学习策略（如AlphaZero、Suphx麻将AI）。
多智能体强化学习（MARL）：中心化训练+去中心化执行（如桥牌、斗地主的农民协作），解决“多角色对抗/合作”问题。
贝叶斯网络与概率推理：处理非完备信息（如军棋的棋子可能性矩阵、德州扑克的对手手牌推断），核心是“信念更新”。

三、国内外机器博弈现状：从“跟随”到“局部领先”

白皮书第2章“发展状况”对比了国外（基础研究主导）与国内（应用与工程主导）的差异：

1. 国外：基础理论与通用算法引领

机构：DeepMind（Alpha系列）、OpenAI（OpenAI Five、GPT-4博弈）、卡内基梅隆（Libratus、Pluribus）、阿尔伯塔大学（CFR算法）。
核心贡献：提出Alpha-Beta剪枝、MCTS、CFR（反事实遗憾最小化）、AlphaZero通用框架，定义“深度学习+博弈”的范式。
应用：游戏（星际争霸、Dota2）、金融（扑克AI）、军事（兵棋推演）。