一项国际卓越论文奖颁给了德州扑克?
这是真事。
最近,在美国人工智能协会举办的人工智能国际顶会——AAAI 2022上,大会卓越论文奖,颁给了一个轻量型德州扑克AI程序——AlphaHoldem。在和高水平德州扑克选手的对抗中,它的决策速度和各方面表现,已经达到人类专业玩家的水平。
而这项AI程序,就来自中国科学院自动化所的兴军亮团队。
打个扑克都能写论文?
这个德州扑克AI,到底有什么了不起?
德州扑克&人工智能
德州扑克和人工智能,普通人不管怎么看,第一反应都会觉得它俩之间,是风马牛不相及。但只要想一想那个和柯洁下围棋的AlphaGo,是不是就好理解了?
没错,这一次获奖的德州扑克AI——AlphaHoldem,就是类似AlphaGo的所在。只不过,在针对AlphaHoldem的训练过程中,它的训练模型是德州扑克。
用游戏做AI的训练模型,在人工智能领域,已经是很常见的一件事。
和围棋相比,德州扑克更能考验AI在信息不完备、对手不确定情况下的智能博弈技术。所以近几年来,业内公认德州扑克非常适合作为一个虚拟实验环境,对博弈的相关基础理论方法、核心技术算法,进行深入研究。
目前,比较主流的德州扑克AI核心思想,是利用一种“反事实遗憾最小化(CFR)”算法,逼近纳什均衡策略——即任意一位参与者,在其他所有参与者策略确定的情况下,他所做的策略都是“最优解”。
不过,这种方法一直有一个比较明显的缺陷:它太过依赖人类专家去进行博弈树抽象。这就意味着,无论是在进行AI训练还是最后对局,它都需要大量的计算和存储资源。而这,也成为限制德州扑克AI进一步发展的阻碍。
兴军亮团队之所以能在AAAI 2022上获得卓越论文奖,就是因为他们为AlphaHoldem采用了一种新的、基于端到端的深度强化学习算法。
打开凤凰新闻,查看更多高清图片端到端学习德州扑克AI学习框架
这种新算法将一种改进后的深度强化学习算法与一种新型的自博弈学习算法相结合,可以在不借助任何领域知识的情况下,直接从牌面信息端到端地学习候选动作,然后做出决策。
数据显示,AlphaHoldem每次决策的速度甚至都不到3毫秒,比之前同类AI决策速度快了1000倍。并且,AlphaHoldem与4位高水平德州扑克选手对抗1万局的结果也证明,它已经达到了人类专业玩家水平。
成为AI玩家“训练师”
研究成果得到国际主要学术组织的认可,是一件不俗的成绩。
但谁能想到,能取得这样成绩的兴军亮,居然是“半路出家”?他最初是研究计算机视觉的,简单来说就是教AI识别“是什么”。但随着研究的深入,兴军亮发现,只教会AI“是什么”,和真正的人工智能目标相差甚远。未来该怎么走,困扰了他很久。
兴军亮之所以有了用游戏训练AI的想法,最早还是受到了AlphaGo的启发。透过教AI下围棋,兴军亮发现,这个动作的实质其实是在解决AI领域的“认知智能”问题,让AI不但知道“是什么”,还能知道“为什么”。
再加上人工智能的发展历史上,游戏本身就是相关研究的试验场。用游戏训练出更厉害的AI,就成了兴军亮的目标。
为了全方位地了解不同类型游戏的机制,原本很少接触游戏的兴军亮开始培养自己的“网瘾”——找出代表型游戏、研究教程、练习手速、完成通关,哪一步都不必职业玩家少。
在这个过程中,兴军亮越发觉得,玩游戏是一件非常有意思的事。尤其是不同游戏的机制设置,非常适合用来研究一些基础的科学问题。这其中,就有游戏博弈。
就拿此次获奖的德州扑克AI程序来说,其本质就是一个不完美信息的博弈问题。因为按照德州扑克的游戏规则,每个人手上都有两张私有牌。牌面的大小并不影响最终的胜负,因为玩家完全可以通过假装牌面大、押注金额大等手段吓跑对手。
两人无限注德州扑克一次游戏过程示意
为了教会AI打德州扑克,兴军亮带着团队前后用了十多台服务器,集中算力,让AI不断跟自己打牌,20天的时间,就打了1亿局左右。
随后,他们又进一步提升了游戏学习的性能。这次,他们仅用1台服务器,训练不到3天,就能达到预期水平。
而在这个过程中,参与训练的AI能学会一些类似于人类专业选手才会掌握的计谋。而这,正是不完美信息博弈最有趣的地方。目前,兴军亮和团队打造的德州扑克在线人机对抗平台OpenHoldem(),目前已经对外开放。据兴军亮说,这个系统可能是国内唯一能公开打德州扑克的地方。
当然,兴军亮的目标绝不仅仅是带着AI攻略下一款款游戏。
像不完美信息博弈,这种机制,在经济政策的制定、法律法规的优化、外交策略的选择等领域,都有很广泛的应用。这些,是国际同行正在努力攻克的,也是国内相关研究比较薄弱的。
去训练出一个更聪明、更有用、可以和人类融为一体的人工智能,是兴军亮不懈追求的方向。