打了一辈子德州,居然输给了新手AI!(中篇)

打了一辈子德州,居然输给了新手AI!(上篇):https://www.moshike.com/a/347.html

完美信息博弈类游戏

对于围棋游戏来说,是一场零和完美信息博弈,这是指在任何时刻,双方玩家都知道前面游戏的全部状态(完美信息),并且在有限步数之后游戏的结果非胜即负(零和)。

知道了游戏的有限状态,计算机就可以通过暴力枚举的方法来计算后面所有可能的下法,形成一颗巨大的搜索树,这颗搜索树可以列举出在当前状态下所有可能的下法,每个子搜索树都能独立求解,计算机就可以根据计算的结果安排对应的策略,从而达到最终的胜利。

举个栗子,比如,小明是一个普通中国家庭长大的小孩,在他的一生中,面临着很多个选择,如何才能在未来走向人生巅峰呢?如果可以列举出他未来所有的可能性,把每一步的选择拆解成“子未来”,那么就可以计算出成功胜算最大的选择了。(例子可能不够恰当,理解意思就好,嘻嘻)

小明同学的人生探险

所以,假设我们有无限大的计算资源,就可以将一局游戏的博弈拆解成一个一个的子博弈(列举出所有的可能性),从而计算出胜算最大的打法,就可以打赢比赛了。但是,以棋类游戏中比较简单的西洋棋来说,它的分支因子大概是40左右,这表示预测之后20步的动作需要计算40的20次方(这是多大,就算是1GHz的处理器,也要计算3486528500050735年),请注意,这还是比较简单的西洋棋。

所以,科学家们利用一些剪枝、搜索等算法以缩减计算范围,从而在有限的游戏时间内找出最佳策略。

不完美信息博弈类游戏

终于讲到了今天的主角,口袋德州。口袋德州(德州扑克)就是很典型的不完美信息博弈类游戏,它的策略设置中存在隐藏的信息。这类模型也有大量的应用场景,比如谈判、拍卖等等。不完美信息博弈不能如完美信息博弈那样通过分解而进行求解,因为一个子博弈的最佳策略可能依赖于其它尚未得到的子博弈的策略和输出。换句话说,我们无法通过预测到对方下注的多少从而猜测到对方手里的牌是什么,因为也许对方的牌并不好,但他通过下注欺骗你,让你选择弃牌。

所以,这件事对于没心机的计算机是相当困难的,对手第一手就all in了,但是他的牌到底好不好呢?

因此,当我看到AI在德州上也打败了人类,还些许有些小激动,maybe未来,机器人也可以具有女人的第六感了。那AI到底是如何打败人类的呢?论文中提及和很多很难理解(其实自己也看不太懂,逃)的算法,为了方便理解德州怎么玩,我们以一个简单的博弈模型来举例,试图理解聪明的AI。

我们来设计一个简单的游戏。

游戏玩家有A和B两人。A可以抛一次硬币,正反面都只有自己才可以看到,抛完后他有两个选择:①sell,卖掉硬币;②play,和B玩游戏。

if : A选择了sell:

if : 硬币落在正面,A卖掉后得到五毛钱;

else:硬币落在反面,A卖掉后输掉五毛钱。

if : A选择了play:

游戏继续,接下来由B来猜硬币是落在正面还是反面:

if : B猜对了,A赔一元,B赚一元;

else:B猜错了,A赚一元,B赔一元。

打了一辈子,居然输给了新手AI!(下篇):https://www.moshike.com/a/354.html

FAQ

您可以退出 WPT Global 吗?

可以退出 WPT Global 吗? 在进行首次提款之前,WPT Global 作为持牌运营商,要求新客户通过提供必要的文件来验证其帐户。这包括: 证明您身份的文件,例如驾驶执照

WPT Global Poker 2024 的奖金代码是什么?

WPT Global Poker 2023 的奖金代码是什么? 我们会节省您的时间。 WPT Global 的最佳红利代码是 WPT777。通过输入奖金代码,玩家首次存款即可获得 100% 高达 1,200 美元的欢迎奖金

吹牛几个人玩?

吹牛(又称撒谎,粤语又称大话啤、大话牌),是一种扑克牌游戏,类似“骰子吹牛”。 在游戏中,玩家的目的是先打完手上全部牌。 通常情况下,该游戏应由

四个人玩什么扑克?

干瞪眼是较流行的扑克牌游戏,号称比斗地主刺激10倍。 2-4人都能玩,打牌过程中,你的牌局命运变化多样,有可能最后一张牌,让你从落魄输家变成最

手机上可以玩WPT全球赛吗?

你可以在手机上玩WPT全球赛吗? 创建帐户以加入 WPT Global 扑克社区。选择您的扑克昵称,填写一些详细信息并验证您的电子邮件,然后就一切就绪了。 __将扑

本網站僅收集相關文章。如需查看原文,請複製並打開以下連結:打了一辈子德州,居然输给了新手AI!(中篇)

🔥 🎲 WPT全球真錢微撲克遊戲 😈
😘 最新文章 🎷 🎪 熱門文章 🎰
🎡 推薦文章 🎊