ĺ十一點 App:一個讓你在家享受賭場體驗的新時代【 德州撲克網頁版:挑戰你的戰術技巧和運氣】
---
文章目錄
二十一點 app:一個讓你在家享受賭場體驗的新時代
德州撲克網頁版:挑戰你的戰術技巧和運氣
【重磅】AI 首次在德州扑克战胜人类职业玩家,新算法让机器拥有"直觉"(附论文)
"二十一點 app:一個讓你在家享受賭場體驗的新時代"
二十一點 app:一個讓你在家享受賭場體驗的新時代
現在,你不需要去賭場才能享受刺激的二十一點遊戲。有了二十一點 app,你可以在家中輕鬆玩遊戲,同時感受到賭場的刺激和樂趣。
遊戲介紹<
>
二十一點是一種非常受歡迎的撲克牌遊戲,目標是讓你的牌面點數接近或等於21點,同時超過莊家的點數。這個 app 提供了真實的遊戲體驗,讓你感受到像在賭場一樣的刺激。
遊戲功能
多種不同的二十一點遊戲模式:這個 app 提供了多種不同的遊戲模式,包括傳統的二十一點、歐洲二十一點和拉斯維加斯二十一點。每種模式都有不同的規則和玩法,讓你可以根據自己的喜好選擇。
真實的賭場環境:這個 app 通過精美的圖形和音效,模擬了真實的賭場環境。你可以感受到賭桌上的氛圍,並與其他玩家進行互動。
多種下注選項:在遊戲中,你可以根據自己的策略和信心,選擇不同的下注選項。你可以下注小額金錢,也可以下注大額金錢,取決於你的風險偏好。
統計和排行榜:這個 app 還提供了統計和排行榜功能,讓你可以追蹤自己的遊戲進度和與其他玩家競爭。
讓我們舉個例子來展示這個 ap
遊戲過程:
你打開二十一點 app,進入遊戲大廳。
你選擇了傳統的二十一點遊戲模式。
你進入一個賭桌,坐下並開始遊戲。
你收到兩張牌,一張是8點,另一張是3點。
你決定再要一張牌,希望能接近或等於21點。
你得到了一張5點的牌,總點數為16點。
你決定再要一張牌,希望能接近21點。
你得到了一張2點的牌,總點數為18點。
你決定停止要牌,等待莊家的回合。
莊家翻開他的牌,總點數為19點。
莊家贏得了這局遊戲,你失去了下金錢。
這只是一個例子,你可以根據自己的策略和運氣來玩遊戲。無論你是想放鬆一下還是追求刺激,二十一點 app 都能滿足你的需求。
"德州撲克網頁版:挑戰你的戰術技巧和運氣"
德州撲克網頁版:挑戰
的戰術技巧和運氣
德州撲克是一種極富挑戰性的撲克遊戲,也是全球最受歡迎的撲克遊戲之一。現在,你可以在網頁版的德州撲克中挑戰自戰術技巧和運氣。
網頁版的德州撲克提供了一個真實的遊戲體驗,無需下載任何軟體,只需在瀏覽器中即可進行遊戲。你可以選擇與其他玩家進行多人對戰,也可以挑戰計
機,磨練你的技巧。
在德州撲克中,你需要運用數學、心理戰術以及對遊戲的洞察力,以贏得最大的籌碼。你需要在每一局中作出決策,評估自己的手牌及賭注,並根手的表現調整策略。
遊戲開始時,每位玩家會獲得兩張底牌,然後進行押注。接下來,五張公共牌會被翻開,玩家可以使用這些牌和自己的底牌組成最好的手牌。最後,根據手牌的強弱和的策略,決定贏家。
德州撲克網頁版提供了多種不同的賭注桌和遊戲模式,讓你根據自己的喜好進行遊戲。你可以選擇低賭注的桌子,磨練技巧,也可以選擇高
注的桌子,挑戰高手。
無論你是撲克新手還是老手,德州撲克網頁版都能夠提供你一個良好的遊戲體驗。你可以學習不同的戰術、分析其他玩家的,並提高自己的技巧。
還等什麼呢?立即進入網頁版的德州撲克,挑戰你的戰
巧和運氣,贏得豐厚的獎金吧!
【重磅】AI 首次在德州扑克战胜人类职业玩家,新算法器拥有"直觉"(附论文)
【重磅】AI 首次在德州撲克戰勝人類職業玩家,新算法讓機器擁有「直覺」論-騰訊雲
發者社區-
訊雲
新智元
0篇文章
【重磅】AI 首次在德州撲克戰勝人類職業玩家,新算法讓機器擁有「直覺
(附論文)<
<
>關注
者前往
欄
訊p>開
者社區
文檔
>意見r>
br>台
學習
活動
專區
工具
最新優惠活動文章/答案/技牛搜索
索<
n>
<
冊
<
頁
學習
活動
專區
工具
返回
官網社區首頁
>>專欄
>新智元
>【重磅】AI 首次在德州撲克戰勝人類職業玩家,新讓機器擁有「直覺」(附論文)【重磅】AI 首次在德州撲克戰勝人類職業玩家,法讓機器擁有「直覺附論
新智元
關注發佈於 2018-03-27 10:05:09
an>660
an>0發佈
-03-27 10:05:09
舉報【新智元導讀】
2017年剛開年,人機大戰激戰正酣:從圍棋上孤獨求敗的 Master 到人臉識別的小度,現在,國外科學家宣佈,機器已經在一對一的無限注德州撲克中贏過人類。撲克是典型的不完美信息博弈遊戲,也是人工智能面臨的長期挑戰。一對一無限注中包含10的160次方(1後面160個0)決策點(decision points)——每個點都根據出牌方的理解有不同的路徑。另外,作者還在論文中介紹了一種新的算法D
Stack,讓系統可以在比賽中擁有「直覺」。
來自加拿大和捷克的幾位計算機科學研究者近日在 arXiv 上貼出論文,介紹了一種用於不完美信息(例如撲克)的新算法,DeepStack 結合使用循環推理來處理信息不對稱,使用分解將計算集中在相關的決策上,並且使用一種深度學習技術從單人
戲中自動學習的有關撲克任意狀態的直覺形式。研究者在論文中稱,在一項有數十名參賽者進行的44000手撲克的比賽中,DeepStack 成為第一個對一無限注
撲克
敗職業撲克的電腦程式。
非完美信息博弈
遊戲長久以來都被認為是用來測量人工智能進步的一個基準。在過去的20年間,我們見證了許多遊戲程序已經在許多遊戲上超越了人類,比如西洋雙陸棋、跳棋、國際象棋、Jeopardy 、Atari 電子遊戲和圍棋。電腦程式在這些方面的成功涉及的都是信息的對稱性,也就是對於當下的遊戲狀態,所有的玩家能夠獲得的確定性信息是相同的。這種完美信息的屬性也是讓這些程序取得的算法的核心,比如,在遊戲中的局部搜索。
現代遊戲理論創建者、計算機先鋒 von Neumann 曾對無完美信息遊戲中的推理行為進行過解釋:「現實世界與此不同,現實世界包含有很多賭注、一些欺騙的戰術,還涉及你會思考別人會認為你將做什麼。」 von Neumann 最痴迷的一個遊戲是撲克,在這個遊戲中,玩家在得到自己的牌後,會輪流下注,讓對手跟注,他們或跟注或棄牌。撲克是一種非完美信息遊戲,玩家只能根據自己手上
牌提供的非對稱的信息來對遊戲狀態進行評估。
在一對一對戰(也就是只有兩位玩家)的有限下注德州撲克中,AI 曾經取得了一些成功。但是,一對一有限注的德州撲克,全部的決策點(decision points)只有不到10的14次方個。作為對比,計算機已經在圍棋上完勝人類專業棋手,圍棋是
個完美信息的遊戲,約包含有10的170次方個決策點。
非完美信息遊戲要求更複雜的推理能力。在特定時刻的正確決策依賴於對手所透露出來的個人信息的概率分佈,這通常會在他們的行動中表現出來。但是, 對手的行為如何暗示他的信息,反過來也要取決於他對我們的私人信息有多少了解,我們的行為已經透露了多少信息。這種循環性的推理正是為什麼一個人很難孤立地推理出遊戲的狀態
不過在完美信息遊戲中,這是局部搜索方法的核心。
在非完美信息遊戲中,比較有競爭力的AI 方法通常是對整個遊戲進行推理,然後得出一個完整的優先策略。CFR ( Counterfactual regret minimization)是其中一種戰術,使用自我博弈來進行循環推理,也就是在多次成功的循環中,通過採用自己的策略來對抗自己。如果遊戲過大,難以直接解決,常見的方法是先解決更小的、濃縮型的遊戲。最後,如果要玩最初的大型的遊戲,需要把原始版本的遊戲中設計的和行為進行轉移,到一個更「濃縮」的遊戲中完成。
雖然這一方法讓計算機在 HUNL 一類的遊戲中進行推理變得可行,但是,它是通過把HUNL下的10的160次方個場景壓縮到10的14次方縮略場景的來實現的。這種方法有很大的可能性會丟失
息,所有這類的程序離專業的人類玩家水平還差得很遠。
2015年,電腦程式 Claudico 輸給了一個專業撲克玩家團隊,並且是以較大的劣勢輸掉的比賽。此外,最近,在年度計算機撲克競賽中,人們發現,基於「濃縮」的電腦程式有着大量的缺點。其中4個使用了這一方法的電腦程式,其中包括從2016年來一直位列前茅的程序,被認為使用了一個局部最佳響應的技巧,使得在一個策略能輸掉多少這一決策上,產生一個更加接近下限的答案。所有這四個基於「濃縮」方法的程序都
能會輸得很慘,用量化來表示,是每局都棄牌所屬的四倍。
DeepStack 採用了一個完全不同的方法。它持續地使用CFR中的循環推理來處理信息不對稱的問題。但是,它並不會計算和存儲一個完整的優先策略用於博弈,所以也不需要進行簡要的提煉(濃縮)。反
在遊戲中,它會
每一個具體的場景出現時就進行考慮, 但是並不是獨立的。
通過使用一個快速的近似估計來代替某一種深度的計算,它能避免對整個遊戲的剩餘部分進行推理。這種估計可以被看成是 DeepStack 的直覺:在任何
能的撲克情境下,持有任何可能的個人牌的牌面大小的直覺。
最終,從某種程度上來説與人類的很像的 DeepStack 的直覺,是需要被訓練的。我們使用了隨機生成的撲克情景用深度學習進行訓練。最終,我們證明了,DeepStack從理論上來説是可行的,比起基於「濃縮」的方法,它能產生從實質上需要更少地探索的策略,同時,它也是世界上首個在HUNL遊戲中擊敗人類專業玩家的電腦程式,平均贏率超過450 mbb/g。(mbb/g,milli-big-blinds per game ,是用于衡量撲克玩家表現
數,50 mbb/g 可
為是一個較大的優勢,750mbb/g 就
手每局都棄牌的
。>神經網絡機器
習系統第一次戰勝人類職業玩家
跟職業選手對抗結果
為了把 DeepStack 跟人類專家相比較,我們僱用了國際撲克聯盟(International Federation of Poker)裏的專業撲克選手。選手們在4周中完成3000局比賽。為了激勵選手,給排名最高的前三(以AIVAT計)分別予以 5000加元、2500加元和1250加元的獎勵。比賽在2016年11月7日和12月12日之間在線上舉行,撲克選手可以選擇最多同時玩4局,這在線上很常見。總共有來自17個的33名選手跟 DeepStack 進行了較量。DeepStack 跟每個人比賽的表現如表 1:
表 1
br>
克選手較量結
,以 AIVAT 和所贏得的籌碼進行衡量,以 mbb/g 為單位。
比賽速度
分解計算和神經網絡評估在一個 GPU 上實現。這使得它可以一次快速批量調用反事實價值網絡上多個子公共樹。這是讓 DeepStack 變快的關鍵。在 Torch7 中開發,在 NVIDIA GeForce GTX 1080 顯卡上運行。很多以上的實現手段都是為了讓 DeepStack 快速運行,理想上是像人打牌一樣快。表 3 展示了 DeepStack 和人類在前一步驟的之後和提交下一個步驟之前的平均間隔時間。平均看來,DeepStack 比起人類選手快很多。不過我們要記住人類選手同時可以進行4局比賽(雖然很少有人進行兩局以上),所以當輪到人類選手比賽時,它可能正在另外一盤比賽上。
表 3: 人類和 DeepStack 的思考時間,DeepStack 在第
輪叫注(Pre-flop)平均時間超級快,這表明第一輪叫注時的狀態通常能命中緩存。
表 4: 不同程序使用局部最佳反饋(LBR:local best response)的最
。LBR 僅僅評估每一輪在下表中所列出的
。F, C, 1/2P, P ,2P 和 A 意義同上。
最佳反饋估值(Best-response Values) vs 自玩估值(Self-play Values)
DeepStack 在持續分解計算中採用自玩估值而非最佳反饋估值。之前的預測試用 CFR-D 解決更小的比賽,這表明自玩估值產生的策略通常攻擊性更小,與最佳反饋估值產生的策略相比,在和測試智能代理一對一的表現更好。圖 5 展示了一個例子,關於 DeepStack在特定第五張牌的博弈中有着不同數字的分解迭代的攻擊性。除了缺少對它
固性的理論評價,用自玩估值看上去就像最佳反饋估值一樣最終收斂至低攻擊性策略。
算法 DeepStack :讓機器擁有「直覺」
DeepStack 是一大類的序列不完美信息博弈的通用算法。我們將解釋 DeepStack 在 HUNL(heads-up no-limit,一對一無限注)德州撲克中的作用。撲克遊戲的狀態可以分為玩家的私人信息,即兩張牌面朝下的手牌,以及公共狀態,包括牌面朝上的公共牌和玩家的下注順序戲中公共狀態的可能序列形成公共樹,每個公共狀態有一個相關聯的子公共樹。見下圖
圖6:HUNL公共樹的一部分。紅色和湖藍色代表玩家的動作。綠色代表被翻開的公共牌。
DeepStack 算法試圖計算玩遊戲的低利用率策略,即,求解一個近似的納什均衡(Nash equilibrium)。DeepStack在玩牌期間計算這個策略,公共樹的狀態如圖7所示。這種本地的計算使得 DeepStack 在對現有算法來説規模太大的遊
中可推理,因為需要抽象出的遊戲的10的160次方決策點下降到10的14次方,這讓算法變得易處理。
圖7:DeepStack 概覽圖。(a)DeepStack 對在每個公共狀態的動作進行 re-solves,使用 depth-l
ed lookahead,其中子樹值算用訓練好的深度神經網絡(b)通過隨機生成的撲克狀態在玩牌前進行訓練(c)最終狀態如圖3.
DeepStack 算法由三個部分組成:針對當前公共狀態的本地策略計算(loc
br>
omputation),使用任意撲克狀態的學習價值函數的 depth-limited lookahead,以及預測動作的受限集合。
連續 Re-Solving
Own Action:將對手的反事實值替換為在為我們自己選擇動作的解決策略中計算的值。使用計算策略和貝葉斯規則更新我們自己的動作範圍。
Chance Action:用從最後一次分解為這個動作計算出的反事實值替換對手反事實值。通
新公共牌不可能的手牌,更新我們自己的範圍。
Opponent Action:不用做什麼。
Limited Lookahead 和 Sparse Trees
連續re-solving在理論上是可行的,但實際使用上不現實。它沒有維持一個完整的策略,除非遊戲接束,re-solving本身就很棘手。例如,對於第一次動作的re-solving需要為整個遊戲臨時計算近似解決方案。
深度神經網絡(DNN)已被證明在圖像和語音識別、自動生成音樂以及玩遊戲等任務上是強有力的模型。DeepStack 使用DNN和定製的架構作為它的 depth-limited lookahead其的價值函數。如圖8。訓練兩個獨立的網絡:一個在第一次三張公共牌被處理(flop網絡)後估計反事實值,另一個在處理第四張
共牌(turn網絡)後估計反事實值。一個輔助網絡用於在發任意公共牌之前加速對前面的動作的re-solving。
圖8:Deep Counterfactual Value Networks。網絡的輸入是pot的大小,公共牌和玩家範圍,玩
為bucket ranges。輸
來自七個完全連接的隱藏層,被後處理以保證值滿足零和限制(zero-sum constraint)。
CMU 又被截胡
近日,新智元在報道中提到,被稱為「人腦 vs 人工智能:跟不跟 」 的賽事將於1月11日在匹茲堡的 Rivers 賭場啓幕。比賽期間,職業
克手 Jason Les, Dong Kim, Daniel McAulay 和 Jimmy Chou 將在20天的時間和 CMU 電腦程式玩120000手一對一不限注的德州撲克。
CMU的人工智能系統名叫 Libratus ,相比去年失敗的 Claudico,於策略發生了改變。 Libratus 會用 Bridges 計算機實時計算新的終局解決方法和算法,而不是像 Claudico 那麼依賴終局。
另外laudico 常用的策略是 limping,這是一個撲克術語,指跟注混進去看看,而不是加注或者放棄。而 Libratus 偶爾也會這樣。
可以看到,和上文中提到的 DeepStack一樣,他們希望攻克的也是一對一(兩個選手)不限注的的德州撲克難題,這是一個極度複雜的,有10的160次方信息集——每個集合都根據出牌方的理解有不同的路徑。這個巨大的信息集比整個宇宙的原子數還多。
而綜合兩個機構的介紹,其使用的方法也有相似性,即採用實時計算。CMU的比賽於11日舉行,而這邊論文已經發佈在arXiv上,看起來,CMU又被截胡了。
Here's more information regarding 易游娛樂線上賭場 stop by our own site.
二十一點 app:一個讓你在家享受賭場體驗的新時代
德州撲克網頁版:挑戰你的戰術技巧和運氣
【重磅】AI 首次在德州扑克战胜人类职业玩家,新算法让机器拥有"直觉"(附论文)
"二十一點 app:一個讓你在家享受賭場體驗的新時代"
二十一點 app:一個讓你在家享受賭場體驗的新時代
現在,你不需要去賭場才能享受刺激的二十一點遊戲。有了二十一點 app,你可以在家中輕鬆玩遊戲,同時感受到賭場的刺激和樂趣。
遊戲介紹<
>
二十一點是一種非常受歡迎的撲克牌遊戲,目標是讓你的牌面點數接近或等於21點,同時超過莊家的點數。這個 app 提供了真實的遊戲體驗,讓你感受到像在賭場一樣的刺激。
遊戲功能
多種不同的二十一點遊戲模式:這個 app 提供了多種不同的遊戲模式,包括傳統的二十一點、歐洲二十一點和拉斯維加斯二十一點。每種模式都有不同的規則和玩法,讓你可以根據自己的喜好選擇。
真實的賭場環境:這個 app 通過精美的圖形和音效,模擬了真實的賭場環境。你可以感受到賭桌上的氛圍,並與其他玩家進行互動。
多種下注選項:在遊戲中,你可以根據自己的策略和信心,選擇不同的下注選項。你可以下注小額金錢,也可以下注大額金錢,取決於你的風險偏好。
統計和排行榜:這個 app 還提供了統計和排行榜功能,讓你可以追蹤自己的遊戲進度和與其他玩家競爭。
讓我們舉個例子來展示這個 ap
遊戲過程:
你打開二十一點 app,進入遊戲大廳。
你選擇了傳統的二十一點遊戲模式。
你進入一個賭桌,坐下並開始遊戲。
你收到兩張牌,一張是8點,另一張是3點。
你決定再要一張牌,希望能接近或等於21點。
你得到了一張5點的牌,總點數為16點。
你決定再要一張牌,希望能接近21點。
你得到了一張2點的牌,總點數為18點。
你決定停止要牌,等待莊家的回合。
莊家翻開他的牌,總點數為19點。
莊家贏得了這局遊戲,你失去了下金錢。
這只是一個例子,你可以根據自己的策略和運氣來玩遊戲。無論你是想放鬆一下還是追求刺激,二十一點 app 都能滿足你的需求。
"德州撲克網頁版:挑戰你的戰術技巧和運氣"
德州撲克網頁版:挑戰
的戰術技巧和運氣
德州撲克是一種極富挑戰性的撲克遊戲,也是全球最受歡迎的撲克遊戲之一。現在,你可以在網頁版的德州撲克中挑戰自戰術技巧和運氣。
網頁版的德州撲克提供了一個真實的遊戲體驗,無需下載任何軟體,只需在瀏覽器中即可進行遊戲。你可以選擇與其他玩家進行多人對戰,也可以挑戰計
機,磨練你的技巧。
在德州撲克中,你需要運用數學、心理戰術以及對遊戲的洞察力,以贏得最大的籌碼。你需要在每一局中作出決策,評估自己的手牌及賭注,並根手的表現調整策略。
遊戲開始時,每位玩家會獲得兩張底牌,然後進行押注。接下來,五張公共牌會被翻開,玩家可以使用這些牌和自己的底牌組成最好的手牌。最後,根據手牌的強弱和的策略,決定贏家。
德州撲克網頁版提供了多種不同的賭注桌和遊戲模式,讓你根據自己的喜好進行遊戲。你可以選擇低賭注的桌子,磨練技巧,也可以選擇高
注的桌子,挑戰高手。
無論你是撲克新手還是老手,德州撲克網頁版都能夠提供你一個良好的遊戲體驗。你可以學習不同的戰術、分析其他玩家的,並提高自己的技巧。
還等什麼呢?立即進入網頁版的德州撲克,挑戰你的戰
巧和運氣,贏得豐厚的獎金吧!
【重磅】AI 首次在德州扑克战胜人类职业玩家,新算法器拥有"直觉"(附论文)
【重磅】AI 首次在德州撲克戰勝人類職業玩家,新算法讓機器擁有「直覺」論-騰訊雲
發者社區-
訊雲
新智元
0篇文章
【重磅】AI 首次在德州撲克戰勝人類職業玩家,新算法讓機器擁有「直覺
(附論文)<
<
>關注
者前往
欄
訊p>開
者社區
文檔
>意見r>
br>台
學習
活動
專區
工具
最新優惠活動文章/答案/技牛搜索
索<
n>
<
冊
<
頁
學習
活動
專區
工具
返回
官網社區首頁
>>專欄
>新智元
>【重磅】AI 首次在德州撲克戰勝人類職業玩家,新讓機器擁有「直覺」(附論文)【重磅】AI 首次在德州撲克戰勝人類職業玩家,法讓機器擁有「直覺附論
新智元
關注發佈於 2018-03-27 10:05:09
an>660
an>0發佈
-03-27 10:05:09
舉報【新智元導讀】
2017年剛開年,人機大戰激戰正酣:從圍棋上孤獨求敗的 Master 到人臉識別的小度,現在,國外科學家宣佈,機器已經在一對一的無限注德州撲克中贏過人類。撲克是典型的不完美信息博弈遊戲,也是人工智能面臨的長期挑戰。一對一無限注中包含10的160次方(1後面160個0)決策點(decision points)——每個點都根據出牌方的理解有不同的路徑。另外,作者還在論文中介紹了一種新的算法D
Stack,讓系統可以在比賽中擁有「直覺」。
來自加拿大和捷克的幾位計算機科學研究者近日在 arXiv 上貼出論文,介紹了一種用於不完美信息(例如撲克)的新算法,DeepStack 結合使用循環推理來處理信息不對稱,使用分解將計算集中在相關的決策上,並且使用一種深度學習技術從單人
戲中自動學習的有關撲克任意狀態的直覺形式。研究者在論文中稱,在一項有數十名參賽者進行的44000手撲克的比賽中,DeepStack 成為第一個對一無限注
撲克
敗職業撲克的電腦程式。
非完美信息博弈
遊戲長久以來都被認為是用來測量人工智能進步的一個基準。在過去的20年間,我們見證了許多遊戲程序已經在許多遊戲上超越了人類,比如西洋雙陸棋、跳棋、國際象棋、Jeopardy 、Atari 電子遊戲和圍棋。電腦程式在這些方面的成功涉及的都是信息的對稱性,也就是對於當下的遊戲狀態,所有的玩家能夠獲得的確定性信息是相同的。這種完美信息的屬性也是讓這些程序取得的算法的核心,比如,在遊戲中的局部搜索。
現代遊戲理論創建者、計算機先鋒 von Neumann 曾對無完美信息遊戲中的推理行為進行過解釋:「現實世界與此不同,現實世界包含有很多賭注、一些欺騙的戰術,還涉及你會思考別人會認為你將做什麼。」 von Neumann 最痴迷的一個遊戲是撲克,在這個遊戲中,玩家在得到自己的牌後,會輪流下注,讓對手跟注,他們或跟注或棄牌。撲克是一種非完美信息遊戲,玩家只能根據自己手上
牌提供的非對稱的信息來對遊戲狀態進行評估。
在一對一對戰(也就是只有兩位玩家)的有限下注德州撲克中,AI 曾經取得了一些成功。但是,一對一有限注的德州撲克,全部的決策點(decision points)只有不到10的14次方個。作為對比,計算機已經在圍棋上完勝人類專業棋手,圍棋是
個完美信息的遊戲,約包含有10的170次方個決策點。
非完美信息遊戲要求更複雜的推理能力。在特定時刻的正確決策依賴於對手所透露出來的個人信息的概率分佈,這通常會在他們的行動中表現出來。但是, 對手的行為如何暗示他的信息,反過來也要取決於他對我們的私人信息有多少了解,我們的行為已經透露了多少信息。這種循環性的推理正是為什麼一個人很難孤立地推理出遊戲的狀態
不過在完美信息遊戲中,這是局部搜索方法的核心。
在非完美信息遊戲中,比較有競爭力的AI 方法通常是對整個遊戲進行推理,然後得出一個完整的優先策略。CFR ( Counterfactual regret minimization)是其中一種戰術,使用自我博弈來進行循環推理,也就是在多次成功的循環中,通過採用自己的策略來對抗自己。如果遊戲過大,難以直接解決,常見的方法是先解決更小的、濃縮型的遊戲。最後,如果要玩最初的大型的遊戲,需要把原始版本的遊戲中設計的和行為進行轉移,到一個更「濃縮」的遊戲中完成。
雖然這一方法讓計算機在 HUNL 一類的遊戲中進行推理變得可行,但是,它是通過把HUNL下的10的160次方個場景壓縮到10的14次方縮略場景的來實現的。這種方法有很大的可能性會丟失
息,所有這類的程序離專業的人類玩家水平還差得很遠。
2015年,電腦程式 Claudico 輸給了一個專業撲克玩家團隊,並且是以較大的劣勢輸掉的比賽。此外,最近,在年度計算機撲克競賽中,人們發現,基於「濃縮」的電腦程式有着大量的缺點。其中4個使用了這一方法的電腦程式,其中包括從2016年來一直位列前茅的程序,被認為使用了一個局部最佳響應的技巧,使得在一個策略能輸掉多少這一決策上,產生一個更加接近下限的答案。所有這四個基於「濃縮」方法的程序都
能會輸得很慘,用量化來表示,是每局都棄牌所屬的四倍。
DeepStack 採用了一個完全不同的方法。它持續地使用CFR中的循環推理來處理信息不對稱的問題。但是,它並不會計算和存儲一個完整的優先策略用於博弈,所以也不需要進行簡要的提煉(濃縮)。反
在遊戲中,它會
每一個具體的場景出現時就進行考慮, 但是並不是獨立的。
通過使用一個快速的近似估計來代替某一種深度的計算,它能避免對整個遊戲的剩餘部分進行推理。這種估計可以被看成是 DeepStack 的直覺:在任何
能的撲克情境下,持有任何可能的個人牌的牌面大小的直覺。
最終,從某種程度上來説與人類的很像的 DeepStack 的直覺,是需要被訓練的。我們使用了隨機生成的撲克情景用深度學習進行訓練。最終,我們證明了,DeepStack從理論上來説是可行的,比起基於「濃縮」的方法,它能產生從實質上需要更少地探索的策略,同時,它也是世界上首個在HUNL遊戲中擊敗人類專業玩家的電腦程式,平均贏率超過450 mbb/g。(mbb/g,milli-big-blinds per game ,是用于衡量撲克玩家表現
數,50 mbb/g 可
為是一個較大的優勢,750mbb/g 就
手每局都棄牌的
。>神經網絡機器
習系統第一次戰勝人類職業玩家
跟職業選手對抗結果
為了把 DeepStack 跟人類專家相比較,我們僱用了國際撲克聯盟(International Federation of Poker)裏的專業撲克選手。選手們在4周中完成3000局比賽。為了激勵選手,給排名最高的前三(以AIVAT計)分別予以 5000加元、2500加元和1250加元的獎勵。比賽在2016年11月7日和12月12日之間在線上舉行,撲克選手可以選擇最多同時玩4局,這在線上很常見。總共有來自17個的33名選手跟 DeepStack 進行了較量。DeepStack 跟每個人比賽的表現如表 1:
表 1
br>
克選手較量結
,以 AIVAT 和所贏得的籌碼進行衡量,以 mbb/g 為單位。
比賽速度
分解計算和神經網絡評估在一個 GPU 上實現。這使得它可以一次快速批量調用反事實價值網絡上多個子公共樹。這是讓 DeepStack 變快的關鍵。在 Torch7 中開發,在 NVIDIA GeForce GTX 1080 顯卡上運行。很多以上的實現手段都是為了讓 DeepStack 快速運行,理想上是像人打牌一樣快。表 3 展示了 DeepStack 和人類在前一步驟的之後和提交下一個步驟之前的平均間隔時間。平均看來,DeepStack 比起人類選手快很多。不過我們要記住人類選手同時可以進行4局比賽(雖然很少有人進行兩局以上),所以當輪到人類選手比賽時,它可能正在另外一盤比賽上。
表 3: 人類和 DeepStack 的思考時間,DeepStack 在第
輪叫注(Pre-flop)平均時間超級快,這表明第一輪叫注時的狀態通常能命中緩存。
表 4: 不同程序使用局部最佳反饋(LBR:local best response)的最
。LBR 僅僅評估每一輪在下表中所列出的
。F, C, 1/2P, P ,2P 和 A 意義同上。
最佳反饋估值(Best-response Values) vs 自玩估值(Self-play Values)
DeepStack 在持續分解計算中採用自玩估值而非最佳反饋估值。之前的預測試用 CFR-D 解決更小的比賽,這表明自玩估值產生的策略通常攻擊性更小,與最佳反饋估值產生的策略相比,在和測試智能代理一對一的表現更好。圖 5 展示了一個例子,關於 DeepStack在特定第五張牌的博弈中有着不同數字的分解迭代的攻擊性。除了缺少對它
固性的理論評價,用自玩估值看上去就像最佳反饋估值一樣最終收斂至低攻擊性策略。
算法 DeepStack :讓機器擁有「直覺」
DeepStack 是一大類的序列不完美信息博弈的通用算法。我們將解釋 DeepStack 在 HUNL(heads-up no-limit,一對一無限注)德州撲克中的作用。撲克遊戲的狀態可以分為玩家的私人信息,即兩張牌面朝下的手牌,以及公共狀態,包括牌面朝上的公共牌和玩家的下注順序戲中公共狀態的可能序列形成公共樹,每個公共狀態有一個相關聯的子公共樹。見下圖
圖6:HUNL公共樹的一部分。紅色和湖藍色代表玩家的動作。綠色代表被翻開的公共牌。
DeepStack 算法試圖計算玩遊戲的低利用率策略,即,求解一個近似的納什均衡(Nash equilibrium)。DeepStack在玩牌期間計算這個策略,公共樹的狀態如圖7所示。這種本地的計算使得 DeepStack 在對現有算法來説規模太大的遊
中可推理,因為需要抽象出的遊戲的10的160次方決策點下降到10的14次方,這讓算法變得易處理。
圖7:DeepStack 概覽圖。(a)DeepStack 對在每個公共狀態的動作進行 re-solves,使用 depth-l
ed lookahead,其中子樹值算用訓練好的深度神經網絡(b)通過隨機生成的撲克狀態在玩牌前進行訓練(c)最終狀態如圖3.
DeepStack 算法由三個部分組成:針對當前公共狀態的本地策略計算(loc
br>
omputation),使用任意撲克狀態的學習價值函數的 depth-limited lookahead,以及預測動作的受限集合。
連續 Re-Solving
Own Action:將對手的反事實值替換為在為我們自己選擇動作的解決策略中計算的值。使用計算策略和貝葉斯規則更新我們自己的動作範圍。
Chance Action:用從最後一次分解為這個動作計算出的反事實值替換對手反事實值。通
新公共牌不可能的手牌,更新我們自己的範圍。
Opponent Action:不用做什麼。
Limited Lookahead 和 Sparse Trees
連續re-solving在理論上是可行的,但實際使用上不現實。它沒有維持一個完整的策略,除非遊戲接束,re-solving本身就很棘手。例如,對於第一次動作的re-solving需要為整個遊戲臨時計算近似解決方案。
深度神經網絡(DNN)已被證明在圖像和語音識別、自動生成音樂以及玩遊戲等任務上是強有力的模型。DeepStack 使用DNN和定製的架構作為它的 depth-limited lookahead其的價值函數。如圖8。訓練兩個獨立的網絡:一個在第一次三張公共牌被處理(flop網絡)後估計反事實值,另一個在處理第四張
共牌(turn網絡)後估計反事實值。一個輔助網絡用於在發任意公共牌之前加速對前面的動作的re-solving。
圖8:Deep Counterfactual Value Networks。網絡的輸入是pot的大小,公共牌和玩家範圍,玩
為bucket ranges。輸
來自七個完全連接的隱藏層,被後處理以保證值滿足零和限制(zero-sum constraint)。
CMU 又被截胡
近日,新智元在報道中提到,被稱為「人腦 vs 人工智能:跟不跟 」 的賽事將於1月11日在匹茲堡的 Rivers 賭場啓幕。比賽期間,職業
克手 Jason Les, Dong Kim, Daniel McAulay 和 Jimmy Chou 將在20天的時間和 CMU 電腦程式玩120000手一對一不限注的德州撲克。
CMU的人工智能系統名叫 Libratus ,相比去年失敗的 Claudico,於策略發生了改變。 Libratus 會用 Bridges 計算機實時計算新的終局解決方法和算法,而不是像 Claudico 那麼依賴終局。
另外laudico 常用的策略是 limping,這是一個撲克術語,指跟注混進去看看,而不是加注或者放棄。而 Libratus 偶爾也會這樣。
可以看到,和上文中提到的 DeepStack一樣,他們希望攻克的也是一對一(兩個選手)不限注的的德州撲克難題,這是一個極度複雜的,有10的160次方信息集——每個集合都根據出牌方的理解有不同的路徑。這個巨大的信息集比整個宇宙的原子數還多。
而綜合兩個機構的介紹,其使用的方法也有相似性,即採用實時計算。CMU的比賽於11日舉行,而這邊論文已經發佈在arXiv上,看起來,CMU又被截胡了。
Here's more information regarding 易游娛樂線上賭場 stop by our own site.
Комментарии (0)
{related-news}
[/related-news]