AI 決策能力再突破,騰訊絕藝登頂日本麻將平臺
7 月 11 日,騰訊宣布自研棋牌類 AI “絕藝LuckyJ” 在國際知名麻將平臺“天鳳”上達到十段水平,刷新了 AI 在麻將領域的最好成績?!敖^藝LuckyJ” 展現(xiàn)了在非完美信息博弈游戲中的優(yōu)秀決策水平,進一步提升了AI解決現(xiàn)實世界問題的能力。 日本在線麻將競技平臺“天鳳”創(chuàng)建于 2006 年,擁有體系化的競技規(guī)則和專業(yè)段位規(guī)則,受到職業(yè)麻將界的廣泛認可。截至目前,天鳳平臺活躍人數(shù) 2
2023-07-11 14:59:10
來源:丁科技網(wǎng)??

7 月 11 日,騰訊宣布自研棋牌類 AI “絕藝LuckyJ” 在國際知名麻將平臺“天鳳”上達到十段水平,刷新了 AI 在麻將領域的最好成績?!敖^藝LuckyJ” 展現(xiàn)了在非完美信息博弈游戲中的優(yōu)秀決策水平,進一步提升了AI解決現(xiàn)實世界問題的能力。

日本在線麻將競技平臺“天鳳”創(chuàng)建于 2006 年,擁有體系化的競技規(guī)則和專業(yè)段位規(guī)則,受到職業(yè)麻將界的廣泛認可。截至目前,天鳳平臺活躍人數(shù) 23.8萬,而能達到十段的僅 27 人(含AI),不到萬分之一。

相比其他麻將AI和人類玩家,“絕藝 LuckyJ”不僅穩(wěn)定段位更高,從零開始達到十段所需的對戰(zhàn)局數(shù)也明顯更少,僅需要 1321 局。這體現(xiàn)了騰訊 AI Lab 在決策AI方向上世界領先的技術實力。

統(tǒng)計意義上看天鳳穩(wěn)定段位bootstrap的分布,絕藝LuckyJ顯著強于之前最強的兩個日本麻將AI(Suphx,NAGA):LuckyJ vs Suphx  p value=0.02883;LuckyJ vs NAGA   p value=3e-05。

騰訊 AI Lab 研究員表示,現(xiàn)實世界中充滿了需要在非完美信息狀態(tài)下做決策的場景,比如金融交易、自動駕駛、交通物流、拍賣系統(tǒng)等。在游戲環(huán)境中推進決策AI的能力,最終是希望AI能從虛擬走向現(xiàn)實,解決真實世界的復雜問題。

過去半個世紀以來,游戲在人工智能技術的演進中發(fā)揮了重要的作用。游戲多樣化的情境為AI的訓練和學習提供了便利的研究場景,從國際象棋到圍棋,再到德州撲克、王者榮耀等游戲,AI 不斷在游戲場景中拓展能力邊界。

圍棋、象棋都屬于完美信息博弈,參與競技雙方的每次決策,都可以看到全局的信息。AI能夠通過強大的計算力來枚舉各種可能性,從而找到致勝策略。而麻將無法看到對手的手牌,加上還有大量未揭開的牌,存在大量的隱藏信息,是典型的非完美信息博弈。

據(jù)介紹,麻將一共有136張牌,每一位玩家只能看到很少的牌,包括自己的13張手牌和所有人打出來的牌。牌局開始時,另外三位玩家的手牌以及墻牌都是看不到的,面對如此多的隱藏未知信息,麻將玩家的每一個決策都需要兼顧進攻和防守。

此外,在麻將的對戰(zhàn)中,除了正常的摸牌、打牌之外,還要決定是否吃牌、碰牌、杠牌、立直以及是否胡牌。任意一位玩家的吃碰杠以都會改變摸牌的順序,這一過程也涉及了大量的決策。

如上圖所示,橫坐標信息集數(shù)目表示可觀察狀態(tài)的多少,即牌面的信息??v坐標信息集平均大小表示隱藏信息的多少,即其他所有對手的手牌的可能性。麻將所包含的隱藏信息要遠遠大于德州撲克。

為了更好地解決麻將游戲中存在的大量隱藏信息的難題,提升AI的決策能力,騰訊 AI Lab基于強化學習和遺憾值最小化的自我博弈技術,使得AI能從零開始自我學習和提高,并最終收斂到一個最強的混合策略,讓AI在實際對戰(zhàn)的過程中擁有更加平衡的策略能力。

同時,考慮到傳統(tǒng)的非完美信息搜索算法在麻將面前很難發(fā)揮太大的作用,騰訊 AI Lab基于樂觀價值估計的思想,提出了一種高效的非完美搜索方法,使得AI在有海量隱藏信息的游戲狀態(tài)中,仍可以實時調整當前策略,從而更好地應對多變的戰(zhàn)局。

相比人類,“絕藝 LuckyJ“在麻將游戲中,擁有更加平衡的策略,對局勢的計算更精確,其中包括打每張牌的期望收益、未來可能胡哪些番型等等,通過這樣的“策略”訓練,也為AI走入更多行業(yè)打下了基礎。

天鳳平臺開發(fā)公司C-EGG的CEO角田真吾表示:“這是麻將AI的又一次突破,LuckyJ進一步拓寬了麻將AI的能力邊界。令人感到興奮的是,在特上房包括人類玩家在內的對戰(zhàn)1000局以上的所有玩家中,LuckJ的穩(wěn)定段位排名第一”。

在網(wǎng)上對LuckyJ歷史對局有深入研究的天鳳十段玩家、日本麻將戰(zhàn)術研究家yousei評價,LuckyJ給人的印象是在每張牌上看到“攻擊、防守的參數(shù)”,總體上,LuckyJ看起來“完全沒有漏洞”,一方面通過保留安全牌等策略降低事故率。另一方面,即使手牌中同時存在多個和牌方向,LuckyJ也可以在這些復雜的分支中順利進行下去。

值得一提的是,“絕藝LuckyJ“在國標麻將中也有亮眼表現(xiàn),在線下職業(yè)選手邀請賽中擊敗六位職業(yè)選手,成為首個戰(zhàn)勝國標麻將頂尖職業(yè)選手的麻將AI。

圖注:對戰(zhàn)數(shù)據(jù)顯示,在近2000 場對局中,絕藝LuckyJ 的平均贏番達到 1.76番,這里番為國標麻將的結算單位,數(shù)值越大,說明贏得越多。

 

曾與絕藝LuckyJ對局的棋手們,也對它做出了高度評價。“雀友杯”2014年世界麻將大師邀請賽冠軍,騰訊麻將錦標賽年度總決賽(2018,2019)冠軍成海華提到,AI在攻防兩端都表現(xiàn)得都十分出色,充分體現(xiàn)了計算上的優(yōu)勢,讓他刮目相看。

國標麻將職業(yè)選手,標榜麻將運動協(xié)會會長楊磊也有相同的感受:“經(jīng)過數(shù)月與騰訊麻將AI的對抗測試,通過分析AI對局,AI無論在進攻還是防守都讓我印象深刻。我們通常所謂的妙手、靈光一現(xiàn),甚至基于經(jīng)驗和感覺做出的置之死地而后生的選擇,對于AI來說可能算是常規(guī)操作?!?nbsp;       

國標麻將及日本麻將職業(yè)選手黃林說,在與AI的上千次對戰(zhàn)中,他一直驚嘆于AI強大的牌效和精準的讀牌,形容它“在攻防兩端都做到了極致”。

決策與生成是當前人工智能發(fā)展的兩大主線,也是研究通用人工智能的必由之路。在模擬真實世界的虛擬游戲中,AI學會快速分析、決策與行動,就能執(zhí)行更困難復雜的任務并發(fā)揮更大作用。從 2017 年開始,騰訊AI Lab自研的絕藝、絕悟兩款決策AI,借助棋牌、MOBA等多類游戲場景,探索用AI解決現(xiàn)實中的復雜問題。

現(xiàn)實生活中存在大量的隱藏信息和不確定的因素,麻將游戲中復雜的決策過程和帶有隨機性的博弈,比圍棋這樣的完美信息游戲更加接近真實的現(xiàn)實生活?!敖^藝 LuckyJ” 在專業(yè)領域的突破,體現(xiàn)了騰訊 AI Lab 的深度強化學習智能體不斷進化,正逐漸向解決更復雜更多樣化的問題遷移。對非完美信息游戲的研究,將有助于我們開發(fā)出適用于真實生活場景的更加“智能”的AI系統(tǒng)。

最新文章
1
MediaTek 發(fā)布天璣 8400 移動芯片,開啟高階智能手機全大核計算時代
2
SUSE發(fā)布2025年技術趨勢預測
3
世界首創(chuàng)、全球引領,海信8K激光電視榮獲“創(chuàng)新成果獎”
4
年末家電消費觀察:品質生活類產(chǎn)品熱賣,將持續(xù)迎來剛需式普及?
5
信通院何寶宏:大模型“卷”向下半場,需要新打法
6
Mini LED技術再升級,從背光引領顯示行業(yè)實現(xiàn)技術迭代
7
1~11月彩電零售量同比下降2%,2025年有望達到3150萬臺
8
這家清潔電器品牌突然停運 背后投資者都是大腕+明星
9
兩新政策加力,2025年國債補貼預計超過3000億
10
國產(chǎn)DDR5內存首次拆解:基本鎖定來自長鑫
11
曝天馬打入果鏈:為蘋果HomePod供應LCD屏 每塊屏僅10美元
12
索尼中國副總裁金燕敏榮登2024年《財富》 中國最具影響力商界女性未來榜
13
“碳索”美好“視界”,京東方用“科技+綠色”凝聚可持續(xù)生命力
14
智慧健康再進化,TCL小藍翼C7新風空調震撼發(fā)布,開創(chuàng)AI空調發(fā)展新時代!
15
乘冰雪經(jīng)濟“冬”風,中國品牌跨越式“走出去”
16
2024《世界品牌500強》,長虹排名再升2位創(chuàng)歷史新高
17
這些家電巨頭,都有一顆“造芯”的心
18
11月中國家電出口量已公布,空調同比增長41.3%
19
大尺寸OLED市場迎來發(fā)展機遇,但是依然有很多問題待解決
20
美的鮮為人知的一面 絢麗的B端千億矩陣
關于我們

微信掃一掃,加關注

商務合作
  • QQ:61149512