從最早的AI在國際象棋中戰勝人類開始,AI先后攻克了中國象棋、德州撲克、圍棋、DOTA、星際爭霸等多種游戲,為什么AI研究者都喜歡挑戰游戲領域呢?
在去年的世界人工智能大會上,時任微軟全球副總裁沈向洋表示,游戲一直是人工智能研究的最佳試驗田,訓練游戲AI的過程可以不斷提升人工智能的算法和人工智能處理復雜問題的能力。在現實世界中,金融市場預測、物流優化等很多問題與麻將游戲有著相同的特點,包括復雜的操作/獎勵規則、信息的不完全性等等。

微軟全球副總裁沈向洋
那么這次戰勝人類的麻將AI的出現有什么意義呢?記者采訪了浙江大學人工智能研究所所長吳飛。他告訴記者,很多AI的研發都是針對某個領域或某個具體任務進行的研究,這些AI的誕生的目的當然不僅僅在某個游戲勝過人類這么簡單,都是為了應用到我們實際生活中去。
吳飛告訴記者:“微軟這款麻將AI所采取的策略其實和圍棋當中的Alphago是類似的,框架還是基于強化學習、深度學習和蒙特卡洛樹搜索。只不過它是針對麻將這個具體問題進行優化,如針對麻將中不同出牌的策略專門進行學習。圍棋的難主要體現在狀態空間非常復雜,它是19×19 的棋盤上每一個位置都有“黑、白、無”三種狀態,這樣的復雜度差不多是10的172次方。在完美信息下只要算力足夠,就能通過搜索采樣的方式找到最優的策略,AlphaGo就是利用蒙特卡洛樹搜索和深度強化學習,成功解決了這一難題。而麻將這種屬于不完全信息,有個序貫決策問題,它雖然所需要探索的空間相比圍棋要小,但是序貫決策問題難在你的每一步對后續產生的結果都是未知的。”

浙江大學人工智能研究所所長吳飛
在吳飛看來,不論是圍棋還是麻將,現有的規則和標準都是可以用機器語言描述出來的,屬于“大數據小任務”,因此只要有足夠多的數據的支撐,加上在該特定領域內強化學習和深度學習,AI戰勝人類在大部分棋牌類游戲中都是可以實現的,但這不代表現在的AI就比人類厲害了,因為人類行為是“小數據大任務”,不只是單一問題的集合,實際的應用場景比游戲要復雜的多。
“比如現在大家關注度比較高的自動駕駛、城市大腦,這些場景更加復雜,沒有足夠多的數據,也沒有足夠準確的機器語言去描述,因此目前的人工智能在實際使用中還很局限。不過這類AI的出現對我們解決序貫決策問題還是很有幫助的,比如對經濟活動的調整的預測和分析,來幫助經營者作出更好的決策;在交通、物流領域進行效率優化,降低成本提高收益等。”