近日,研究人工智能(AI)和游戲的科學家將迎來最新的人機對決。但此次并非一個人與一臺機器對決,一個由5名頂尖電子游戲玩家組成的團隊,將會瘋狂地向一群名為OpenAI 5的機器人施展魔法咒語和發(fā)射(虛擬)火球。他們將在加拿大溫哥華舉行的國際電子競技錦標賽上玩實時策略游戲Dota 2,這是一項一年一度的電子競技賽事,其數百萬美元的獎金吸引了許多職業(yè)玩家參與。
1997年,IBM的“深藍AI”擊敗國際象棋冠軍加里·卡斯帕羅夫。2016年,深度思維公司的AlphaGo AI在傳統(tǒng)圍棋比賽中擊敗了世界圍棋大師李世石。計算機在跳棋和一些撲克游戲中也擊敗了人類。但快節(jié)奏的多人視頻游戲則帶來了另一種挑戰(zhàn),它需要計算機協作和管理不可預測性。這一目標是常識,它可以幫助AI應對現實世界的情況,如導航交通和提供家庭護理,即使它們永遠不必面對魔法咒語。
“AI的下一件大事是合作。”英國倫敦大學學院計算機學家、研究另一種實時戰(zhàn)略游戲《星際爭霸2》的王軍(音譯)說。牛津大學計算機學家、《星際爭霸2》的另一名研究者Jakob Foerster說,它需要“戰(zhàn)略推理,在這里它可以了解其他人的動機”。
Dota 2于2013年公布,在全球擁有數百萬玩家。在游戲中,團隊在保衛(wèi)自己地盤的同時,還要通過戰(zhàn)斗摧毀敵人的地盤,同時收集資源以增加自己的力量和技能。一場勢均力敵的比賽持續(xù)時間約45分鐘。1年前,美國加州舊金山非營利研究機構OpenAI公布了一種能在一對一游戲中擊敗人類最佳玩家的AI。但OpenAI的聯合創(chuàng)始人兼首席技術官Greg Brockman表示,在此次國際比賽中,5對5的對決對電腦來說是一個更大的挑戰(zhàn),因為比賽的時間更長,也更復雜。盡管如此,在近日熱身賽中,OpenAI 5仍輕松擊敗了一個前職業(yè)玩家團隊。“被一個非人類弄得很尷尬是件糟糕的事。”在一群觀眾面前輸掉比賽的William“Blitz”Lee說,“我們被左右碾壓。”
Dota2中潛在的走法范圍遠遠大于國際象棋或圍棋,后兩者最多只有幾百種走法。但在Dota2中,動作是不變的,玩家的每次移動卻有著成千上萬種選擇,例如向哪里逃跑、用哪個魔法以及在哪里瞄準等。這樣的自由度加上游戲固有的隨機性和玩家對視野之外事物的忽視,意味著你不能完美地預測游戲的走向,哪怕是向前移動一步。在國際象棋和圍棋中,算法會使用搜索樹分析未來分支的可能性。而在Dota2中,預測變得更加模糊。
因此,OpenAI 5沒有依賴于搜索樹,而是使用了神經網絡,這是一種受大腦啟發(fā)的算法,可以加強小計算元素之間的聯系從而予以回應。(AlphaGo則是將神經網絡與搜索樹相結合)在訓練過程中,該系統(tǒng)在游戲中盲目地實驗不同的動作。當它們表現良好時,負責那些行為的聯系就會加強。經過長時間的游戲加速,強大的策略出現了。OpenAI大規(guī)模應用了這種被稱為強化學習的方法,并在數千臺計算機上同時運行該算法。“OpenAI 5是我見過的令人印象最深刻的強化學習演示之一。”丹麥哥本哈根信息技術大學計算機科學家、參與《星際爭霸2》研究的Niels Justesen說。
從表面上看,OpenAI 5在合作方面也取得了成功。AI的5名玩家非常愿意為了團隊的整體利益而犧牲自我,這可能會讓它們比人類團隊更有優(yōu)勢。“這臺機器人表現得很有犧牲精神。”Lee說,而人類不太可能為了獲勝而放棄一個玩家。“貪婪是一種人性觀念。”但AI依賴于一種蜂群思維,它可能讓協作變得更容易。系統(tǒng)中幾乎相同的5種算法中的每一種都能看到其他算法所看到的內容,而人類只能看到自己屏幕上的內容,只有通過交談才能共享信息。王軍表示,為了與人或與它們不同的程序合作,無論是在游戲還是在生活中,這些算法最終需要發(fā)展溝通技巧和“心理理論”,即有關其他人和算法的信念和愿望的模型。
即便如此,Dota2仍然是對AI的一個有價值的測試。許多專家預測OpenAI 5將在國際比賽中獲勝。不過,德國多特蒙德技術大學研究人工智能和游戲的Vanessa Volz則看到了其潛在的弱點,那就是OpenAI 5使用“自我對決”來訓練算法。她表示:“這種方式有可能會受到以前看不到的游戲風格的影響。”輸給人工智能的Lee也有同樣的感覺。“現在,機器人有點太死板了。”他說,“它的可預測性變得有些過強。我覺得如果我們再多打幾場比賽,就能干凈利落地獲勝。”(晉楠編譯)
摘自《中國科學報》