近日,研究人工智能(AI)和游戲的科學(xué)家將迎來最新的人機(jī)對(duì)決。但此次并非一個(gè)人與一臺(tái)機(jī)器對(duì)決,一個(gè)由5名頂尖電子游戲玩家組成的團(tuán)隊(duì),將會(huì)瘋狂地向一群名為OpenAI 5的機(jī)器人施展魔法咒語和發(fā)射(虛擬)火球。他們將在加拿大溫哥華舉行的國(guó)際電子競(jìng)技錦標(biāo)賽上玩實(shí)時(shí)策略游戲Dota 2,這是一項(xiàng)一年一度的電子競(jìng)技賽事,其數(shù)百萬美元的獎(jiǎng)金吸引了許多職業(yè)玩家參與。
1997年,IBM的“深藍(lán)AI”擊敗國(guó)際象棋冠軍加里·卡斯帕羅夫。2016年,深度思維公司的AlphaGo AI在傳統(tǒng)圍棋比賽中擊敗了世界圍棋大師李世石。計(jì)算機(jī)在跳棋和一些撲克游戲中也擊敗了人類。但快節(jié)奏的多人視頻游戲則帶來了另一種挑戰(zhàn),它需要計(jì)算機(jī)協(xié)作和管理不可預(yù)測(cè)性。這一目標(biāo)是常識(shí),它可以幫助AI應(yīng)對(duì)現(xiàn)實(shí)世界的情況,如導(dǎo)航交通和提供家庭護(hù)理,即使它們永遠(yuǎn)不必面對(duì)魔法咒語。
“AI的下一件大事是合作。”英國(guó)倫敦大學(xué)學(xué)院計(jì)算機(jī)學(xué)家、研究另一種實(shí)時(shí)戰(zhàn)略游戲《星際爭(zhēng)霸2》的王軍(音譯)說。牛津大學(xué)計(jì)算機(jī)學(xué)家、《星際爭(zhēng)霸2》的另一名研究者Jakob Foerster說,它需要“戰(zhàn)略推理,在這里它可以了解其他人的動(dòng)機(jī)”。
Dota 2于2013年公布,在全球擁有數(shù)百萬玩家。在游戲中,團(tuán)隊(duì)在保衛(wèi)自己地盤的同時(shí),還要通過戰(zhàn)斗摧毀敵人的地盤,同時(shí)收集資源以增加自己的力量和技能。一場(chǎng)勢(shì)均力敵的比賽持續(xù)時(shí)間約45分鐘。1年前,美國(guó)加州舊金山非營(yíng)利研究機(jī)構(gòu)OpenAI公布了一種能在一對(duì)一游戲中擊敗人類最佳玩家的AI。但OpenAI的聯(lián)合創(chuàng)始人兼首席技術(shù)官Greg Brockman表示,在此次國(guó)際比賽中,5對(duì)5的對(duì)決對(duì)電腦來說是一個(gè)更大的挑戰(zhàn),因?yàn)楸荣惖臅r(shí)間更長(zhǎng),也更復(fù)雜。盡管如此,在近日熱身賽中,OpenAI 5仍輕松擊敗了一個(gè)前職業(yè)玩家團(tuán)隊(duì)。“被一個(gè)非人類弄得很尷尬是件糟糕的事。”在一群觀眾面前輸?shù)舯荣惖腤illiam“Blitz”Lee說,“我們被左右碾壓。”
Dota2中潛在的走法范圍遠(yuǎn)遠(yuǎn)大于國(guó)際象棋或圍棋,后兩者最多只有幾百種走法。但在Dota2中,動(dòng)作是不變的,玩家的每次移動(dòng)卻有著成千上萬種選擇,例如向哪里逃跑、用哪個(gè)魔法以及在哪里瞄準(zhǔn)等。這樣的自由度加上游戲固有的隨機(jī)性和玩家對(duì)視野之外事物的忽視,意味著你不能完美地預(yù)測(cè)游戲的走向,哪怕是向前移動(dòng)一步。在國(guó)際象棋和圍棋中,算法會(huì)使用搜索樹分析未來分支的可能性。而在Dota2中,預(yù)測(cè)變得更加模糊。
因此,OpenAI 5沒有依賴于搜索樹,而是使用了神經(jīng)網(wǎng)絡(luò),這是一種受大腦啟發(fā)的算法,可以加強(qiáng)小計(jì)算元素之間的聯(lián)系從而予以回應(yīng)。(AlphaGo則是將神經(jīng)網(wǎng)絡(luò)與搜索樹相結(jié)合)在訓(xùn)練過程中,該系統(tǒng)在游戲中盲目地實(shí)驗(yàn)不同的動(dòng)作。當(dāng)它們表現(xiàn)良好時(shí),負(fù)責(zé)那些行為的聯(lián)系就會(huì)加強(qiáng)。經(jīng)過長(zhǎng)時(shí)間的游戲加速,強(qiáng)大的策略出現(xiàn)了。OpenAI大規(guī)模應(yīng)用了這種被稱為強(qiáng)化學(xué)習(xí)的方法,并在數(shù)千臺(tái)計(jì)算機(jī)上同時(shí)運(yùn)行該算法。“OpenAI 5是我見過的令人印象最深刻的強(qiáng)化學(xué)習(xí)演示之一。”丹麥哥本哈根信息技術(shù)大學(xué)計(jì)算機(jī)科學(xué)家、參與《星際爭(zhēng)霸2》研究的Niels Justesen說。
從表面上看,OpenAI 5在合作方面也取得了成功。AI的5名玩家非常愿意為了團(tuán)隊(duì)的整體利益而犧牲自我,這可能會(huì)讓它們比人類團(tuán)隊(duì)更有優(yōu)勢(shì)。“這臺(tái)機(jī)器人表現(xiàn)得很有犧牲精神。”Lee說,而人類不太可能為了獲勝而放棄一個(gè)玩家。“貪婪是一種人性觀念。”但AI依賴于一種蜂群思維,它可能讓協(xié)作變得更容易。系統(tǒng)中幾乎相同的5種算法中的每一種都能看到其他算法所看到的內(nèi)容,而人類只能看到自己屏幕上的內(nèi)容,只有通過交談才能共享信息。王軍表示,為了與人或與它們不同的程序合作,無論是在游戲還是在生活中,這些算法最終需要發(fā)展溝通技巧和“心理理論”,即有關(guān)其他人和算法的信念和愿望的模型。
即便如此,Dota2仍然是對(duì)AI的一個(gè)有價(jià)值的測(cè)試。許多專家預(yù)測(cè)OpenAI 5將在國(guó)際比賽中獲勝。不過,德國(guó)多特蒙德技術(shù)大學(xué)研究人工智能和游戲的Vanessa Volz則看到了其潛在的弱點(diǎn),那就是OpenAI 5使用“自我對(duì)決”來訓(xùn)練算法。她表示:“這種方式有可能會(huì)受到以前看不到的游戲風(fēng)格的影響。”輸給人工智能的Lee也有同樣的感覺。“現(xiàn)在,機(jī)器人有點(diǎn)太死板了。”他說,“它的可預(yù)測(cè)性變得有些過強(qiáng)。我覺得如果我們?cè)俣啻驇讏?chǎng)比賽,就能干凈利落地獲勝。”(晉楠編譯)
摘自《中國(guó)科學(xué)報(bào)》