不是吧,不是吧。
一群學(xué)霸聚集在一起,竟然是為了打《王者榮耀》?!
而且還是來(lái)自清北、中科院、浙大等20余所頂級(jí)學(xué)府的那種。
但畢竟是一幫學(xué)霸們的“聚會(huì)”,果然連打游戲的“姿勢(shì)”都那么與眾不同:
他們竟然要用《王者榮耀》搞科研!
(妥妥的是有種諸葛亮“黃金分割率”的味道了。)
這到底是怎么一回事?
在《王者榮耀》里搞科研
要想搞清楚這件事,就需要先來(lái)顛覆一下你對(duì)《王者榮耀》的認(rèn)知。
友友們,其實(shí)它不單單是一款游戲那么簡(jiǎn)單:
還是一個(gè)極具科研價(jià)值的游戲環(huán)境。
更準(zhǔn)確來(lái)說(shuō),《王者榮耀》背后是一個(gè)AI 開(kāi)放研究平臺(tái),它背靠騰訊各方面資源優(yōu)勢(shì),為學(xué)術(shù)研究和算法開(kāi)發(fā)開(kāi)放的研究與應(yīng)用探索平臺(tái)——
“開(kāi)悟”。
但搞科研嘛,算法、算力、數(shù)據(jù)、場(chǎng)景,可以說(shuō)是缺一不可。
于是“開(kāi)悟”就放話了:
各路英雄豪杰,我這兒啥都有!
比如《王者榮耀》提供了游戲測(cè)試環(huán)境、脫敏游戲數(shù)據(jù)集,還有游戲核心集群等資源。
騰訊AI Lab則把搭建好的算法、計(jì)算平臺(tái)、評(píng)估工具亮了出來(lái);算力的支持則是由騰訊云計(jì)算提供。
于是乎,來(lái)自各大頂尖高校的學(xué)霸們,就華山論劍般地匯聚于此。
至于各家高手們的“論劍之道”,就是在限定時(shí)間和資源內(nèi),訓(xùn)練出最優(yōu)模型,并把它部署到AI服務(wù)器當(dāng)中。
在提交系統(tǒng)之后,學(xué)霸們就相當(dāng)于“煉”出了他們各自的《王者榮耀》英雄。
這不,同樣是貂蟬,在修煉完不同“功法”后,便展開(kāi)了一場(chǎng)激烈的博弈。
在1級(jí)狹路相逢之際,便來(lái)了個(gè)同歸于盡。
△注:動(dòng)圖來(lái)自2021高校聯(lián)賽AI表演賽
雖說(shuō)都只是智能體,但在這波battle中,她們很好地發(fā)揮了自身的基本功:
作戰(zhàn)中……
預(yù)測(cè)敵方走位……
已擊殺,陣亡……
每個(gè)基本功背后,都是智能體在“審時(shí)度勢(shì)”后的最佳決策。
而在雙方復(fù)活之后,策略之間的博弈就變得更加緊湊和激烈。
畢竟常言道:一招棋錯(cuò),滿盤(pán)皆輸
藍(lán)方貂蟬在入場(chǎng)發(fā)覺(jué)自己經(jīng)濟(jì)較低,果斷選擇“發(fā)展我方經(jīng)濟(jì)”。
但同時(shí)也沒(méi)有做到過(guò)分“猥瑣發(fā)育”,還是該出手時(shí)就出手——發(fā)起進(jìn)攻、持續(xù)進(jìn)攻。
△注:動(dòng)圖來(lái)自2021高校聯(lián)賽AI表演賽
而在后期的決策博弈更是精彩:
戰(zhàn)略撤退、進(jìn)攻防御塔、返回基地、追擊地方……
很是有種人類玩家的感覺(jué)了。
不僅如此,智能體在緊張的戰(zhàn)斗決策同時(shí),還兼顧了出裝策略。
大家都知道,出完血書(shū)(血族之書(shū))的貂蟬,戰(zhàn)斗中的續(xù)航能力會(huì)得到大幅提升。
為此,藍(lán)方貂蟬第二個(gè)法術(shù)大件果斷選擇夢(mèng)魘之牙,以此來(lái)克制紅方貂蟬的回血。
△注:動(dòng)圖來(lái)自2021高校聯(lián)賽AI表演賽
紅藍(lán)貂蟬在交手“八百回合”之后,終于迎來(lái)了“決戰(zhàn)紫禁之巔”的時(shí)刻。
在紅方水晶之下,兩位貂蟬紛紛喊出“花開(kāi)了,怒放吧”開(kāi)啟大招,完成最后的較量。
最終,以雙方紛紛倒地,由藍(lán)方小兵推倒紅方水晶結(jié)束戰(zhàn)斗。
……
這就是學(xué)霸們?cè)凇锻跽邩s耀》里搞科研的結(jié)果展示。
而更具體一點(diǎn)來(lái)說(shuō),就是在特定的環(huán)境中,對(duì)多智能體之間的博弈展開(kāi)研究,屬于強(qiáng)化學(xué)習(xí)領(lǐng)域范疇。
它的難點(diǎn)之一,就在于智能體的每一個(gè)決策與動(dòng)作,都會(huì)對(duì)全局產(chǎn)生非常復(fù)雜的變化,是有種“牽一發(fā)而動(dòng)全身”的感覺(jué)了。
而在剛才的例子中,只是展示了學(xué)霸們?cè)?V1場(chǎng)景中的科研成果,但其實(shí)他們還會(huì)有3V3的戰(zhàn)斗。
這種場(chǎng)景對(duì)于智能體的挑戰(zhàn)就更高了,因?yàn)槊總€(gè)智能體僅能獲取局部的觀測(cè)信息,但無(wú)法得知其他“隊(duì)友”或“敵人”的信息。
這就對(duì)合作與競(jìng)爭(zhēng)、完成特定任務(wù)背后的算法,提出了高難度的要求。
果然,學(xué)霸們打個(gè)游戲都是如此燒腦。
……
不過(guò)講真,如此“名場(chǎng)面”還真不是什么新鮮事。
游戲中搞科研,并不是第一次
其實(shí)剛才學(xué)霸們的“科研展示”,就是去年中科大和電子科大,在第一屆騰訊“開(kāi)悟”AI大賽上演的一場(chǎng)決斗。
這場(chǎng)比賽可以說(shuō)是擴(kuò)大了社會(huì)各界對(duì)“AI+游戲”的認(rèn)知。
但說(shuō)實(shí)話,在游戲里搞科研這件事,國(guó)內(nèi)外早就有所行動(dòng)了。
例如早在2017年,OpenAI“修煉”的智能體,就單挑苦練了半輩子Dota的人類玩家Dendi,最終AI大獲全勝。
時(shí)隔一年(2018年),OpenAI再次派出OpenAI Five,以5V5模式對(duì)戰(zhàn)人類頂級(jí)陣容。
結(jié)果,又是以AI100%勝率告終比賽。
當(dāng)時(shí)這樣的結(jié)果簡(jiǎn)直是出乎觀眾的意料之外,就連馬斯克在比賽前被問(wèn)及“誰(shuí)會(huì)贏”,都非常自信地回復(fù)到“人類”。
與此相關(guān)的技術(shù)論文也早就有所公布。
而除了在Dota2這種5V5團(tuán)隊(duì)競(jìng)技類型游戲外,“AI+游戲”在其他類型的游戲中也有所滲透。
例如DeepMind從2017年開(kāi)始,也頻繁曝出在《星際爭(zhēng)霸2》這款游戲中碾壓人類頂級(jí)玩家的消息。
DeepMind在這方面的科研研究——AlphaStar,其背后的相關(guān)技術(shù)論文,更是登上了頂刊Nature。
而在國(guó)內(nèi),對(duì)于“AI+游戲”的科研也是如火如荼地進(jìn)行中。
例如早在2018年開(kāi)始,騰訊AI Lab便在《王者榮耀》中持續(xù)發(fā)力,并與游戲團(tuán)隊(duì)打造出了策略協(xié)作型AI“王者絕悟”。
要知道,類似于這樣的5V5 團(tuán)隊(duì)競(jìng)技游戲,單是玩家的動(dòng)作狀態(tài)空間便高達(dá)1020000。
這個(gè)數(shù)字遠(yuǎn)遠(yuǎn)大于圍棋及其他簡(jiǎn)單游戲,甚至超過(guò)整個(gè)宇宙的原子總數(shù)(1080)。
在這三年期間,騰訊AI Lab在與之相關(guān)的研究,更是頻頻登上了AAAI、NeurIPS 等 AI 頂級(jí)會(huì)議(相關(guān)鏈接附在文末,感興趣的讀者可深入研究)。
而就在前不久的世界人工智能大會(huì)中,“王者絕悟”更是以全英雄達(dá)到職業(yè)電競(jìng)水平亮相。
在與人類頂級(jí)選手的較量中,更是以絕對(duì)的勝率驚艷四座。
值得一提的是,正是由于騰訊AI Lab在“AI+游戲”領(lǐng)域的技術(shù)沉淀,才能夠在將其能力“打包”輸送給高校的學(xué)霸們,也就是我們剛才提到的“開(kāi)悟”AI開(kāi)放研究平臺(tái)。
……
至此,或許你有一個(gè)大大的疑問(wèn):
在游戲里搞科學(xué)研究,對(duì)我們現(xiàn)實(shí)生活有什么意義嗎?
直接上答案——有的!而且意義非凡。
游戲,會(huì)是下一個(gè)AI里程碑的誕生地嗎?
是的,這就是業(yè)界目前普遍認(rèn)同的一種看法:
下一個(gè)AI里程碑可能會(huì)在復(fù)雜策略游戲中誕生。
這種說(shuō)法并不是空穴來(lái)風(fēng)。
首先,“AI+游戲”所涉足的大領(lǐng)域,便是強(qiáng)化學(xué)習(xí)。
一般來(lái)說(shuō),強(qiáng)化學(xué)習(xí)是用于描述和解決智能體在與環(huán)境的交互過(guò)程中,通過(guò)學(xué)習(xí)策略以達(dá)成回報(bào)最大化或?qū)崿F(xiàn)特定目標(biāo)的問(wèn)題。
而一些復(fù)雜的強(qiáng)化學(xué)習(xí)算法,更是在一定程度上具備了解決復(fù)雜問(wèn)題的通用智能。
但要通過(guò)訓(xùn)練,讓智能體“煉就”如此能力,正如我們剛才說(shuō)到的,算法、數(shù)據(jù)、算力、場(chǎng)景,這四樣缺一不可。
尤其是場(chǎng)景和數(shù)據(jù),需要夠復(fù)雜、夠具備不確定性,才能更好的貼近真實(shí)世界中人類決策時(shí)面對(duì)的環(huán)境。
游戲場(chǎng)景,恰恰就是符合這些高要求的“陣地”。
因此,長(zhǎng)遠(yuǎn)來(lái)看,“AI+游戲”研究將是攻克通用人工智能(AGI)的關(guān)鍵一步。
而之于現(xiàn)實(shí)意義,以近幾年大火的自動(dòng)駕駛為例。
在這一領(lǐng)域中,隨著技術(shù)的不斷發(fā)展,自動(dòng)駕駛逐步地從“感知層”向“決策層”過(guò)渡。
這是因?yàn)樽詣?dòng)駕駛車輛在面臨突發(fā)、不確定性問(wèn)題時(shí),需要作出精準(zhǔn)的決策,來(lái)避免意外的發(fā)生。
可以把一輛自動(dòng)駕駛汽車想象為一個(gè)游戲中的智能體,當(dāng)它在現(xiàn)實(shí)生活中運(yùn)行時(shí),所要面對(duì)的問(wèn)題復(fù)雜度之高,就不言而喻了。
這就離不開(kāi)通過(guò)強(qiáng)化學(xué)習(xí)方法的大量訓(xùn)練,讓自動(dòng)駕駛這個(gè)“智能體”的應(yīng)變能力,能夠無(wú)限接近甚至超越人類。
但要練就這身功夫,在真實(shí)生活場(chǎng)景中訓(xùn)練定然是不現(xiàn)實(shí)的,而游戲,就成了一個(gè)非常好的訓(xùn)練場(chǎng)。
自動(dòng)駕駛只是應(yīng)用場(chǎng)景的案例之一,更多的還包括城市/空中交通管理、多機(jī)器人協(xié)調(diào)、能源分配等問(wèn)題。
……
而騰訊AI Lab之所以打造“開(kāi)悟”,也是基于上述情況的考量,不過(guò)他想要的做的卻更多:
推動(dòng)多智能體強(qiáng)化學(xué)習(xí)的發(fā)展。
尤其是高校在這方面的研究,更是“硬性條件”上面臨著較為嚴(yán)峻的挑戰(zhàn)。
但開(kāi)放“開(kāi)悟”,僅僅是騰訊AI Lab為了完成這一目標(biāo)的舉措之一。
據(jù)了解,開(kāi)悟還攜手高校合作開(kāi)發(fā)課程,進(jìn)一步普及多智能體強(qiáng)化學(xué)習(xí)教育。
例如在今年8月,騰訊就宣布與四所國(guó)內(nèi)一流高校(北京大學(xué)、電子科技大學(xué)、清華大學(xué)、中國(guó)科學(xué)技術(shù)大學(xué)),共建教學(xué)內(nèi)容和課程體系改革項(xiàng)目。
據(jù)悉,這些頂尖高校將分別構(gòu)建一門(mén)至少20學(xué)時(shí)的多智能體及強(qiáng)化學(xué)習(xí)平臺(tái)的專業(yè)課程,理論授課知識(shí)點(diǎn)包括但不限于機(jī)器學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、多智能體決策等相關(guān)的知識(shí)點(diǎn)。
除此之外,騰訊“開(kāi)悟”還聯(lián)合高校成立了人工智能科教聯(lián)盟,并攜手高校、科研院所、產(chǎn)業(yè)園區(qū)、投資機(jī)構(gòu)組建人工智能科創(chuàng)聯(lián)合體。
正如《王者榮耀》執(zhí)行制作人、騰訊天美L1總經(jīng)理黃藍(lán)梟總結(jié)的那樣:
我們開(kāi)放了《王者榮耀》核心機(jī)制,提供標(biāo)準(zhǔn)接口、核心算法、脫敏的測(cè)試數(shù)據(jù)、評(píng)估工具和計(jì)算集群等,給高校老師和同學(xué)們進(jìn)行多智能體的機(jī)器學(xué)習(xí)算法研究、學(xué)習(xí)成果交流,對(duì)算法成果反復(fù)迭代升級(jí)。期待這些研究成果能夠落地其他產(chǎn)業(yè)環(huán)境,為工業(yè)機(jī)器人、救災(zāi)機(jī)器人等提供助力。
……
讀到這里,你想不想圍觀清北等高校的學(xué)霸們,如何不僅打了游戲,還順便把科研也一塊搞了?
請(qǐng)繼續(xù)關(guān)注開(kāi)悟平臺(tái)及賽事動(dòng)向。
傳送門(mén)
開(kāi)悟官網(wǎng)地址:
https://aiarena.tencent.com/aiarena/zh/index
評(píng)論