您現在的位置是:首頁 > 單機遊戲首頁單機遊戲

Dota2也被AI佔領了!OpenAI打出4200逆天高分 超過90%人類玩家

簡介在比賽過程中,研究人員發現,OpenAI Five會做出一些專業策略,比如為了長期的團隊回報而做出暫時的自我犧牲,以殘血將人類玩家誘出高地

dota2mmr多少算高

智東西(公眾號:zhidxcom)

編 | 心緣

導語:OpenAI研發的AI組成電競戰隊,在5v5點Dota 2開黑對戰中擊敗人類玩家,協作式AI取得突破性進展,計劃出征Dota2 TI8國際邀請賽。

智東西6月26日訊息,美國時間25日,著名非營利性機構OpenAI宣佈人工智慧界的新驚喜:AI已能像人類一樣“組隊”,在5v5對戰中完虐Dota 2人類玩家,並且平均天梯分數超過4200分(超過將近90%的DOTA2玩家,去年中國平均天梯分為3274分)。

OpenAI的支持者、特斯拉創始人伊隆馬斯克(Elon Musk)表示:“OpenAI首次在競爭激烈的電子競技中擊敗世界頂尖玩家,這遠比圍棋、象棋等傳統棋盤遊戲更加複雜。”

一、AI團戰首秀,表現神乎其技

Dota 2是一個非常複雜的實時戰略遊戲。兩個分別由5名玩家組成的隊伍相互進攻,圍剿並摧毀對方玩家的基地。這款遊戲擁有115個可玩英雄,每個英雄都擁有獨特的技能和屬性,這意味著對於人類而言,完美操作應對遊戲的全部可能性基本上是不可能的。然而,AI或許可以打破這一侷限性。

Dota2也被AI佔領了!OpenAI打出4200逆天高分 超過90%人類玩家

▲Dota 2頂級職業玩家Dendi

去年8月的Dota 2國際邀請賽TI7上,Open AI的機器人在1v1比賽中完虐Dota 2頂級職業玩家Dendi。Dendi是世界知名Dota 2職業選手、solo高手,玩法靈活,經常玩出神級操作,曾帶領Navi戰隊拿下TI1冠軍和TI2、TI3亞軍。在這場人機對戰中,AI的表現相當彪悍,出手嫻熟狠厲,卡兵、壓制、補給等操作樣樣在行,幾乎刀刀致命,就連假動作和秀走位也展現超高水平。AI第一場僅用10分鐘就擊敗Dendi,第二局一開場就進塔強殺Dendi,逼得Dendi直接認輸並拒絕進行第三場比賽。

Dota2也被AI佔領了!OpenAI打出4200逆天高分 超過90%人類玩家

▲OpenAI Dota團隊的一個分支,拿著膝上型電腦,去年擊敗了Dota 1v1世界頂級專業玩家。

昨日,OpenAI的AI系統華麗升級,推出OpenAI Five系統首次挑戰5v5團戰,併成功擊敗Open AI內最好的員工團隊。這場比賽由專業評論員Blitz和OpenAI Dota團隊成員Christy Dennison參與評論,並被社群群眾圍觀。

在此次對戰中,團隊降低了一定的團戰難度:其一,對手非頂尖職業選手;其二,AI暫時只會使用5位英雄;其三,要求人類玩家不能使用真假眼。這些限制使得OpenAI Five參與的比賽比最具挑戰性的人類版本更簡單。

迄今為止,OpenAI Five已在和如下團隊發生過對戰:

1、最強OpenAI員工團隊:2500 MMR;

2、觀看OpenAI員工比賽的最強觀眾(包括評論第一場OpenAI員工比賽的Blitz):4000-6000 MMR;

3、 Valve員工團隊:2500-4000 MMR;

4、 業餘隊:4200 MMR,團隊訓練;

5、 半職業隊:5500 MMR,團隊訓練。

其中,MMR(MATCH MAKING RATING)指匹配等級,用來確保玩家能夠和真實實力相近的玩家對抗,並且影響玩家在賽後能夠獲得或者輸掉多少積分。經過一段時間,玩家積分將會逐漸向其隱藏MMR值靠近。

OpenAI Five在4月23日的版本首次擊敗指令碼基線,5月15日版本與第一隊平分秋色,贏輸各一場。在6月6日和1-3隊的對決中,新版本OpenAI Five贏得所有比賽。隨後團隊進行了呵4、5隊的非正式比賽,原以為AI會輸,孰料OpenAI Five前三場比賽就打贏兩場。

Dota2也被AI佔領了!OpenAI打出4200逆天高分 超過90%人類玩家

在比賽中,OpenAI Five為了控制敵方,反覆犧牲自己的安全路徑,迫使對方團隊難以防禦。為了從遊戲早期到中期比對手更快,OpenAI Five做出兩個行動:(1)建立成功的ganks(玩家在地圖上移動以埋伏對手英雄);(2)在對手集合前先行組隊推塔。

Dota2也被AI佔領了!OpenAI打出4200逆天高分 超過90%人類玩家

此外,OpenAI Five還有些非主流的打法,比如把前期經驗和錢給輔助英雄。它的優先順序能讓傷害值漲的更快,使其快速贏得團戰。研究團隊稱,OpenAI Five平均每分鐘執行150-170次動作,而理論上每4幀觀察到的最大值是450,這個時間掌控對於人類而言已經趨於完美。OpenAI Five的平均反應時間也比人類更快,僅為80ms。

Dota2也被AI佔領了!OpenAI打出4200逆天高分 超過90%人類玩家

▲ 在OpenAI員工和機器人進行比賽後頒發獎盃,機器人獎盃由其團隊的Susan Zhang代領

專業Dota比賽評論員Blitz表示:“感覺就好像五個知道優秀總體戰略的無私玩家協同合作,機器人的團隊合作令人深受衝擊。”

二、“刻苦”學習:每天玩180年的遊戲

OpenAI Five透過強化學習實現自我學習,每天透過積累的遊戲經驗需要人類用180年才能獲得,如此“勤學苦練”,擁有超強策略能力似乎也並不是什麼值得意外的事。

五個神經網路組成的團隊大大增加了AI系統對計算能力的需求,OpenAI Five使用在256個GPU和128,000個CPU核心上執行的擴充套件版近端策略最佳化進行訓練。對每個英雄使用單獨的LSTM並且不使用人類資料,它學習可識別的策略。

1、模型結構

每個OpenAI Five的網路都包含一個單層有1024個單元的LSTM,它可以通Valve的Bot API檢視當前的遊戲狀態,並通過幾個可能的動作做出下一步操作,比如延遲此動作的刻度數量、要選擇的動作數量以及單位周圍網格中此動作的X或Y座標等等。

Dota2也被AI佔領了!OpenAI打出4200逆天高分 超過90%人類玩家

2、勘探環境

為了能夠及時作出有效應變,OpenAI Five需要長期不斷地探索環境。OpenAI Five透過探索獲得對應的獎勵值,以衡量人們在遊戲中做出的進攻、輔助等決定,在減去平均獎勵後為OpenAI Five的下一步行動提供選擇的基準。

3、協調

OpenAI Five的英雄神經網路之間並沒有具體的通訊渠道,它們透過被研究人員稱為“團隊精神”的超引數控制團隊合作。“團隊精神”範圍從0到1,對OpenAI Five的每個英雄如何權衡多少個人獎勵與團隊獎勵提供了權值設定,從而使得系統因地制宜地學習新策略。

4、快速

OpenAI Five使用通用RL訓練系統Rapid,研究人員已經使用Rapid解決了OpenAI的競爭性自我對局(Competitive Self-Play)等其他問題。研究團隊使用自己的NCCL2封裝來並行GPU計算和網路資料傳輸,並採用Kubernetes,Azure和GCP後端。

Dota2也被AI佔領了!OpenAI打出4200逆天高分 超過90%人類玩家

三、挑戰比AlphaGo更高的難度

人們提到AI里程碑式的進步,往往會想到AI戰勝國際象棋或圍棋世界冠軍。如今,新的AI的里程碑則是在像StarCraft或Dota 這樣複雜的影片遊戲中表現超越人類。比傳統棋牌遊戲難度更大的是,複雜的影片遊戲開始捕捉現實世界的混亂和連續移動。這需要能夠適應這類遊戲規則的系統具有很高的通用性。

玩Dota 2的AI面臨以下幾個難點:

1、持續時間長

Dota遊戲以每秒30幀的速度執行,平均時間為45分鐘,每場遊戲平均80,000幀。OpenAI Five每4幀觀察一次,產生20,000次移動。幾乎所有的舉動是戰略性的。

2、觀察範圍受限

象棋和圍棋都是全資訊遊戲,而Dota遊戲中敵人可以隱藏,比賽需要根據不完整的資料進行推斷,並且需要實時掌握對手的狀態資訊。AI暫時不具備對視野的控制能力,玩的版本要求雙方只能在遊戲既定視野中對戰,不能根據能力改變視野。

3、高度連續的動作空間

在Dota中,每個英雄可以採取數十個動作。研究人員將每個英雄的空間分割成170,000個可能的行動;不計連續部分,每幀平均有大約1000次有效操作。而圍棋的平均動作數為250步,國際象棋則更少,僅有35步。

4、高維度連續的觀察空間

Dota在包含十個英雄、數十個建築物、幾十個NPC單位以及諸如符文、樹木和病房等一系列遊戲特徵,這些特徵將持續在梯田上移動。OpenAI Five模型透過Valve的Bot API觀察Dota遊戲的狀態,其中大約20,000個浮點數被用於表示允許人類訪問的所有資訊。相比之下,國際象棋棋盤大約需70個列舉值, 一個Go棋盤大約需400個列舉值。

Dota2也被AI佔領了!OpenAI打出4200逆天高分 超過90%人類玩家

Dota規則也非常複雜,遊戲已經被開發了十多年,擁有數十萬行復雜程式碼。這個邏輯需要幾毫秒的時間才能執行,而對於國際象棋和圍棋而言,只需要幾納秒。此外,遊戲每兩週更新一次,它大環境語義也在不斷改變。針對這些問題,OpenAI Five團隊使用Proximal Policy Optimization的大規模版本進行學習,其使用的CPU、圖形處理器、遊戲每秒觀察數等各種引數都較去年的OpenAI 1v1機器人有了全面的提升。

根據當前版本OpenAI Five的測試比賽表現,評論員Blitz估計它大致是Dota玩家的中間水平。在比賽過程中,研究人員發現,OpenAI Five會做出一些專業策略,比如為了長期的團隊回報而做出暫時的自我犧牲,以殘血將人類玩家誘出高地。這些觀察大大增加了研究人員的信心,對於遊戲中還沒有整合進來的一些元素,他們將在後續儘快加上。

結語:劍指TI8,我們的目標是星辰大海

這僅僅是個開始。儘管OpenAI Five還有很大的障礙需要克服,耗費了大量的人力和財力,它的野心又怎麼可能止步於和業餘玩家對局?OpenAI Five的研究團隊稱,他們正在專注於最佳化系統,希望它能超越人類的表現。

有了去年1v1的完勝成績,今年8月下旬,在加拿大溫哥華舉行的頂級Dota 2賽事TI8上,OpenAI Five將進軍5v5團戰,與真正的專業選手戰隊一決高下。在此之前的7月28日,OpenAI Five會先行與頂級玩家對戰,並透過Twitch的實況轉播和大家見面。

如果OpenAI Five能打出漂亮的一仗,它將分食DeepMind的AlphaGo系列帶給人們的雷霆。真實世界的AI部署要處理的難題遠遠比在國際象棋、圍棋、Atari遊戲中的問題更加複雜,“協作型”AI技將有望學會真實世界中複雜而混亂的重要任務。比如,透過相互配合在線上交易或廣告競價排名中拿下訂單,在組隊完成多樣化生產製造任務,甚至是完成外科手術等等。這些都會使人類雙手得到進一步解放。

OpenAI希望有朝一日,藉助和Dota 2比賽的經驗構建更加通用的系統,為人類社會做出貢獻。

原文來自:OpenAI,The Verge,Financial Times

Top