┊文章閱讀:次
騰訊AI Lab團隊在arXiv發(fā)表論文,通過對AI進行訓練,并與《王者榮耀》頂級人類玩家PK,最后獲得了48%的勝率。
終于,AI還是對《王者榮耀》下手了。
19日,騰訊AI Lab團隊在arXiv上發(fā)表文章,訓練AI大戰(zhàn)人類玩家,而此次所選擇的游戲,正是火遍大江南北的手游——《王者榮耀》。
論文地址:https://arxiv.org/pdf/1812.07887.pdf
騰訊團隊表示,游戲AI的下一個挑戰(zhàn)是即時策略(RTS)游戲。在與頂尖人類玩家大戰(zhàn)250回合之后,取得了48%的勝率!
AI“殺戮”王者峽谷
近年來,微觀層面的操作取得了很大的進步,但宏觀戰(zhàn)略的完整解決方案仍然缺乏。
騰訊AI Lab團隊提出了一種新的基于學習的分層宏觀策略模型,用于掌握RTS子類型游戲——MOBA游戲。
在層次宏觀戰(zhàn)略模型的訓練下,智能體能夠明確地做出宏觀戰(zhàn)略決策,并進一步指導其微觀層面的操作。
此外,每個智能體都可以在做出獨立的戰(zhàn)略決策的同時,通過利用一種新穎的模仿交叉通信機制與盟友進行溝通。
團隊從《王者榮耀》職業(yè)聯(lián)賽(KPL)比賽和訓練中收集了30萬個游戲回放記錄。最后,用于訓練的實例數(shù)量高達2.5億個。
在視覺方面,團隊提取了85個特征,例如所有單位的位置和生命點,然后將視覺特征模糊為12*12的分辨率;在屬性方面,團隊提取了181個特性,如英雄角色、游戲時間、英雄ID、英雄的金幣和等級狀態(tài)以及死亡、助攻量統(tǒng)計。
團隊將卷積層和完全連接層混合使用,分別從視覺和屬性特征方面獲取輸入。
而如何開局是MOBA最重要的策略之一。
下圖展示了通過模型學到不同英雄的開局注意力。每個子圖由兩個正方形組成。左側方形圖表示右側MOBA mini-map的注意力分布。
不同英雄的開場策略。最熱的區(qū)域用紅色圓圈標出。
從左至右分別是貂蟬(法師,中路)、韓信(刺客,打野)、亞瑟(戰(zhàn)士,輔助)、后裔(射手,下路)。
根據注意力預測,貂蟬將去中路,韓信將去藍Buff區(qū)域,亞瑟和后裔將去紅Buff區(qū)域,除此之外,宮本武藏(戰(zhàn)士,上單)將去上路發(fā)育。
這樣的開局策略在《王者榮耀》中非常流行。
隨著游戲的進行,注意力的分布是會發(fā)生變化的,如下圖所示:
為了體現(xiàn)宏觀策略、跨智能體通信機制以及相位層的重要性,團隊設計了如下實驗進行比較:
團隊刪除了宏觀策略,并加入錄像中的微觀操作來訓練模型。微觀模型的設計類似于OpenAI Five;在沒有跨智能體通信機制的情況下,將HMS與經過訓練的HMS進行匹配;刪除相位層,并將其與完整版HMS進行了比較;為了更準確的評估AI的表現(xiàn),還邀請了250位人類玩家團隊,他們的排名處于前1%。同樣,游戲規(guī)則和正常玩法一樣,也會涉及BAN英雄。
其結果如下表所示:
比賽統(tǒng)計。250場比賽是針對人類玩家,40場比賽分別針對無宏觀策略、無交流和無階段的比賽。
MOBA游戲介紹:以《王者榮耀》為例
MOBA類游戲現(xiàn)在占世界網絡游戲市場的30%,Dota、《王者榮耀》、《英雄聯(lián)盟》均屬此類游戲。MOBA類游戲在PC游戲和移動平臺游戲市場上均排名首位。
一局標準的游戲是5V5的組隊對抗賽,每個玩家控制一個單位,即英雄。王者榮耀中有80多個英雄可供選用,每個英雄有不同的戰(zhàn)斗特點和技能。玩家在游戲控制英雄移動,并釋放技能。
如圖所示。玩家使用左下角轉向按鈕來控制移動,而右下角則設置按鈕來控制技能??赏ㄟ^主屏幕觀察周圍環(huán)境,還可以通過左上角迷你地圖了解完整的地圖情況,其中可觀察的炮塔,小兵和英雄顯示為縮略圖。只有當他們是盟友的單位或與盟友單位相距一定距離內時才能觀察到該單位。
每個隊都有三組防御塔,每路各有三個塔。地圖上還有四個叢林區(qū)域,可以收集資源以增加金錢和經驗。每個英雄都以最低金幣值和等級1出生。兩隊都試圖利用資源獲得盡可能多的黃金和經驗,以購買物品和升級。最終目標是摧毀敵人的基地。 MOBA的概念圖如圖所示。 1B。
要想精通MOBA游戲,玩家需要具備出色的宏觀策略操作和熟練的微操。常見的宏觀策略包括開放,限制,傳遞消息,伏擊等。熟練的微觀層面執(zhí)行需要高度的控制準確性和對技能的損害和影響的深刻理解。宏觀策略操作和微觀層次執(zhí)行都需要掌握優(yōu)秀的時機,這使得它極具挑戰(zhàn)性和趣味性。
(a)《王者榮耀》的游戲UI。玩家使用左下角轉向按鈕來控制動作,而右下角則設置按鈕來控制技能。玩家可以通過屏幕觀察周圍環(huán)境,并使用左上角查看小地圖。(b)MOBA的示例地圖。這兩支隊伍的顏色為藍色和紅色,每個隊伍有9個炮塔(圓圈)和一個基地(方塊)。四個叢林區(qū)域的編號從1到4
下面以《王者榮耀》為例,對MOBA的計算復雜度進行量化。
MOBA游戲計算復雜度的量化
一局《王者榮耀》一般游戲長度約為20分鐘,即游戲核心約為20000幀。在每一幀中,玩家需要在數(shù)十個選項中做出決定,包括24方向的移動方向控制,以及向相應的位置/方向上釋放技能等。即使具有顯著的離散化和簡化處理,并將最快反應時間增加到200ms,需要處理動作空間也達到101500
至于狀態(tài)空間,王者榮耀地圖的分辨率是130,000*130,000像素,每個單位的直徑是1000像素。在每一幀上,每個單位可能有不同的狀態(tài),如生命值,等級,金幣數(shù)量等。同樣,狀態(tài)空間大小為1020,000。下表中列出了MOBA和圍棋之間的動作空間和狀態(tài)空間復雜度的比較。
圍棋和MOBA游戲的計算復雜度比較
MOBA游戲中AI的宏觀戰(zhàn)略架構
我們設計MOBA AI宏觀戰(zhàn)略模型的動機源于人類玩家如何做出戰(zhàn)略決策。在MOBA游戲中,經驗豐富的人類玩家完全了解游戲的每個階段,例如開局階段,推線階段,游戲中期和游戲后期階段。在每個階段中,玩家都會關注游戲地圖,并根據英雄的位置做出相應的決定。例如,在推線階段,玩家傾向于更多地關注自己所在的路,而不是去支持隊友,而在中后期階段,玩家更多地關注團戰(zhàn)點,并推向敵人的基地。
綜上所述,我們將宏觀戰(zhàn)略運作過程表述為“階段識別 - >關注預測 - >執(zhí)行”。為了模擬這個過程,我們提出了一個兩層的宏觀策略架構,即階段層和注意力層:
? 階段層負責識別當前的游戲階段,以便注意力層可以更好地了解應該注意的位置。
? 注意力層旨在預測游戲地圖上的最佳區(qū)域,將英雄移動至該區(qū)域。
階段層和注意力層充當微級執(zhí)行的高級指導。我們將在下一節(jié)中描述建模的細節(jié)。微觀模型的網絡結構幾乎與OpenAI Five1中使用的網絡結構相同,但是采用監(jiān)督學習方式。我們做了一些小修改,以使其適應王者榮耀,比如刪除了瞬移技能。
分層宏觀戰(zhàn)略模型
我們提出了一種分層宏觀策略(HMS)模型,以在統(tǒng)一的神經網絡中考慮階段層和注意力層。我們將首先介紹統(tǒng)一的網絡架構。然后,我們將說明如何構建每個階段層和注意力層。
概述
我們提出了一種分層宏觀策略模型(HMS),將注意力層和相位層作為多任務模型進行建模。它將游戲功能作為輸入。輸出包括兩個任務,即將注意力層作為主要任務,階段層作為輔助任務。注意力層的輸出直接將宏觀策略嵌入,傳遞給微觀模型,而資源層則作為一個有用的任務,細化注意力層和階段層任務之間的共享層。 HMS的網絡結構如圖所示。
HMS將圖像和矢量特征作為輸入,分別承載視覺特征和全局特征。在圖像部分使用卷積層。在矢量部分使用全連接層。圖像和矢量部分合并在兩個單獨的任務中,即注意力層和階段層。最終,注意力和階段任務從共享層通過自己的層輸出,并輸出到計算損失。
注意力層
與玩家根據游戲地圖做出決策的方式類似,注意力層會預測智能體移動的最佳目標區(qū)域。但是,從數(shù)據中判斷出玩家的目的地在哪里是很困難的。我們觀察到,發(fā)生攻擊動作的區(qū)域可以指示玩家英雄的移動目的地。根據這一觀察,我們將地面真實區(qū)域定義為玩家進行下一次攻擊的區(qū)域。如圖所示。
設s為包含多個幀的游戲中的一個會話,s-1表示s之前的會話。 s - 1是游戲中的第一個會話。讓ts成為s的起始框架。請注意,會話以攻擊行為結束,因此在英雄進行攻擊的ts中存在區(qū)域y。如圖所示。s-1的標簽是ys,而s的標簽是ys + 1。直觀地說,以這種方式設置標簽,是希望智能體學會在游戲開始時移動到y(tǒng)s處。
階段層
階段層旨在識別當前的游戲階段。提取關于游戲階段基礎信息是很困難的,因為人類玩家使用的階段定義是抽象的。雖然游戲階段與時間大致相關,但是更多取決于對當前比賽情況的復雜判斷,這使得想從重放錄像中提取真實的比賽階段信息非常難。
幸運的是,我們觀察到游戲階段與主要資源數(shù)量之間的存在明顯的關聯(lián)。例如,在開局階段,玩家通常會瞄準外塔和baron,而在游戲后期,玩家會操縱目標摧毀敵人的基地。
因此,我們對主要資源進行階段性建模。更具體地說,主要資源表示炮塔、baron、龍和基地。我們在圖4A中標出了地圖上的主要資源。對階段層的標簽定義類似于注意力層。唯一的區(qū)別是,階段層中的ys表示對炮塔,baron、和基地的攻擊行為,而不是區(qū)域。我們不會將其他資源(如英雄、小兵和中立生物)視為主要目標,因為通常這些資源是為了實現(xiàn)更大的目標,例如摧毀炮塔或基地。
對多智能體間的通信的模擬
多智能體間的通信對于智能體團隊合作至關重要。關于多智能體強化學習研究中的通信問題已有很多研究文獻。然而,在監(jiān)督學習中使用訓練數(shù)據來學習通信是具有挑戰(zhàn)性的,因為實際的通信情況是未知的。
為了使智能體能夠在監(jiān)督學習環(huán)境中進行通信,我們設計了一種新的通信機制。在訓練階段,我們將盟友的注意力標簽作為訓練特征。在測試階段,我們將盟友的注意力預測作為特征進行相應的決策。通過這種方式,我們的智能體可以實現(xiàn)彼此“溝通”。
【來源:新智元】
Copyright @ 2013-2018 中國福建網 版權所有
聯(lián)系我們
免責聲明:本站為非營利性網站,部分圖片或文章來源于互聯(lián)網如果無意中對您的權益構成了侵犯,我們深表歉意,請您聯(lián)系,我們立即刪除。