從《王者榮耀》“開悟”中,窺見人工智能的未來


現場採訪:彭楚微

撰稿:彭楚微、祝佳音

“您覺得強人工智能快要出現了嗎?”我問鄧民文。

“不管是聊天,還是做圖,目前還都屬於基本工具範疇裡的進展。”鄧民文這麼回答我。他坐在我的面前,似乎把採訪看成是啟發思考的討論。當有人提醒我們問答要按照流程時,他揮揮手,示意大家輕鬆一點,這讓他有一點兒學者的氣度。

“比如人說話,不僅可以回顧過去,也能預測未來,目前的聊天機器人不能預測未來,因為它是基於歷史數據去做的,所以它對於預測是比較弱的。”鄧民文說,接著他又補上一句自謙的話:“這個是我的簡單思考。”

我和鄧民文聊的話題是最近火熱的人工智能。上週二,騰訊在成都舉行了本年度的STAC科創聯合大會。 STAC,簡單理解,就是用技術聯結生活、聯結生產,而“技術”,具體而言指的就是人工智能。

STAC科創聯合大會已經舉辦到了第3屆

如鄧民文所說,目前的人工智能更為人熟知的是根據既定事實進行回顧和總結的功能,而少有從記憶中總結經驗,從而“預測未來”的能力——按我的理解,這裡所說的“未來”既包括數十年之後,也包括1秒之後。他說,“決策型人工智能”就是一種能“預測未來”的人工智能——模型根據未來的預期效益,決定此刻的行為。強化學習,是目前實現智能決策的最優方法,按照他的說法,“開悟”平台主要做的就是強化學習研究。

我和鄧民文不是第一次打交道。在2年前的程序員節上,我和他就聊過用《王者榮耀》訓練人工智能的事兒。鄧民文是騰訊AI Lab智能計算中心總監和“開悟”平台的技術負責人,“開悟”是“騰訊牽頭構建的,依托騰訊AI Lab和《王者榮耀》技術與研究環境的AI開放研究平台”。

在那篇文章中,我打過一個比方:人工智能就像孩子,想要讓孩子懂事兒,你就需要教他知識,讓他在世界中奔跑以積累經驗——“開悟”就是那個孩子,《王者榮耀》就是讓這個孩子積累經驗的世界。

讓我們好奇的是,時至今日,當初的孩子長大了嗎?

“AI向善”

先簡單介紹一下人工智能吧。 “人工智能”並不是一個新的術語,它已經有幾十年的歷史了。大約在上世紀80年代初,計算機科學家們就開始設計可以學習和模仿人類行為的算法。如果說人工智能是個孩子,那麼,你可以把算法看成這個孩子的教育方式。

現在,“開悟”平台上的人們,正在讓人工智能進行強化學習。所謂“強化學習”,就是人工智能不僅能利用現有數據,還可以通過事先設計的獎勵規則,讓AI在行動中根據反饋自我修正,逐步學會正確的行為模式。

學習是為了更好地對環境進行探索,而探索是為了獲取數據反饋進行更好的學習。如果說深度學習是死記硬背式的學習方式,那麼,強化學習更像是一個什麼都不懂,但被放在考場中不斷考試的學生,通過分數(反饋)知道自己做對了什麼,在大量嘗試中提高分數。

延伸閱讀  這小說有點離譜!女主放著聖女不當非要做魔王,還有可愛公主相伴

比起監督學習需要的大量標註數據,強化學習的關鍵是讓人工智能自主地對環境進行感知和探索,在和環境交互過程中,產生大量數據。 “如果你想實現強人工智能,就要依賴特別多的數據,但是問題在於,現在很多場景數據不多。”鄧民文對我說道。

鄧民文在STAC科創聯合大會上

場景越複雜,越能模擬真實的環境,人工智能強化學習的效果就越好。在過去,學術界用的環境往往比較簡單,比如走迷宮,這些環境適合教育入門,卻無法對應更深度的研究和發展。這種時候,遊戲便自然而然地走入了研究者們的視野。最早是簡單的智力遊戲,比如棋類,大名鼎鼎的AlphaGo就是這麼幹的,它可以同時開展很多對戰,通過對棋類游戲的規則模擬獲得海量的數據。

但棋類游戲是一個封閉系統。儘管它的空間複雜程度對於普通人來說難以想像,卻並不是人工智能的算力上限——概括地說,它不夠複雜,也不夠符合現實。

這時,研究者們就需要更加複雜的環境。多人對抗類游戲由此成為熱門選擇。早在2017年,《刀塔2》就曾開放內部代碼供給研究團隊訓練人工智能,第二年,名為Open AI的機器人就能在賽場上和職業玩家對戰。但其後,《刀塔2》很快停止了對人工智能訓練的支持,國內研究者也無從尋找合適的遊戲進行學習。

如今,Open AI與《刀塔2》的故事已經家喻戶曉

同樣在2017年,《王者榮耀》團隊與騰訊AI Lab共同研發了策略協作型人工智能,這也就是現在玩家們耳熟能詳的“王者絕悟”。按介紹所說,王者絕悟是深度強化學習、多智能體決策等智能課題上的重要研究成果——這得益於《王者榮耀》高複雜度、高挑戰性、強協作性等特徵。介紹還說,因為《王者榮譽》能夠滿足研究人員的一系列要求,包括環境的不確定性、信息獲取的局限性、個體目標與全局目標的一致性(這些詞兒聽起來有些嚇人)。所以,2019年8月“開悟”平台的上線,對人工智能的研究和發展具有重要意義。

如果再用棋類游戲來類比,圍棋和MOBA在狀態空間複雜度上有著明顯的差異。通俗地說,圍棋下一個子就是一次“狀態”變更,而MOBA遊戲中,一個英雄每向前走一步,就算一個狀態變更,還要涉及到多個維度。以數字而言,一局圍棋的狀態空間大約是10的172次方,而一局《王者榮耀》則可高達10的20000次方。

鄧民文對我說:“我們提供的環境比較複雜,所以也給學術界提供了一種新的嘗試,它既有原來教育的簡單的環境,也有我們比較複雜的環境。”

鄧民文口中的新嘗試,指的是在2022年11月份, “開悟”平台宣布正式開放“《王者榮耀》AI開放研究環境”申請。開放的環境基於《王者榮耀》1v1對局,用個簡單的例子,就是研究者們使用兩個AI來操控英雄相互戰鬥。在《王者榮耀》中,戰鬥的規則相對複雜——不僅要攻擊,要釋放技能,技能又影響到走位、狀態等等因素,所以非常適合用作學術上博弈問題的研究。

這種博弈環境比圍棋更加複雜,也更能夠挑起年輕人們的興趣——如今在視頻網站上有一種新潮的風格,叫做“電子鬥蛐蛐”,簡單來說就是讓自己調試好的AI在遊戲中進行戰鬥。年輕人大多是天然的玩家,《王者榮耀》又常常是他們第一款啟蒙遊戲。誰能拒絕看兩個英雄在自己的學習成果下相互戰鬥呢?

AI也可以在峽谷中展開博弈

正因為“開悟”平台同時滿足了研究者的興趣和要求,所以到目前為止,申請超過了400人次。這遠超出了鄧民文的想像。鄧民文告訴我,他原本並沒有很高的預期,因為這個領域的研究比較困難,研究這個領域的學者也不是很多。

“我們把它往前推了一步,從原來缺少的訓練環境的現狀,這是我們覺得做得比較好的地方。”鄧民文笑了起來,還帶著點兒欣慰,其慈祥程度讓我想起望子多時的父母:當初的孩子終於長大了些,可以對外做點什麼了。

當然,如今的“開悟”平台不僅把教育和興趣相結合,也在理論和實際應用之間承擔著橋樑的作用。就像本次大會的主題:“AI(愛)在——合則有靈,萬物共生”一樣,AI在從遊戲中學到的知識將被用到和萬物相融的方向。 “AI向善”,是會上發言的嘉賓們不斷重複的一句話。

通過“開悟”平台,研究者們可以有條件研究博弈問題,博弈的問題不僅是學術前沿的問題,也和現實生活息息相關。鄧民文告訴我:“研究機器人的路徑規劃、智能的物流,或者是交通燈,或者研究虛擬場景下兩個智能體的交互。這些場景下,我們這個《王者榮耀》的研究環境比較好,所以才會吸引到很多的學生以及老師去把這個環境下載下來。”

基於遊戲虛擬場景,訓練AI的通用能力,讓更智能的AI在各領域服務人類,是遊戲AI研究的核心目標。舉個例子,假如AI在王者峽谷中,能夠快速分析瞬息萬變的環境和對手並作出決策,這個能力運用於同樣複雜的真實城市路況,就是自動駕駛AI的雛形;當AI學會瞭如何控制5個隊友配合互助,或許就能在工業環境中操作多個機器人,完成複雜的生產任務。

和高校與科研團隊建立長期合作,將現實問題“請”到遊戲之中,通過低成本的遊戲環境去模擬和解決現實問題。最後,讓AI通過在遊戲中學習去解決現實中的問題,正是本次大會“AI向善”主題下,“開悟”希望用遊戲科技去探索的方向。

延伸閱讀  動視暴雪,永恆的終結

“人人有高光”

上午10點30分,和鄧民文聊過後,我回到會議廳。此時,《王者榮耀》對外宣布了新的賽事,並提出了“以賽促學,學以致用”的理念。在未來,所有高校的研究者都將能夠有機會使用“開悟”平台,參與到“開悟”平台的賽事之中,“人人有高光”。

“賽事”指的是2023騰訊開悟人工智能全國公開賽,在這之前,“開悟”平台所舉辦的賽事都是以“邀請賽”的形式進行的。而在接下來的幾個月間,這項賽事將轉變為公開賽。也就是說,在這次大會之後,全國大大小小的院校,不需要資格,就可以獲得由《王者榮耀》等平台提供的研究資源、計算平台、評估工具等等其他服務。

STAC科創聯合大會上,2023騰訊開悟人工智能全國公開賽正式發布

從這個意義上說,“人人有高光”不僅是說每個人都能參賽,也表示在人工智能科教方面,“開悟”平台在逐步推動AI教育資源的普及——這些服務不僅面向重點大學,更會走進更多普通的本科和大專,開展機器學習、強化學習、多智能體決策等相關課程。鄧民文告訴我,將會有許多來自騰訊的老師前去各個高校分享教學經驗。

“我們幫助一些高校的老師,培訓他們使用我們的工具,這不是說我們就比老師們要更厲害,”鄧民文說,“而是我們前期跟4所高校的合作得到了一些經驗,把這些經驗分享給更多高校,就可以讓更多人學會怎麼使用我們的工具去教學。”

根據騰訊提供的數據,“王者AI”相關課程合作高校數量從去年的4所增至今年的19所。有超過20個班級的學生參與了“王者AI”相關課程的學習,累計學生超過630名。

授人以魚不如授人以漁,這聽起來很鼓舞人心。

通過人工智能,《王者榮耀》以“開悟”平台和高校教育相聯結。遊戲是平等的,人人都可以拿起自己手機,在遊戲中獲得屬於自己的高光時刻。 “開悟”平台不僅充當了遊戲、產業和教育的橋樑,也把遊戲本身的平等氣質帶給了大學生們。

雖然說起來很輕巧,但這同樣需要許多人的努力加上合適的時機才能促成。 “開悟”平台賽制的轉變是個有趣的例子。

從2020年8月的首屆“騰訊開悟MOBA多智能體強化學習”大賽起,通過3年的積累,賽事逐漸提升了平台易用性,降低了賽題門檻;準備了體系化的人工智能課程,幫助參賽選手更好地學習和參與比賽。如今,也將會把課程和平台引入高校課堂,把實踐教學與競賽聯繫起來,實現’以賽促學,學以致用’,讓高校學子有更大的平台驗證和鍛煉自己。

第3屆騰訊多智能體強化學習大賽冠、亞、季軍

根據“開悟”平台官網的介紹,在今年,“開悟”將可供測試和研究人工智能的客戶端版本調整為了Web版本——這意味著電腦配置比較低的學生,也能夠使用“開悟”平台來進行強化學習和多智能體相關的技術研究。同時,“開悟”也拓展了新的迷宮地圖——比傳統的峽谷PvP地圖更簡單。這一方面表示,更簡單的地圖能夠讓初次接觸相關領域的學生更輕鬆上手研究;同時,應用到比賽中,也能降低相關賽事門檻。

在現場,當宣布完騰訊“開悟”AI賽事將從往年的定向邀請模式改為公開報名模式的時候,我聽見一陣掌聲響起。當時我正在會議廳門外站著,這給我提供了一個站在角落旁觀整個會場的機會,過了一會,我注意到周圍站了不少年輕人,掌聲也大多由他們而起。

他們是各個高校的學生,像是正在發芽的種子,接受著外界的陽光和雨露,他們知道自己想要什麼,並為之鼓掌歡呼。他們也是中國人工智能產業的希望。

寫在騰訊STAC⼤會後

延伸閱讀  間諜過家家:約爾的弟弟登場,送上神助攻

成都的5月充滿了水和霧氣,這是萬物蓬勃生長的季節,給人一種希望感,正如這次大會給我的感覺。

人工智能正迎來猛烈發展的時期。在今年,國家出台了一系列支持人工智能的規劃綱要和行動計劃,將人工智能明確為建設創新型國家,實現新型工業化、信息化,推動經濟高質量發展必不可少的技術基礎。隨著過去一年中,各類繪圖、聊天AI的出現,以AI為典型代表、基於大模型應用的技術創新和產業成果,也開始在我國全面展開。

《王者榮耀》和“開悟”平台正在做的事兒就是“播種”,通過自身的影響力為我國AI產業的未來播下希望的種子,並溫和地對待它們,盡力讓每一顆種子能夠擁有成長的條件。某種程度上,能夠這樣做,並選擇這樣做的《王者榮耀》是一款電子遊戲理想的樣子:它好玩,影響力足夠大,並且足夠成功,在做好自己分內事情的基礎上開始思考更大的命題:科學的發展、教育的公平,讓更多的人——無論玩遊戲的人,還是不玩遊戲的人——都變得更好。

3年來,“開悟”平台播下的種子,其實已經初見成效,騰訊與西南交大合作的智慧交通項目進行到了實驗階段,預計今年下半年進入校內場景測試。

一切並沒有那麼快,當初的那個孩子,如今仍然沒有長大成人,它只是長大了一些。但所有人都是從孩童時代開始的,AI技術已經開始在用自己的一點點努力去帶動更多人成長,並回報整個社會。

騰訊AI Lab總經理楊巍

“最困難(的時候)是我們之前跟《王者榮耀》一起做這件事情時,我們做這件事情,可以說是史無前例的。”在採訪的尾聲,騰訊AI Lab總經理楊巍這樣對我說。

既史無前例,也希望無窮。

Scroll to Top