全系標配滿級防水,OPPO A5 系列新品正式發布

AlphaGo 真的要去打星際了?DeepMind 用星際爭霸訓練 AI
人工智能不下圍棋改玩電競。
在征服了雅達利游戲,以及圍棋選手李世石和柯潔之后,Google 旗下的人工智能實驗室 DeepMind 將眼光瞄向了更高的挑戰 —— 星際爭霸。
事實上,星際爭霸的游戲方式非常適合 DeepMind 訓練人工智能的記憶、計劃等高級的技能。自去年 AlphaGo 打敗李世石之后,DeepMind 就和星際爭霸的創造者暴雪游戲公司達成合作,用游戲訓練 AI。今天,用于訓練 AI 系統的軟件在 Deep Mind 官網上發布了出來。
這個叫做 SC2LE 的軟件主要包括一套用于加速 AI 在星際爭霸的訓練的工具,具體內容如下:
- 由暴雪公司開發的機器學習 API,幫助開發者和研究人員參與到星際爭霸游戲中
- 一個匿名的游戲數據集
- 開源的 DeepMind 工具集 PySC2,可以讓研究人員非常容易地使用暴雪游戲的 API
- 一系列簡單的增強學習迷你游戲,用于測試 AI 系統特定的功能和任務
- 一些研究論文,幫助開發者了解整個游戲環境,報告迷你游戲的測試結果等
SC2LE 軟件工具包能夠讓 AI 系統像人類玩家一樣玩游戲,也就是說,AI 系統和人類玩家有著相同的約束條件,比如開局時無法看到游戲的全地圖、無法快速點擊鼠標。這就要求 AI 系統通過不斷地試錯來進行學習, 或者叫做「增強學習」。

為什么星際爭霸可以用來訓練 AI 系統呢?
在計算的精度和速度上,計算機遠超人類,但是在更高層級的「抽象思維」能力上,計算機短時間內還無法達到人類的水平,而電子游戲就是訓練計算機「抽象思維」的重要工具。星際爭霸被玩家們稱作最難的即時戰略游戲,該游戲的搜索和決策空間比圍棋大了多個數量級,AI 在進行訓練時不僅要考慮戰斗策略,環境探索,建筑和技能升級,還要考慮資源的搜集和分配等因素。另外,游戲早期所采用的生產和戰斗策略不一定會立即產生效果,所以游戲玩家必須做好長期的戰略規劃,這對 AI 來說是個不小的挑戰。
DeepMind 研究員,同時也是星際爭霸頂級玩家的 Oriol Vinyals 說:「游戲提供的一個很有趣的機制叫做『戰斗迷霧』,它迫使玩家探索地圖,找到敵人的位置,分析敵人的發展狀況。對于人類玩家來說,『探索地圖』這樣的游戲方式已經習以為常,但對 AI 來講就不一定 ,AI 需要不斷地學習才能形成一種常識,這樣的挑戰在之前的圍棋大戰是不存在的。」
對于 AI 的訓練,DeepMind 希望通過一系列的「迷你游戲」,將整個游戲分解成多個可管理的,簡單的機制進行訓練,比如收集資源、游戲單位的移動、造房子等,然后從中來評估 AI 的訓練結果。

根據 DeepMind 的初步調查顯示,AI 在這些迷你游戲中表現良好。但在一場完整的游戲比賽中,再強大的 AI 系統也無法完成一場最簡單的星際爭霸比賽,DeepMind 表示,他們將繼續優化訓練方法,爭取在深度增強學習領域有所突破。
DeepMind 和暴雪的訓練正在進行中,但是已經有專業玩家對「人機大戰」表示興趣十足。韓國星際電競選手卞玄宇說:「我不認為現在的人工智能在星際爭霸上能夠打敗一位專業的玩家,至少在我有生之年內不會。」
計算機不斷采用新的方式來解決問題,并形成一種「常識」,這是一件很有挑戰性,也很有意思的事情,它有可能會給世人帶來很多驚喜。不過,作為一名 AI 和電子游戲的愛好者,我期待著人類玩家和人工智能在星際爭霸上對決的那天。