西洋棋一直是 AI 實驗室。70 年前艾倫·圖靈想製造能自我學習、不斷進步的下棋機器,20 世紀誕生的「深藍」第一次擊敗人類,但是靠專家輸入西洋棋知識;2017 年出現的 AlphaZero 為神經網路驅動強化學習機器,實現了圖靈的夢想。
AlphaZero的啟發式演算法無需任何人工設計,也不需看人類下棋,完全自我對弈訓練。那它真的學到人類下西洋棋的概念嗎?這是神經網路的可解釋性問題。
最近AlphaZero作者Demis Hassabis與DeepMind同事及Google Brain研究員合作研究,從AlphaZero神經網路找到人類下西洋棋概念的證據,顯示神經網路訓練過程獲得概念的時間和位置,還發現AlphaZero與人類不同風格之處,論文發表於PNAS。
AlphaZero的網路架構含骨幹殘差網路(ResNet)和單獨Policy Head、Value Head,ResNet是一系列網路塊和跳躍連接(skip connection)層構成。訓練迭代(iteration)方面,AlphaZero從有隨機初始化參數的神經網路開始,反覆與自己對弈,學習棋子位置評估,根據產生數據再次訓練。
為了確定AlphaZero網路多大程度顯示人類下棋概念,研究使用稀疏線性探測法,將網路訓練過程參數變化映射為人類可理解的變化。
首先將概念定義為圖1橘色所示用戶定義函數。當作探針,廣義線性函數g訓練用於近似西洋棋概念c。近似值g質量表示層(線性)對概念編碼的程度。給予概念,對每個網路所有層訓練過程產生的網路序列重複過程。
▲ 圖1:AlphaZero網路(藍色)探索人類編碼的西洋棋概念。(Source:PNAS,下同)
可用一個函數確定我或對手是否有「主教♗」:
當然還有很多比這例子更複雜的西洋棋概念,如棋子機動性(mobility),可編寫函數比較我和對手移動棋子時的得分。實驗時概念函數預先指定,封裝西洋棋領域知識。
接下來是探針訓練。研究人員將ChessBase數據集中10的5次方個自然出現位置為訓練集,從深度d的網路觸發訓練稀疏回歸探針g,預測概念c的值。比較AlphaZero學習週期不同訓練步驟的網路,以及每個網路不同層不同概念探針的分數,就可提取網路學習某個概念的時間和位置。
最終得到每個概念的what-when-where圖,可視化「計算概念是什麼」、「計算網路哪個位置發生」、「概念在網路訓練什麼時間出現」三指標。如圖2。
▲ 圖2:從A到B的概念分別是「總分評估」「我被將軍了嗎」「威脅評估」「我能吃掉對手的皇后嗎」「對手這步棋會將死我嗎」「子力分數評估」「子力分數」「我有士兵嗎」。
可看到圖c隨著AlphaZero更強,「threats」概念函數和AlphaZero表徵(可由線性探針檢測到)越來越不相關。
這what-when-where圖包括探測法較需要的兩個基線,一是輸入回歸,第0層顯示,二是來自有隨機權重的網路觸發回歸,訓練步驟0處顯示。上圖結果可得出結論,回歸精確度變化完全由網路表徵變化決定。
此外,許多what-when-where圖結果都顯示相同模式,即整個網路回歸精確度一直都很低,直到約32k步時才隨網路深度增加迅速提高,隨後穩定並在後面層保持不變。所以所有與概念相關的計算都在網路相對早期發生,之後殘差塊則在執行移動時選擇,或計算給予概念集之外特徵。
隨著訓練越多,許多人類定義概念都可從AlphaZero表徵預測,且準確率很高。
更高級的概念,研究人員發現AlphaZero掌握度還是有差。首先2k步驟時與零顯著不同概念是「material」和「space」;更複雜的概念如「king_safety」、「threats」、「mobility」則是8k步驟時明顯變為非零,且32k步驟後才有實質增長。這結果與圖2 what-when-where圖顯示的r²急劇上升點一致。
多數what-when-where圖顯著特徵是網路回歸精確度開始階段就增長迅速,之後達平穩或下降。代表從AlphaZero發現的概念集還只是檢測網路較早層,要了解後面層,需要新概念檢測技術。
觀察AlphaZero學到人類下棋概念後,研究人員針對開局策略探討AlphaZero對西洋棋戰術的理解,因開局選擇隱含相關概念理解度。而AlphaZero與人類開局策略不同:AlphaZero會縮小範圍,人類是擴大範圍。
如圖3A是人類對白棋第一步偏好歷史演變,早期流行e4為第一步棋,後來開局策略更平衡靈活。圖3B則是AlphaZero開局策略隨訓練演變。可看到AlphaZero開局總是平等權衡所有選擇,然後逐漸縮小範圍。
▲ 圖3:隨著訓練步驟和時間過去,AlphaZero和人類第一步的偏好比較。
這與人類知識演變形成鮮明對比,人類知識從e4開始逐漸擴展,AlphaZero在訓練後期明顯偏向d4。不過偏好不需過度解釋,因自我對弈訓練是基於快速下棋,為了促進探索增加許多隨機性。造成差異原因不清楚,但反映人類與人工神經網路的根本差異。可能原因或許是人類西洋棋歷史資料更強調大師玩家的集體知識,AlphaZero的數據包括初學者和單一進化策略。
那當AlphaZero神經網路經多次訓練,是否會出現對某些開局策略的偏好?
研究結果是,許多情況下,偏好在不同訓練並不穩定,AlphaZero開局策略非常多樣。如經典Ruy Lopez開局(俗稱「西班牙開局」),AlphaZero早期有選擇黑色的偏好,並遵循典型下法即1.e4 e5,2.Nf3 Nc6,3.Bb5。
不同訓練時AlphaZero會逐漸收斂到3.f6和3.a6之一。此外,AlphaZero不同版各自顯現對某動作的強烈偏好,且訓練早期就開始建立。這證明西洋棋下法多種多樣,不僅人與機器之間可見,也在AlphaZero不同訓練裡。
關於開局策略的研究結果,與AlphaZero概念理解有什麼關聯?研究發現,各種概念what-when-where圖有明顯拐點,與開局偏好顯著變化吻合,尤其material和mobility概念似乎與開局策略直接相關。
material概念主要是10k至30k步驟學到,piece mobility概念也在同時期逐步融入AlphaZero的value head。棋子material價值基本理解應先於棋子mobility理解。然後AlphaZero將理論納入25k~60k步驟的開局偏好。
作者分析AlphaZero網路的西洋棋知識演變過程:首先發現棋力,接著短時間窗口基礎知識爆炸式增長,主要與mobility相關概念;最後是改進階段,神經網路開局策略在數十萬步驟內完善。雖然學習時間很長,但特定基礎能力會在相對較短的時間內迅速出現。
前西洋棋世界冠軍Vladimir Kramnik也被邀請來為結論佐證,他的觀察與上述過程一致。
最後總結,這項研究證明AlphaZero學到的棋盤能夠重建許多人類西洋棋概念,並詳細說明網路學到的概念,訓練時間學習概念的時間及計算概念的網路位置。且AlphaZero下棋風格與人類並不相同。既然我們以人類定義的西洋棋概念理解神經網路,那麼下個問題將是:神經網路能學到人類知識以外的東西嗎?