Google DeepMind 資深研究員黃士傑博士介紹 AlphaGo 的背後系統


如果大家有看李世乭AlphaGo 的對奕的話,應該都會注意到在李世乭對面有個將 AlphaGo 的棋步下到棋盤,並且將李世乭的棋步再輸到電腦上的人。這位就是 Google DeepMind 的資深研究員,也是 AlphaGo 的主要程式開發者,台灣出身的黃士傑博士。黃士傑博士畢業於台灣師範大學,博士論文就是以「應用於電腦圍棋之蒙地卡羅樹搜尋法的新啟發式演算法」,本身也是業餘六段的圍棋棋手。


AlphaGo 的祕密,就在於它的深度學習網路。圍棋是最終極的資訊公開遊戲,也就是說所有的資訊都擺在電腦面前,因此困難度不在於「猜測」,而是在於如何能分析看似無限的資訊與可能。AlphaGo 有兩個主要的網路,一個稱為「策略網路(Policy Network)」,一個稱為「值網路(Value Network)」。前者是由學習人類的棋譜而來,經由分析數十萬個人類的棋譜,它可以選出 20 個勝率最高的下一步棋,有效地減少分析的廣度。後者則是盤面優勢的判斷機制,計算每種不同的下法進行後,勝率的變化。如果 AlphaGo 在試走了兩三步棋後,發現勝率不足的話,就會放棄這個走法,改試其他的可能。換言之,值網路可以有效地減少分析的深度。如果值網路發現所有的走法勝率都不足 20% 的話,AlphaGo 就會投降囉。這兩者加起來,讓 AlphaGo 在有限時間內可以做出更多棋步的運算,成為遠超過去圍棋程式的存在。

黃士傑博士也分享了他坐在李世乭九段前對奕的心得。因為自己也是棋手的關係,他完全知道李世乭面對的壓力有多大,所以他盡量不出聲,也不做什麼大動作來影響對方。不過他自己也是非常辛苦的:AlphaGo 所有的參數都是以 AlphaGo 自己擁有的時間為基準,如果黃需要做任何事 -- 例如上廁所 -- 的話,用的都是 AlphaGo 的時間,所以這些額外用時都是愈少愈好的。

DeepMind 團隊還在分析這次的比賽,特別是輸掉的第四場,要了解是程式有 bug,還是學習網路終究有限制。目前 AlphaGo 還沒有下一步的計畫,特別是對於大家都在談論的挑戰棋王柯潔,目前還沒有這樣的準備。不過考慮到 AlphaGo 的開發僅三年就有這樣的成果,再加上未來電腦運算能力只會愈來愈高,如果再給 AlphaGo 一年半載的話,說不定李世乭真的就是史上唯一贏過 AlphaGo 一場的人了...