其實在第二代的「Master」完勝了當今棋壇最強的柯潔之後,AlphaGo 的對手就已經不再是人類了。但令人沒想到的是,賽後短短幾個月它竟然又完成了一次進化。全新的 AlphaGo Zero 毫無意外地超越了前面兩代,不過比結果更重要的是,這次它「從零開始」用了一套完全不同的訓練方法。過去的 AlphaGo 都是在與無數人類業餘、職業棋手的對決中慢慢成熟,但 Zero 自誕生起就徹底摒棄了人類輸入,然後靠著自我學習、自我對弈孤身成長為了 DeepMind 口中的「史上最強棋手」。

那這個「最強」到底有多強?看看下面這串數字你估計就會有一個概念了。Zero 在對陣打敗了李世乭的那一版 AlphaGo 之前,只花了區區三天的訓練時間,就以 100 比 0 的絕對優勢取勝。然後在經過了 40 天的內部機器對戰以後,它又以 89 比 11 的懸殊差距輕取戰勝了柯潔的「Master」版本。在得知新 AlphaGo 的戰績之後,柯潔更是發出了這樣的感嘆:「一個純淨、純粹自我學習的 AlphaGo 是最強的,對於 AlphaGo 的自我進步來講,人類太多餘了。」

在 DeepMind 發表於《自然》期刊上的論文中,還提到了許多其它技術上的細節。但按照公司 CEO Demis Hassabis 的說法,其中相當關鍵的一點,就是為 AlphaGo Zero 去掉了「人類認知的桎梏」。在這樣的基礎上,甚至可以說 DeepMind 距離消除「對大量數據訓練依賴」這一 AI 領域的難題,又向前邁出了堅實的一步。

當然囉,這套新的方法在策略類的棋盤遊戲外是否適用還有待更多的考察,但 DeepMind 相信它未來應該會有更為廣闊的用途。「這樣的技術可以被運用在諸如蛋白質折疊、降低能耗、尋找新材料等結構性的問題之上,其潛在的突破很有可能會為人類社會帶來非常積極的影響。」他們在官方部落格中這麼寫道。