目前常見的電腦合成人聲,大致上可以分成兩種:一種是利用一個龐大的樣本資料庫來做組合,另一種是用小的樣本資料(各別的音節),但透過電子的方式去修改它的音調和語速。第一種聽起來會比較自然,但需要大量的時間和精力來準備資料庫,而且也很佔空間;第二種則是雖然比較不佔空間,但用合成的去修改音調,聽起來還是比較不自然。

Google 的 DeepMind 人工智慧團隊(就是開發了 AlphaGo 的那個)利用了神經元網絡,開發了第三種方式 -- 也就是直接拆解出聲源樣本,產生出一個更深層的語言「習慣」資料,之後再從這些習慣直接建構出音訊檔來。取決於餵給 WaveNet AI 的資料,它甚至可以模擬出嘴型動作和換氣的細微聲音,在音調和語速上也更有個人風格。而且 WaveNet 的應用並不止於人聲而已,研究人員餵給它古典樂做為參考,它也能組合出相當有模有樣的古典樂出來。

DeepMind 宣稱在英文和中文上 WaveNet 可以「將真人與合成人聲的差距縮小 50%」,大家可以到 DeepMind 的網站上自己聽聽看樣本 -- 真的已經很像真人在說話了呢!