百度的 Deep Voice 系統可以快速合成真人語音

它背後的文字轉語音技術還能改變聲調傳遞不同感情。

百度的 Deep Voice 系統可以快速合成真人語音

除了在矽谷的人工智慧中心開發自駕車技術外,百度原來還有在動些其它的腦筋啊。最近他們向公開了一套名為 Deep Voice 的文字轉語音系統,根據官方描述來看,其速度和效率似乎都勝過了 Deepmind(Alphabet)正在開發的同類產品 WaveNet。按照百度的說法,Deep Voice 在幾乎無須人工介入的前提下,只需短短數小時便能學會說話。而且開發人員還可以對其要傳達的感情狀態進行設定,這樣合成出來的語音聽起來就會非常真實、自然。

前面提到的 WaveNet,也可以實現類似的功能,但其需要巨大的運算力在背後支撐,而且目前還無法拿到日常環境中做實際用途。而百度表示,自己依靠深度學習技術解決了 WaveNet 尚未克服的難題。Deep Voice 會先將文字轉化為音素(最小的語音單位),然後再依靠自己的語音合成網路將其變為你所聽到的聲音。以 Hello 這個單字為例,在最終發音前,Deep Voice 會將其拆分為(無聲,HH)、(HH,EH)、(EH,L)、(L,OW)、(OW,無聲)這樣的音素組合。

這兩個步驟都需要用到深度學習的技術,而百度(人類)的作用,在於控制要怎樣給音素、音節加重音或是縮短、拖長音,「潤色」之後 Deep Voice 講的話聽上去才會更顯感情。不過,儘管這方面的效果很好,但 WaveNet 吃運算力的問題,Deep Voice 也還是一樣頭大。想要比較好地模擬出真人那樣的反應,電腦必須在 20 微秒內生成詞語。為了達成這一點,百度必須確保系統不會重新計算結果,而且得將整套模型放在處理器快取而非主記憶體內,同時還要最大限度地利用所有能獲取的運算資源。

實際上,百度已經將一些 Deep Voice 的樣本放到了 Amazon 的 Mechanical Turk 平台上,至今為止他們已收穫了許多正面的回饋。當然,距離其真正被商用肯定還有不少時日,但就目前的完成度來說,應該會比較值得期待吧。

來源: Baidu Research, MIT Technology Review