微軟的新 AI 工具可以將照片結合音軌,產生栩栩如生的影片

但被濫用的可能性也是顯示易見,因此短時間內不會再發表進一步的 API 或工具。

Microsoft VASA-1
Microsoft VASA-1

微軟亞洲研究院(Microsoft Research Asia)發表了一個名為「VASA-1」的新型實驗性 AI 工具,可以即時將靜止的人像照片 ( 或甚至是繪畫的也可以 ) 和現有的音訊結合起來,為靜止圖像生成臉部表情和頭部動作,同時生成與語音或歌曲相搭配的嘴唇動作。 研究人員上傳了大量的範例,可以看到對表情、視線方向等的控制,效果確實逼真到以假亂真的地步。

但真正仔細看的話,範例中的嘴唇和頭部動作還是多少有些僵硬和不同步,但即便如此,這項技術被濫用的可能性依然是顯而易見的。 研究人員也意識到了這種可能性,因此決定在他們確信這項技術能被「負責任地使用,且符合適當的規範」之前,將不會再發佈任何「線上演示、API、產品、或任何其他相關細節」。 他們倒是沒有提到他們是否準備加入某些保護措施,以防止深度偽造色情內容或假新聞等惡意活動。

研究人員認為,盡管這個技術有被濫用的可能性,但同時也仍具有許多益處。除了用於提高教育的公平性,這也能為交流障礙人士改善環境,例如提供他們一個可以代替他們來進行交流的虛擬形象。 同時,VASA-1 也可能反向為交流障礙的人提供治療與支持,創造出虛擬的 AI 角色讓他們練習交談。

根據發布公告時同時發表的論文,VASA-1 是以 VoxCeleb2 資料集為基礎進行訓練,該資料集包含從 YouTube 影片中提取的「超過 6,112 位名人的 100 萬個語音片段」。儘管該工具是使用真實面孔進行訓練,但它同時也適用於藝術畫作。研究人員便將蒙娜麗莎與安·海瑟薇(Anne Hathaway)改編的「Paparazzi」饒舌音軌結合起來,相當有效果。 先估且不說是不是真的能達到研究人員設想的那些功用,至少在娛樂性上是絕對十足十的呢。