Neon 的「人造人」虛擬化身至少在目前更像是為 CES 準備的噱頭

會前把人的胃口吊太高了...

Sanji Feng
Sanji Feng
2020年01月9日, 晚上 10:54
4分享次數
NEON
在 CES 前被不少人猜測為此次大會最重要發表之一的 Neon 人造虛擬化身,幾乎具備了所有能抓到眼球的關鍵要素。它的背後有大企業撐腰(這間 STAR Labs 有 Samsung 的投資),而且還跟 AI、「人造人」等等聽上去就很厲害的詞聯繫在一起。在公佈前幾天,甚至有 Reddit 用戶挖出了未公開的影片,之後更引來 YouTube 頻道對 Neon 的技術以及這家實際僅成立了近半年的公司進行深入的探討分析。

毫無意外,在如此全方位的造勢之下,人們對 Neon 發表會的期待值一下子被拔高了許多。只不過實際的結果是,這種活動中充斥著各種誇張、晦澀的機器學習用語。官方雖然承諾這是一套「能即時反應」的虛擬化身解決方案,但對於其未來的發展方向,卻只是以一些含糊、寬泛的概念來一筆帶過。

按照 Neon 創始人、STAR Labs 主管 Harrison Wells Pranav Mistry 的說法,Neon 將會「跟我們的世界整合並能成為其與更美好未來之間的全新橋樑」,而所謂的「更美好未來」,指的是一個「人恆為人但機器亦通人性」的世界。這樣的描述,好像是在說 Neon 會變成類似數位對話夥伴那樣的存在,而其互動方式也會更趨近於真人。在人與未來的虛擬助理之間構建起更融洽的聯繫紐帶,這似乎就是 Neon 的目標,聽上去確實再理想不過了。

要想搞清楚這些話具體代表著什麼,以及 Neon 要如何來將其實現,當真不是件易事。所以在開始前,我們要先進行一些說明。首先,Neon 這套虛擬化身方案的背後,其實是由兩方面的技術來支撐。其一被稱為 Core R3,是「Reality Realtime Responsive」(現實、即時、響應)這三個詞的統稱。它代表的是 Neon 外型、動作的生成過程,目標是創造一種「超越一般感知的現實存在」。在這部分 Neon 公司會將自己的獨家技術和神經網路結合在一起,以真人為原型,來創造對應的人造化身。

在 CES 現場展示的 Neon 互動形象便都是基於真人的產物,但官方聲稱所有的動作和表情都是依靠新技術獨立生成。而上週在網路上流傳的那些 Neon 影片,裡面的人之所以擬真度那麼高,搞到最後只是因為它們的的確確就是拍攝的真人畫面... 在 Neon 展區內的真人大小化身示範下面,其實都有一行小小的聲明,說到底它們只是在展示 Neon 未來理想中的型態和表現而已。誠然,在官方的介紹中 Core R3 有著非常光明的前景,但至少現階段的成品距離人們的期待還有者相當大的差距。

據稱 Core R3 依靠神經網路技術,針對人類的外型、舉止、互動進行了「大量的訓練」。在台上進行說明的時候,Pranav Mistry 向大家展示了在經過差不多四個月後,現有的 Neon 相較早期版本已經有了十分可觀的進步。同時他也略微介紹了 Neon 的生成過程,在製作好一位工程師的面部模型後,系統會生成對應的複製化身。這一化身可以運用到不同的人身上,後者亦可透過它來「說話」,以概念來說其實跟去年很火的 deepfake 有不少相似之處。而真正體現 Neon 差異化的是下一個步驟,團隊會在此基礎上建立一套能獨自生成面部表情和嘴部動作的系統。到了這裡化身就不再跟人產生聯繫,而是在靠自己創造新的東西了。

根據官方在發表會上的說法,Neon 的模型可以生成「數以百萬計」的面部動畫選項。以微笑來舉例,當工程師讓 Neon 笑的時候,它可以在無數種笑法裡自己挑選一種。我們在現場只看到了兩種不同的版本,但如果官方所言非虛,那它們顯然就只是冰山一角。不光如此,Mistry 還透露在選定了某種笑法以後,Neon 還能在眉毛的上揚高度、凝視的目光等細節上做進一步的微調。老實講,能讓所有這些都即時完成確實是件挺厲害的事情。不過問題是 Neon 現在都只能做到較低的完成度,未來真正能改進多少目前還尚不可知。

那 Neon 現在還能做些什麼?在我們看到的 demo 中,有一個化身在對語音指令進行回應時秀出了幾句中文、韓語和印度語。但這個「人造人」總體而言還是處於相對靜止不變的狀態,而且除了在開始回應的時候會有些表情外,大部分時間裡眼神背後都透著空洞。當然,「恐怖谷理論」提到的那種感覺肯定會有。尤其是嘴部動作,在 Neon 上常常會出現斷齒的情況。

不過要說讓活動參與者們最失望的地方,可能還得要算是程度非常有限的人機互動。除了官方重複展示的一些應答反應外,台下的人就只能問一些非常簡單的問題。在理解問題的時候 Neon 會進行回答,但從其口中說出的內容,老實講並不會比那些線上機器人好多少。

在 Core R3 的基礎上,實現 Neon 所需的另一部分技術被稱作 Spectra。理論上說,這是更具創新性的部分,它會負責 Neon 的學習和情感反應。不意外的是,相較 Core R3 這個部分會更難理解,實際上在 CES 的活動中官方也並未就此進行詳細的介紹(據稱 Spectra 將會是 Neon 公司今年研發的重點)。

不過就算 Spectra 現在對外人來說還是個謎,Pranav Mistry 在會上還是對 Neon 進行了一番定義,希望藉此將自家產品與市面上一般的智慧助理區隔開來。按照他的說法,Neon 的意義不是根據你的命令查個資訊或是哼個小調。等到 Spectra 平台真正成熟以後,Neon 將可以從經歷中學習,並與人進行真正的交流且能夠加以理解,這些才是 Mistry 眼中 Neon 的核心所在。

在跟我們溝通時,Mistry 提到自己曾設想過有的老人「並不需要有人在旁邊把東西唸個他聽」,他們「想要真正的對話」,需要能傾訴的對象。但問題是,現階段 Neon 給人的印象恰恰是 Mistry 最想避免的。說句不好聽的,我們看到的就只是一個視覺化的 Alexa 助理罷了(可能還沒有那麼智慧)。

但不管怎麼說,Mistry 還是很希望能聽到人們對 Neon 的看法,而且也願意在初期去探索 Neon 的各種可能性。發表會上蜂擁而來的人群,應該至少能讓 STAR Labs 向自己的金主 Samsung 交差。但 Neon 要發展,使用情境是不可或缺的。關於這點官方的想法是 Neon 有朝一日會成為銀行助理、酒店接待甚至說演員,這次的活動除了記者外,也的確匯聚了不少來自銀行、酒店、零售業的代表。

在活動和簡單的 demo 結束後,我們對 Neon 想要達成的目標有了個大致的了解。但回顧整個過程,實話說很難讓人不覺得失望。在 CES 的展場中,Neon 的展位其實跟 Samsung 並不近,但兩者間的聯繫已經足以用來炒作。發表會前給人過高的期望,可能是 Neon 此次賭城之旅的最大敗筆。假如在拿出更好的成果前,在想到如何向人更好地解釋前,他們可以低調行事,或許一切就會變得完全不一樣了吧。
標籤: AI, artificial humans, avatars, ces2020, gadgetry, gadgets, gear, neon, neural networks, robots, samsung, services, star lab, tomorrow
4分享次數