AI Research SuperCluster (RSC)
Meta

早些時候 Meta 宣佈,自己已完成了旗下全新 AI 超級電腦 RSC(AI Research SuperCluster)的第一階段建設。待到今年晚些時候其全面組配完成時,Meta 相信它能憑藉「接近 5 exaflops 的混合精度運算能力」,成為全球最快的 AI 超級電腦。未來 RSC 將可助力開發更好的人工智慧模型,以實現從數萬億範例中學習的效果。在 Meta 看來,這些模型能幫助他們打造出更好的 AR 工具,並可「同時無縫分析文本、圖像和影片」。總的來說,RSC 的主要價值是為了更好地實現 Meta 的元宇宙願景,在 Meta 的計畫中 AI 驅動的 app 和產品會在元宇宙裡發揮關鍵的作用。

「我們希望 RSC 能幫助我們建立起新的 AI 系統,比如說,它可以為一大群人同時提供即時語音翻譯,讓說不同語言的人都可以在一項研究計畫中無縫寫作,或是一起遊玩同一款 AR 遊戲。」Meta 技術經理 Kevin Lee 和軟體工程師 Shubho Sengupta 在官方部落格中這麼寫道。

現階段 RSC 共擁有 760 套 NVIDIA DGX A100 系統作為運算節點,總計 6,080 顆 GPU。Meta 表示這個版本其實已經是世界上最快的 AI 超級電腦之一,根據初期的跑分結果,RSC 在執行機器視覺任務時的速度最快能達到 Meta 過去方案的 20 倍之多,運行 NVIDIA Collective Communication Library 的速度也達到了之前的 9 倍多,在進行大規模自然語言運算訓練時的速度也有過去的 3 倍。

在這樣的基礎上,確定「一項操作、聲音或圖像是惡性還是良性」的 AI 模型就能更快地完成訓練。Meta 相信這樣的技術能更好地保護 Facebook、Instagram 網路裡的用戶,以及身處元宇宙中的人們。除了建設 RSC 的物理基礎設施和系統外,Meta 也會確保它擁有相關的安全和隱私控制措施,以保護大量的真實世界訓練數據。透過生產系統產出的真實世界數據而非公開可用的數據集,RSC 可望更有效地將其研究成果投入實際應用(比如識別有害內容)。

Meta 計畫在今年將 RSC 的 GPU 數量增加到 16,000 顆,據稱這能將系統的 AI 訓練效能提高到現有的 2.5 倍以上。實際上,RSC 的相關計畫可以追述到 2020 年初,Meta 希望 RSC 最終能在 exabyte 級別上進行 AI 模型訓練。「我們期待這種運算能力的階梯式功能變化,不僅為現有服務創建出更準確的人工智慧模型,而且還能實現全新的用戶體驗,特別是在元宇宙中。」Lee 和 Sengupta 這麼寫道。