KKLab 以生成式 AI 創作饒舌歌曲,簡單說明 AWS 如何協助 AI 應用的開發

以協助使用者的角度出發,提供適合的選擇。

Machine Mind(short version) by Amazon SageMaker ft. CED & 9.4.0
Machine Mind(short version) by Amazon SageMaker ft. CED & 9.4.0

生成式 AI 對話服務讓一般消費者直接體驗到科技的進步,但面向開發者端的時候,到底要如何選擇自己最合用的 AI 服務?要有多少的前期投資才可以滿足要求呢?跟微軟Google 的方向不一樣,Amazon 旗下 AWS 希望透過提供 BedrockSageMaker 等服務來便利開發者,預先提供需要的硬體、軟體、API 等方案,讓開發者只需要專注到 app 本身的編寫就可以。

小編獲邀與 AWS 香港的代表,以及他們其中一個使用 AWS SageMaker 服務的開發商 KKLab 進行訪談,了解一下今天開發生成式 AI 時會遇到的問題,還有會用到的解決方案。這或許能夠為正在煩惱如何起動專案的你,帶來一點想法。

先來的就是一首饒舌作品《Machine Mind》,歌詞、編曲都由不同的 AI 模型生成,再由人類創作者整合出版,其中的「Lyricist.ai 靈魂寫手」更獲著名詞人林夕協助開發,不管是用字、押韻方面都有著一定水準。

KKLab 在 AI 和機器學習方面早早就有投入,累積了 10 年以上的技術經驗。在搶先測試使用 AWS 的 LLM 大語言模型、EC2 執行個體和 SageMaker 服務後,發現「靈魂寫手」的模型訓練時間由過往的數小時,大大加速至僅需要數分鐘就能完成。

靈魂寫手
靈魂寫手

以《Machine Mind》的創作過程為例,是先由人類創作者提供靈感片語和訊息內容作參考,進入不同 AI 服務裡就會各自生成歌詞和韻腳,接著就能開始生成旋律和精修韻腳,此時歌曲雛型就開始出來。再來就有編曲、demo 等的步驟,當然也會有反覆的修改,但因為都由 AI 重覆生成,所以溝通、理解的需時就大大減少了。

對於音樂創作人來說,這樣的工具到底會否對他們的生計帶來壓力呢?KKLab 認為不會,反而是能透過讓創作人專注更創作、提高整個業界的效率。回到「靈魂寫手」服務,他們的開發方向會是「填詞人的助手」,提供符合使用者提供的靈感和要求而生成的「選擇」,要使用哪個、如何使用都是以人類使用者自己的口味、感受、經驗,「靈魂寫手」只是簡化了中間需要花時間苦苦思考的過程。

Amazon Web Service KKLab interview
Amazon Web Service KKLab interview

特別是音樂作品、文藝創作,這些內容畢竟還是需要人類的創作做為起始、選用、潤飾,才會有所謂的個人風格、作品溫度的感性部分。

Amazon Web Service KKLab interview
Amazon Web Service KKLab interview

同樣的道理,Amazon Web Services 所做的也是一樣,要為開發者提供本來可能需要千萬資金才能組建起來的基建環境,以各種不同層級的服務來滿足今天開發者在 AI 產品的編程。打比方說 AI 開發案首要有基礎模型(Foundation Models),這需要大量人力物力來開發的元素,就可以藉由 Amazon Bedrock 去挑選現成的語言模型、影像模型和媒體模型的 API(Titan Text、Titan Embeddings、Jurassic-2、Claude、Stable Diffusion)來直接開始操作。如果是需要運算力,Amazon EC2 服務也能代勞,不用自行組建伺服器。

看到大家跟生成式對話機器人玩得不亦樂乎,證明了 AI 已經不再是遙不可及的超高科技,而是愈來愈貼近消費者端的產品,不妨也善用業界提供的各種服務來打造自己的吧。