今天 Google 在一場以機器學習為主題的媒體聚會中,很難得地為我們揭露了一點 YouTube 背後的人工智慧是如何演進,並且找出好的影片來進行個人化的推薦。機器學習影響讓推薦影片在觀看時數的佔比於三年內提升了三倍之多,目前已經佔總觀看時數的 70%(剩的 30% 大多是 embed),YouTube 首頁每天都要為個別的觀眾推薦高達兩億支的影片。

對 YouTube 來說,影片推薦的困難主要有三點: 首先,YouTube 每分鐘都有超過 500 小時的新影片被上傳,如何理解每個影片的內容,與它們與其他影片的關係,是資料處理的一個挑戰。其次,觀看者的興趣是持續在變動的,YouTube 要能跟上使用者的新興趣,找出比使用者期望更搶先一步的推薦。最後,因為每個人的習慣都不同,所以訓練資料的模型有很大的雜訊。在這部份 YouTube 會收集你是否看完一部影片或是否按讚做為正面的回饋,而按不喜歡或提出跳出,則是會被視為負面的回饋。無論正面負面都會進一步做為了解個人習慣的方式。

具體來說,找出推薦內容利用的是 Google 在 2015 年推出的 TensorFlow,共分成兩層。第一層是「候選生成模型」,利用你的觀看歷史、搜尋歷史、和一些個人資料(例如性別、年齡),從數以百萬計的影片中,選出數百個在當下最符合你有可能感興趣的影片內容;之後再將這數百個影片送入第二層的「排名模型」中,進一步用機器學習對影片和觀看者的特徵做比對,最後選出數十個影片推薦。所有的這些過程都在你重新整理網頁的過程中進行完畢,實在是相當了不起呢。

對 YouTube 來說最大的挑戰,是如何避免「大者恆大」的效應。高流量的影片在模型中有很多變數都會佔有優勢,使它們更容易出現在推薦影片之中,而小流量的影片就難以獲得這樣的注意。YouTube 持續納入更多的考量指標來將每位觀眾做更細微的區分,讓分眾更精確,並指出每日推薦的影片總數還在持續上升,表示機器學習有挖出愈來愈小眾的影片來。

最終,YouTube 的目標是讓你可以盡量多看,這樣 YouTube 和內容創作者才能多賺。下次大家看到 YouTube 的影片推薦時,可以注意一下它有沒有變得更聰明喔!