哈佛與麻省理工學院聯手讓電腦不僅看見,還能理解看見的是什麼!



讓電腦能夠看見你我看見的世界?若單純就只是看見,那並不難,相機拿起來卡嚓一下就搞定。但是要讓電腦能夠理解自己看到了什麼,那就有點意思了。

這群來自哈佛以及麻省理工學院( MIT )共同組成研究團隊,打算用電腦來模擬大腦的功能,透過運算將電腦看見的影像轉換成有用的資訊,進而可以辨識物品、認人、甚至理解一連串的動作所代表的意思,就和人腦一樣。

為了加快研究速度,研究人員借用分子生物學的篩選技術:同時對上千種候選辨識模組進行一連串的實驗,淘汰掉不適用的模組,最後保留下最棒的模組。這過程簡單來說就是八個字:「物競天擇,適者生存」。

不過研究人員的另一個難題則是人腦解析資訊的速度實在太快,若用傳統電腦得先花上一大筆錢再加上至少一整年的時間才能運算完畢。不過這個問題隨著遊戲用的 GPU 擁有越來越強的運算能力而獲得解決。研究人員大量運用 GPU 的運算能力,不僅省下大筆的經費,更將運算的時間從一年縮減到一個星期。

正如前面所說的,研究團隊希望藉由這項研究能夠創造出模擬大腦視覺辨識的人工智慧( 好讓 iPhoto、Picasa 的人臉辨識更加準確? ),而隨著他們將軟體發展的越完善,越接近大腦辨識的結果時,我們就可以反過來更加了解大腦的運作模式。而不斷互相求進步的結果,最終我們就可以更了解大腦,同時也能讓電腦運作的更像大腦。哇!跳轉後看教授親自上場配音的說明影片。

[感謝 David]


2009.12.10 Update : 抱歉,之前忘記貼上影片連結,現在補上好讓大家也都看的見!謝謝。