小薑雜談:PB 的挑戰
文章分類: 特輯專欄

- 現在出去買一台玩家級的新電腦,容量大約是 1TB(或者,小薑庫存的*嗶*片也大約這個數)。
- 每周上傳到社交網站 Facebook 上的照片總量是 20TB。
- 哈柏太空望遠鏡從發射以來產生的總資料量大約是 120TB
- 大型強子碰撞器每周產生的資料量大約是 330TB。
- 美國國家氣候中心所以收集下來的資料總量約是 460TB。
- Youtube 上所有的影片的總量約是 530TB(比想像中小?)。
- Ancestry.com(一個家族追根資料庫)加上內附的 1790-2000 人口普查資料大約是 600 TB。
PB 時代的第一大挑戰是什麼?就是資料的過濾。就算人類已經有產生 PB 級資料量的能力,但事實是我們並沒有把這些資料全部有效地存取的技術。因此選擇哪些資料更有價值,就成為了很重要的課題。之前就有提過的大型強子碰撞器,事實上因為是在觀測為時非常短的現象,因此每秒大約要拍下十億張的照片,才能確保不漏掉什麼重要的事情。如果全部的資料都要保留的話,每秒鐘就必須儲存 10PB 左右的資料 -- 也就是說每秒鐘會塞滿 10,000 顆 1TB 容量的硬碟。這是一個靠現有技術絕對不可能辦到的事情,所以必須靠硬體和軟體的過濾,找出每秒大約 100 個值得關注的事。即使如此,一年仍將產生約 15PB 的資料,或 15,000 顆 1TB 的硬碟,藏在這些資料裡頭的,有黑洞、異次元、平行宇宙,還有兩三個諾貝爾獎吧?
第二個挑戰,是資料的分析。分析和過濾不一樣,過濾是試圖減少資料量,但分析卻是變出更多的資料來。一個例子是選舉結果的預測 -- 一個仔細想想並沒有意義,但無論候選人、選舉人還是媒體都樂此不疲的遊戲。美國在 2004 年時,候選人 Howard Dean 收集了 100GB 的資料來分析,當時被認為是一個很恐怖的大資料庫。今年的總統選舉,Catalist 公司收集了一個 15TB 的超大資料庫,詳細分析每個人的性別、婚姻、年齡、種族、收入等各種資料,並且從中獲得判斷一個人會投給共和黨還是民主黨的重要資訊。依照同樣的比例增加下去,下一次美國總統選舉時的資料量和分析結果肯定會達到數 PB 之譜,屆時對資料探勘、分析所需的運算資源的要求會非常可怕,或許非要用 Cloud Computing 的方式才能運算的地步。嘿嘿,或許到時候預測系統都比你自已清楚你會投給誰...
第三個挑戰,是資料的呈現。這是一個比較抽象的關念,舉個例子來說好了,目前的數位相機解析度都高達 10mp 或更多,但一般人用的螢幕就算是最常見的高檔螢幕解析度(1920x1200)事實上才 2.3mp 而已。那多的那些資料不就可惜了?Wikipedia 現在就有點這種感覺,很多很好的文章和內容因為不容易取得,很難發揮它應有的真正價值。
第四個挑戰,是資料的傳輸。之前在網路上看過一個很有趣的問題:將 1PB 的資料從美國西岸送到台灣,是用傳輸的快,還是用帆船把整個伺服器運過去快?一點簡單的數學告訴我們,要在合理的時間範圍內把資料傳完...就假設三個月好了。要在三個月內把 1PB 的資料傳完,傳輸送率要大約 1Gb/s 才行。這個數字不是特別的不可能(學術單位間常常有這麼大量資料來往),但絕對不是一般民眾能負擔得起的。以目前的技術來說,如果你要傳 1PB 的超高畫質*嗶*片給在美國的朋友的話,絕對是用海運的比較快...
最後,第五個挑戰,是資料的搜尋。拜 Google 大神所賜,這或許是我們最不須要要擔心的一環了。但 Google 的強大也僅限於公開的網路而已,自已電腦上的檔案要能分類清楚依然是很困難的一件事。Windows Vista 本來想要加入的 WinFS 檔案系統和隨之而來的關連式檔案架構似乎帶來了一線曙光,但最後我們還是被卡在樹狀結構的 NTFS 裡。當個人電腦資料量也到 1PB 的時候,嗯,真難想像到時候會是個怎麼樣的惡夢。
個人電腦容量跨越 1GB 門檻是多久以前?好像差不多是十年前左右,所以如果發展方向不變的話,再十年我們就會進入全面 PB 的時代。但在那之前,就們就已經有夠多要擔心的事了:在上面的五個問題當中,小薑最擔心的是資料的傳輸,因為傳輸頻寬的建立要時間和金錢的投入。要能夠順利地提升到下一個階段,現在就要開始做準備囉!




讀者回應 (第 1 頁 / 共 2 頁)
wct1490 @ Jul 27th 2008 8:27PM
很有趣的一篇
除了以上所說的之外
個人認為 資料的壓縮是非常重要的
目前還沒有高效率的壓縮運算技術
但是隨著運算能力的加強
適當的壓縮技術能帶來非常有效率的傳輸速度
像是每1PB能擠掉1% 那也是非常的可觀了
Choose Hill @ Jul 27th 2008 8:28PM
也就是說,
我們要繼續努力的存"嗶"片,
為十年後的未來作準備囉!
angel124637 @ Jul 28th 2008 12:58AM
小薑你應該"很瘦吧"
EQ @ Jul 27th 2008 8:40PM
在三個月內把 1PB 的資料傳完,傳輸送率要大約 1Gb/s 才有可能??!!
我算錯了
還有真的有誤?
OA_RYO @ Jul 27th 2008 9:12PM
三個月算他92天
大概1Gb/s傳完1PB是沒錯的
(請注意1G"b"/s 單位是bit)
咚呱 @ Jul 27th 2008 9:12PM
三個月算他92天
大概1Gb/s傳完1PB是沒錯的
(請注意1G"b"/s 單位是bit)
Unknown @ Jul 27th 2008 9:19PM
沒算錯阿!
1Byte = 8 bits
1PB = 8,000,000,000,000,000 bits
一個月 = 2592000秒 (假設1個月= 30天)
8x10^15 bits / 1 Gb/s / 2592000秒/月 = 3.0864 個月 = 3個月.
ecoramy @ Jul 30th 2008 1:26PM
我才開始學電腦ㄟ PB 就要上路 |>┴<|〞?!…
我會被那麼多個0000000000000000
ψ(._. )>給壓死ㄛ
腔棘魚 @ Jul 28th 2008 12:39AM
儲存媒體容量越變越大,越來越考驗人們對資料管理的能力和備份的能力了
當年486時代,580MB的硬碟只需要考慮要灌遊戲的時候哪些要先刪掉,好挪出空間灌遊戲
隨著硬碟容量變大和P2P的發達,慢慢演變成每過一段時間回頭檢視自己的硬碟理的資料,才發現很多很"雞肋"的東西,然後管理跟備份就變得很頭大了......
CHT @ Jul 28th 2008 3:30AM
所以就再買一個新硬碟
舊硬碟裡的東西就留待後世考古了。
kelvin604 @ Jul 27th 2008 9:01PM
數據上如果加上放多少張藍光碟的資料....
我相信大家又不會覺得1pb有多大...
哈哈....
Angus @ Jul 27th 2008 9:03PM
15TB 的資料,或 15,000 顆 1TB
應該是15PB吧
Andy Yang @ Jul 27th 2008 9:15PM
已修正,感謝!
hwaselin @ Jul 27th 2008 9:40PM
我想個人電腦來到1PB的時候,Vista應該不存在了吧(也許微軟也不在了,呵呵...)
Sunny @ Jul 29th 2008 9:20AM
可惜賈老也快要掰掰了
阿亮 @ Jul 27th 2008 9:46PM
以目前的科技來看,也許以後也是。
大量傳送資料時,還是以實體儲存媒體傳送最快。
LamYipMing @ Jul 29th 2008 6:08AM
也就是說,
與其BT傳輸 數TB或是以PB計的資料,
倒不如叫UPS速遞個硬盤吧。。。
JOJO @ Jul 27th 2008 10:50PM
I think the the technique of the data compression will be greatly enhanced in next 10 years, and it results in that the coming day of the PetaByte era will be later than our estimation.
Fily @ Jul 27th 2008 11:25PM
用不完 ? 其實話也不能這麼說 ... 就過去的例子而論
MB 轉換至GB時期也才多久,當時大家也是如此思考著100GB用的完嗎,結果呢? 瓶頸與需求持續著,果不出幾年1TB出現了 ...
PB的時代,無須於後代子孫觀看,你我就見的著嘍~
Joveey @ Jul 27th 2008 11:33PM
1.資料的過濾
這是必須靠人為的操作,畢竟一大筆資料進來,電腦只能按照人為設定的方式去紀錄,如果是先經過人為的判斷再紀錄,那嚜這個資訊將是直接整理好的有用的資訊,這不影響到硬碟記錄資料所需的速度,畢竟電腦記錄比人腦快多了。如果是先紀錄在經過人為的判斷哪些資料你要哪些不要的話,那嚜電腦的記錄速度將會變的很重要,很多事件的發生都是連續性,當一旦記錄速度不夠快時將會影響到後面的記錄資料。如果以現有的技術來說,為了提供硬碟更大的緩衝就是加記憶體,我想如果現階段出現1PB所能提出改善方法;至於未來,我想應該會改變電腦二進位的模式去存取資料,將不再用0101的方式去記錄,而是0123....的方式,運用的將是不同波長的光線而非現有的電磁形式,這樣才有辦法高速的存取資料。這是現在以後都會面對到的問題,硬碟寫入跟讀取的速度。
2.資料的分析
這跟硬碟的相關性應該是比較低,跟CPU的運算速度比較有關,當CPU的運算速度越快,所需的記憶體相對的也就不用哪嚜多,那嚜超級電腦的平民化就有他的需要性,以量取勝,不迷思單一的效能,重視整體效能,這就是超級電腦的優勢。在未來家中的電腦可能動不動就十核百核心這樣跑
,每台電腦內部就像超級電腦一樣去堆疊。
3.資料的呈現
這其實要考慮到人為的模式,畢竟資料是要呈現給人看的而不是你家的阿貓阿狗,舉一個例子,人類分辨兩點最小的距離是0.1mm,再小下去將會視為一點,如果UMPC每台都可以開到4000x3000,那你還看的到癮科技這三個字嗎,科技始終來自於"獸性",科技應該要回歸於人類生理極限而非去搞一些數字遊戲。
4.資料的傳輸
這個將會是最大的問題。"有線就是無限,無線就是有限"電磁波傳遞速度快,但能量會分散,也就是光纖要加訊號加強系統,以現在技術來說,除了拼命加線以外,還有一個方法,衛星傳輸,太空沒有空氣,所以光線就不會有能量的損失,那嚜光線就可以無止境的拼命加上去,但話說回來,怎嚜從地球發射接收,又是一個問題,以量取勝設一票的衛星發射台,就有一堆腦殘的反電磁波人士在抗議。
5.資料的搜尋
這個......就要看你個關鍵字設的好不好了,電腦存檔案都會有一個目錄,搜尋也只是搜尋目錄,就像去圖書館找資料一般,應該是先翻目錄卡而非一古腦衝去藏書區。假設今天你慾火焚身想找動作愛情片發洩一下,衝去DVD租賣店找片子,發現有"愛"的就直接挑一片付錢走人,回去箭在弦上不得不發,卻發現螢幕上眼的卻是"把愛找回來",你叫那戰意高昂的小砲情何以堪。以現在的網路來說,人們應該要加強的是如何精準的搜尋關鍵,而非去依賴強大的搜尋器。
PS.再提一點,如果1PB的出現,我想最大的問題會出現於防毒上,現在既有的防毒軟體都是一個一個檔案解開來掃,如果你硬碟有1PB的資料,可能掃一次毒會耗上1個月的時間,為了保護動作愛情片結果自己禁慾一個月,這樣應該就精蟲灌腦,爆精而亡了吧。