Teradata寶立明:大數據時代沒有無效數據

5月22日消息,大數據廠商Teradata天睿公司CTO寶立明(Stephen Brobst)日前在“2013 Teradata大數據峰會”上向騰訊科技表示,不能一味的否定看似無用的數據,它們同樣蘊含著價值,只是尚未找到價值體現手段,可以用低成本的存儲服務器加以保留。
數據均有價值
如何區分大數據的價值?寶立明表示,不能一味地否定無用的數據,它們同樣蘊含著價值,它們確切的說法應該是低價值密度數據。因此,企業也應該保留這些數據,只是暫時尚未發現它的價值,可以用低成本的存儲服務器保留它們。
他舉例說,當人們通過搜索引擎檢索時,會出現一些習慣性的拼寫錯誤。這些錯誤數據雖然表面上沒有意義,但通過收集這些數據卻可以發現大量的用戶習慣和規律。
他表示,人們對于海量數據感到困惑,這是因為未能全局掌握整個數據只是看到破碎的、零散的、局部的數據。這就像通常“給數據做提煉總結”而在總結的過程中往往會丟失掉大量細節,但是很多有價值的信息正隱藏在具體的細節當中。
寶立明建議,對于不同價值的數據要區分對待,把價值不高的數據存儲在低成本的環境當中,但是絕對不會把它丟棄,因為假以時日,它還是會有一定的價值會被挖掘出來。
隱私保護仍待解決
在談到對大數據的隱私恐慌問題時,寶立明認為,應該對用戶隱私提供一定的保護,例如通過數據加密,只讓需要知道數據的人了解、接觸或者訪問到這些數據。他希望大眾了解,通常通過數據挖掘軟件,實際上看到的用戶數據或者信息并不針對某個具體的人。
他介紹,很多國家的立法機構或者政府希望通過制定隱私保護法律來實現對用戶信息的保護。但是,由于對數據分析不了解,有些法規最終可能限制了用戶對信息和數據的使用。
例如,在某些國家要求電話的呼叫記錄最多只能保持90天,這種呼叫記錄只能夠用于計費目的,就限制了電信運營商對數據的保存,不能夠很好地來設計符合消費者或者用戶需求的電信產品,同時給定價方式也帶來很大限制,進而影響市場競爭。



