中國工程院院士李德毅:大數據時代的挑戰
我們在大數據時代面臨著什么樣的挑戰,今天我就講講這個問題。
大數據通常來自三個方向:自然大數據、生命大數據和社交大數據。PB時代是對科學的挑戰,更是對包括數據挖掘在內的認知科學的挑戰,也是對軟件工程的挑戰。
尤其是社交大數據。在奧巴馬就職的現場有這么多面孔,每一個面孔下都有一個故事。人臉是數據安全很重要的識別器。那么,怎么識別呢?人們想到了攝像頭,北京市約有80萬個攝像頭,我們每天都在攝像頭的監督下開車、購物等。
“誰?是他嗎?”這是社交網絡中基本的問題。我們要確定一個人,通常需要從身份認證、年齡識別、情感計算、親緣發現、性別識別、地區和民族識別等方面進行辨識。
結構化數據面臨挑戰
我們認為計算在過去的20年里起到了主導作用,它的標志就是摩爾速度。跟這個時代相對應的是結構化數據,“軟件”加“程序”加“數據”加“存檔”,這個數據應該是結構化數據才能運行起來。
結構化數據的典型代表就是關系數據庫。1970年,偉大的科學家埃德加·弗蘭克·科德教授提出關系模型,以關系代數為核心運算,用二維表形式表示實體和實體間聯系,通過關系運算實現結構化查詢。30多年來,各行各業的數據庫和數據倉庫技術,以及從數據庫發現知識的數據挖掘構筑起巨大的信息處理產業。
關系代數是關系數據庫的形式化理論和約束。關系數據庫有嚴格的頂層設計。為構造良式關系,必須消除元組中不合適的數據依賴,通過第三范式(BCNF)甚至約束度更高的范式,分解數據表,以解決插入異常、刪除異常和數據冗余等問題。對這樣的關系進行運算,運算結果仍然是關系,運算符可以是集合運算、算術運算、邏輯運算,或者關系運算。只要數據在關系數據庫中,用戶總可以通過SQL語言將滿足條件的唯一結果挖掘出來,無需關心數據的獲取、存儲、分析和提取過程,更無需關心數據結構的內部組織形式。
但是,結構化數據仍然面臨著一些挑戰:挑戰一,形式化約束過于苛刻,無法表示原生態數據;挑戰二,隨著數據量的增大,關系代數運轉的性能急劇下降。
在計算時代,人們發現,這種摩爾速度下的存儲也有很大的發展。尤其隨著存儲材料和存儲技術的發展,市場上500元就能買到1TB的硬盤,這是我們以前不可想象的。存儲技術在交互方面的發展,讓我們有了存儲的網絡和陣地。于是,整個社會進入了半結構化的數據階段。而半結構化數據的典型特征是超文本、超鏈接、超媒體,其組成形式是C/S、B/S和云計算。
萬維網(World Wide Web)之父Tim Berners-Lee,是把超文本技術引入互聯網的第一人。1989年,他開發出世界上第一個Web服務器和Web客戶機。1991年,Web實現了通過超文本方式,使網絡中不同計算機內的信息實現超鏈接,通過超文本傳輸協議HTTP從一臺Web服務器轉到另一臺Web服務器上檢索。另外,服務器在軟件支持下可以發布包括文本、表格、圖片、音頻和視頻等碎片化的超媒體信息。而E-mail、 Telnet、 FTP、 WAIS 等都可以通過Web服務實現。從此開始了Web紀元,人類進入搜索時代。
我們看到,數據圍繞實體,實體圍繞鏈接轉。挖掘就是云環境下的探索和個性化服務,沒有死板的查詢方式,也沒有唯一的結果,挖掘結果允許帶有不確定性,重視探索的統計性質。現在的挖掘已經延伸到了圖片和語音的搜索,這類搜索引擎的出現也帶來了互聯網上繁榮的內容服務。
移動互聯網的大數據挖掘
現在,我們處在網絡化和交互的時代。移動互聯網時代的大數據挖掘,主要是網絡環境下的非結構化數據挖掘。這些數據形態反映的是帶毛的、鮮活的、碎片化了的、異構的、有情感的原生態數據,而這些原生態數據的特點常是低價值的、強噪音、并購、冗余的冷數據。
同時,移動互聯網大數據挖掘過程中,數據的簡約具有各自適應性。長期以來,我們用認知物理學方法來實現數據的自適應簡約。我們在國內外第一次提出了數據場的思想。把人臉變成數據場,大家可以看到這張人臉跟其他人的臉是有相似之處的,可以用線性的方法也可以用非線性的方法來表現。
舉例來說,如果想突出眼睛、鼻子和嘴巴,我們可以用這種數據場的方法來突出。用物理學中“場”的方法來類比形成數據場,像素之間相互影響越小,特征點個數越多,圖像的描述細節越多,反之特征點個數越少。
百度用深度學習的方法實現了數據自適應簡約,我們覺得他們跟我們現在做的是非常一致的,例如,百度搜圖做的人臉相似性搜索。當前的情況是,數據量急劇增加,組織結構已經圍繞數據轉了,程序碎片化可以隨時重組,挖掘常常是人機交互環境下不同社區的發現。
社區可以給我們提供數據實物。網絡化大數據挖掘的方法是社區發現。人們最關心的是社區,并且我們關心社區中的交互。社區交互表現的形式有顯性和隱性兩種形式。顯性形式有評論、心情、收集、購買、評分、頂、踩、分享、加為好友、邀請加入等,而隱性形式有跳轉等。我們利用拓撲勢方法挖掘社區,并且發現社區成員的重要性及成員角色。現實生活中經過一段時間的反復、交互、匯聚,修正和演化,群體形成趨于相對穩定的共識。
中國工程院院士李德毅:在互聯網環境下,利用人的認知和大眾之間的交互,融合計算機群組對大數據的價值挖掘,形成群體智能。由此,我們提出了一個新概念“眾挖”。用戶不再需要關心數據的形態、獲取位置、結構模式、存儲方式和分析過程,就能夠獲得足夠滿意的挖掘結果。
云計算支撐大數據挖掘
云計算是基于互聯網大眾參與的計算模式,其計算資源、存儲能力、交互能力是動態、可伸縮和被虛擬化的。端產品擺脫了傳統IT配置帶來的系統升級開銷,其特點是更加簡潔、靈活、多樣、個性化。手機、游戲機、數碼相機、電視機、上網本、筆記本電腦等功能交叉,差別細微,出現更多iCloud產品。界面人性化、個性化,可隨時變換成為各種各樣的大數據發生器,或者虛擬遙控器,或者大數據挖掘終端。
大數據挖掘和云計算在支撐著各種各樣的大數據應用。于是,軟件工程出現了巨大的變化,通過眾包細分法,完成云環境下的社會生產。在互聯網環境下,利用人的認知和大眾之間的交互,融合計算機群組對大數據的價值挖掘,形成群體智能。由此,我們提出了一個新概念“眾挖”。用戶不再需要關心數據的形態、數據的獲取位置、結構模式、存儲方式和分析過程,就能夠獲得足夠滿意的挖掘結果。
大數據標志著新時代的到來,這個時代的特征不只是追求豐富的物質資源,也不只是互聯網帶來的便利,它還包含區別于物質的數據資源的價值挖掘和價值轉換,以及由大數據給金融行業帶來的很多思考,同時還有由大數據挖掘帶來的精神和文化方面的嶄新現象。



