大數(shù)據(jù)熱涌背后的冷思考
大數(shù)據(jù)風起云涌,走紅IT界
IT業(yè)從來不缺乏新概念、新名詞、新技術,更新之快、推出之猛,令人目不暇接。
繼云計算、社交網絡之后,如今大數(shù)據(jù)(Big Data)再度走火,風起云涌,似乎成為2012 年信息技術領域最時髦的詞匯。
Oracle、SAP、IBM 、微軟等IT巨鱷,像是尋找到了新的金礦,開始全力挖掘大數(shù)據(jù),多方位推廣大數(shù)據(jù)理念,尤其是SAP的HANA和Oracle的Exalytics更是賣力,爭搶“頭燙湯”。而眾多中小IT廠商也跟著蜂擁而至,以分得大數(shù)據(jù)市場一杯羹。
何為大數(shù)據(jù)呢?根據(jù)IDC的定義,大數(shù)據(jù)是指為了更經濟更有效地從高頻率、大容量、不同結構和類型的數(shù)據(jù)中獲取價值而設計的新一代架構和技術,人們并用它來描述和定義信息爆炸時代產生的海量數(shù)據(jù),并命名與之相關的技術發(fā)展與創(chuàng)新。
而相比大數(shù)據(jù)的突然興起,以前以商業(yè)智能分析而著稱的BI開發(fā)商卻是難掩尷尬和失落的境況,甚至被逼退到邊角。近年來,大數(shù)據(jù)給BI(商業(yè)智能分析系統(tǒng))帶來了重大的沖擊,發(fā)展步伐受到較大拖累。有人大膽預測,未來十年,有關大數(shù)據(jù)的商務智能分析將引領管理信息化的發(fā)展。
從各種專業(yè)報道、分析,我們可以看出,大數(shù)據(jù)呈現(xiàn)3種特性:Volume(數(shù)據(jù)量)、Velocity(處理速度)、Variety(數(shù)據(jù)種類)。Volume指的是數(shù)據(jù)量龐大,如今有許多企業(yè)已經面臨單日數(shù)據(jù)量以數(shù)十、數(shù)百TB(萬億字節(jié),1TB=1024GB)的速度增加,而總數(shù)據(jù)量也達到了PB(Petabyte)等級,這樣的數(shù)據(jù)量已讓傳統(tǒng)的數(shù)據(jù)庫難以處理;Velocity是指企業(yè)數(shù)據(jù)增加的速度越來越快,諸如移動化、社交網絡的廣泛應用,使得數(shù)據(jù)增加的速度比傳統(tǒng)的企業(yè)應用程式來得快很多,一旦數(shù)據(jù)增生速度越快,數(shù)據(jù)處理、分析的速度也就得跟上;而Variety則是指數(shù)據(jù)的多樣性,時下上互聯(lián)網不是只看看資訊,同時也不斷在產出數(shù)據(jù):上傳照片、上傳視頻、發(fā)微博,另一方面,IT遍及工作生活中的各個角落,各種各樣的傳感器、監(jiān)控器也時刻不斷產生各種機器資訊,數(shù)據(jù)的型式已日趨復雜、多樣了。這就催生了大數(shù)據(jù)技術的強烈需求。
從一些主流廠家的產品介紹,我們可以發(fā)現(xiàn)大數(shù)據(jù)與BI一個主要區(qū)別在于:與傳統(tǒng)基于事務的數(shù)據(jù)倉庫系統(tǒng)相比較,其能在BI的基礎上進行更大容量數(shù)據(jù)和非機構化數(shù)據(jù)處理,大數(shù)據(jù)分析不僅關注結構化的歷史數(shù)據(jù),它們更傾向去對Web、社交網絡、RFID傳感器等非結構化海量數(shù)據(jù)進行更好地分析,整體相比BI而言,大數(shù)據(jù)是一個完美的大提升。像Facebook、Twitter這樣面臨數(shù)據(jù)量大爆炸的網路公司,已開始用Hadoop、NoSQL等新興技術來解決海量信息問題,并取得了一定成效。
大數(shù)據(jù)當立,BI當下?
可見,如何解決日漸緊迫的大數(shù)據(jù)處理成了企業(yè)管理信息化、現(xiàn)代化的必然需求。不過,國內的大數(shù)據(jù)領域到底有多少活躍跡象?大數(shù)據(jù)真的有如一些廠商所描繪中的那么強大、好用,成為每個企業(yè)所必須的嗎?
在一片叫好聲中,部分專家和業(yè)內人士則顯得小心謹慎,甚至有不乏非議。一些專家認為,除了大量的研討會,還有各類公司宣稱進軍大數(shù)據(jù)領域的雄心,其實際進展至今難見成效。許多企業(yè)CIO認為,國內能利用大數(shù)據(jù)背后產業(yè)價值的行業(yè)主要集中在金融、電信、能源、證券、煙草等超大型、壟斷型企業(yè),其他行業(yè)談大數(shù)據(jù)價值為時尚早,大數(shù)據(jù)在企業(yè)的運用并不是說只要開放了數(shù)據(jù)、運用一些技術就可以輕易地發(fā)現(xiàn)“金礦”。目前國內大數(shù)據(jù)應用似乎正在呈現(xiàn)這樣的狀態(tài):投資人活躍,技術和服務供應商熱心,數(shù)字媒體高調,而大量應用企業(yè)迷惑。
一些專家認為,從結果來看,對于大數(shù)據(jù)的質疑并沒有比BI少,同樣遭遇了“還差一公里”的尷尬。有人評價“大數(shù)據(jù)是個相對的概念,是在既有的方案上包裝了一下,其處理方式是新瓶裝舊酒,只不過更時髦。”海量數(shù)據(jù)時代的數(shù)據(jù)應用并沒有給多少企業(yè)數(shù)字運算帶來革命性的變化,在 MapReduce 、Hadoop(兩者都是一種編程模型,用于大規(guī)模數(shù)據(jù)集的并行運算)出現(xiàn)之前,也有企業(yè)能夠輕松的對數(shù)據(jù)進行大規(guī)模并行計算了,而 NoSQL 的出現(xiàn)也只是為處理數(shù)據(jù)的方式帶來了更多可能性罷了,也并沒有革命性的質的飛躍。
從現(xiàn)在業(yè)界一些公司拿出來的大數(shù)據(jù)應用實例來看,依然只是在利用傳統(tǒng)意義上的數(shù)據(jù)分析與BI,只是巧妙地把這筆帳都記在了大數(shù)據(jù)上了。一家開發(fā)商說利用其大數(shù)據(jù)技術,一個電子商務網站能知道“什么地方的人買東西最瘋狂”或是“什么型號手機最好賣”,這就是大數(shù)據(jù)分析的結果。對此有專家反駁道“難道同樣基于數(shù)據(jù)倉庫系統(tǒng)的BI分析出來的結果和這個大數(shù)據(jù)出來的結果會有不同么?的確從某些大數(shù)據(jù)應用中會挖掘出新的價值,但這個價值只是附加價值,沒有理由去夸大它,更沒有理由去無端的想象。大數(shù)據(jù)是機會,但只是少數(shù)人的機會,更多是巨頭們的商業(yè)謀略。”廈門一位電子公司CIO也認為,“一些企業(yè)所需要的數(shù)據(jù)內容和運用,其實都可通過開源社區(qū)就能獲取,傳統(tǒng)列式數(shù)據(jù)也能能很好地處理大數(shù)據(jù)。參加各種大佬們口沫橫飛的會議,還不如和工程師聊聊可以運用什么更實用的工具來具體操練、發(fā)揮一下。”
以推廣大數(shù)據(jù)頗為賣力的EMC公司為例,其 Greenplum核心產品線本身而言并沒有太多的變化——仍然分為Greenplum Database(數(shù)據(jù)倉庫)、Greenplum HD(Hadoop分析)和Greenplum DCA(數(shù)據(jù)計算設備),后者還是基于高性價比的工業(yè)標準x86服務器的MPP(大規(guī)模并行處理)分布式可擴展架構。因此站在廠商的角度,如果沒有更多的新穎有意義的東西,過多地投入資源來大量宣傳推廣顯然不劃算,防止最后客戶不買賬。確實,海量增長的非結構化、半結構化數(shù)據(jù)中確實有值得更深挖掘的價值,但這并不等于人們就要一下子更換全新的方法、工具來處理它們。就像需求是漸進式的增長一樣,業(yè)務的變革也要以漸進式為主,比較穩(wěn)妥。
什么惹眼就掛什么標簽,什么有好處就往哪鉆,這就是如今商家通行的招數(shù)。而面對“大數(shù)據(jù)”的流行,不少傳統(tǒng)BI廠商最后也禁不住“誘惑”,紛紛搖頭一變,都套上了“大數(shù)據(jù)”的外套,令人感嘆。
可以說,當前IT廠商心態(tài)日趨浮躁,急功近利,沒有真正去認真研究客戶需求、認真研究企業(yè)管理,而是還停留在炒作概念甚至撈一把就走的階段。今天你一個SOA,明天我一個EAI,今天你來網格計算,我明天來個云計算,你一個BI,我來個大數(shù)據(jù),等等,都是各自從各自的技術特點去闡述各自軟件的概念與應用,引導用戶投懷送抱,但沒有幾家能說清楚自己軟件服務到底是個什么好東西,能給企業(yè)帶來什么簡捷實用的好處?性價比是否最優(yōu)?反而五花八門的概念、定義,令客戶單位眼花繚亂,不知所措。在選擇的時候看看這個也有點道理,那個講的也好象對,但沒有哪個廠商的系統(tǒng)真正令客戶深感滿意。
再回來說說大數(shù)據(jù)與BI。可以說,大數(shù)據(jù)與BI二者之間存在著深厚的天然聯(lián)系,一對孿生兄弟,它們辦公決策工作本身都是一種團隊協(xié)作和協(xié)調,尤其是在數(shù)據(jù)挖掘和數(shù)據(jù)分析層面,并沒多大的差別。同時,傳統(tǒng)BI與大數(shù)據(jù)的關系,并不是互相替代、排斥的關系,它們猶如人的左腦和右腦,分工不同,傳統(tǒng)BI以處理結構化信息為主,大數(shù)據(jù)以處理非結構化、半結構化信息為重,它們相互依存、相互補充、共為一體,組成企業(yè)完整的信息化大腦。
大數(shù)據(jù)的創(chuàng)新性、先進性與前瞻性,不容否定,值得肯定,但當有人提出“大數(shù)據(jù)當立,BI當下”之論,就顯得過分武斷、偏激了。在如今細分制勝的時代,功能并不是越多越好,功能過多反而顯得累贅,增加無謂費用,因而故弄玄虛、故作高深地過分炒作概念,反而有失本質、主次。Gartner研究公司的BI分析師RitaSallam表示,“大數(shù)據(jù)將讓BI更有價值和更有利于業(yè)務發(fā)展。我們總是會需要看看過去的數(shù)據(jù),當你擁有大數(shù)據(jù)時,你更應該這樣做。BI并不會消失,它通過大數(shù)據(jù)被加強了。在一定時期內,大數(shù)據(jù)還難于取代傳統(tǒng)BI工具。”
如今各種關于大數(shù)據(jù)與BI軟件誰優(yōu)誰劣觀點的交鋒仍不斷泛起,但不管如何,應明白的是,客戶單位、消費者真正需要的不是概念,需要不是優(yōu)劣是非的爭論,他們需要的是實實在在的應用軟件,需要的是解決問題的有效方法,需要的是軟件恰到好處的功能。
而對應用企業(yè)而言,它們必須認真權衡,到底企業(yè)利用大數(shù)據(jù)后能給企業(yè)帶來了多少額外增加的價值?這種增加的價值是否能讓企業(yè)的投入有一個較好的收獲?而且更為重要的一點是,是否只要使用大數(shù)據(jù)就一定能夠給企業(yè)帶來以前不可能實現(xiàn)的價值?這些都需要應用企業(yè)好好重點考慮了。( 文/ 廈門智者恒通 吳勇毅)


