好吊视频一区二区三区-国产精品V欧美精品V日韩精品-老司机亚洲精品影院-国产精品视频免费播放

物聯傳媒 旗下網站
登錄 注冊
RFID世界網 >  新聞中心  >  物聯網新聞  >  正文

RFID半結構化巨量資料分析 如何是好?

作者:RFID世界網收錄
來源:DIGITIMES
日期:2012-10-16 14:16:40
摘要:傳統的BI或資料倉儲(Data Warehouse),系擅長于處理結構化資料,亦即一般存放于關聯式數據庫的數據,對于XML、Logs、Click-Stream、RFID Tags等半結構化資料,抑或網頁、電子郵件、多媒體、實時訊息等非結構化資料,處理能力一向都不太好,少量處理如此,面對現今爆炸性的「巨量」,那更是無力應付。所以企業若一味緬懷過去,運用傳統資料倉儲、資料采礦(Data Mining)等工具鑒往知來,恐將事與愿違,因為這些工具所帶出的分析結果,對于企業競爭力的提升作用,已經愈來愈小。

  舉世聞名的Wal-Mart,藉由經年累月的結帳資料分析,締造了「尿布與啤酒」的驚奇故事,大家這才乍然醒悟,原來看似風馬牛不相及的事物,也蘊藏著不為人知的致勝秘訣,顯見商業分析之重要性;但「尿布與啤酒」畢竟屬于事后分析,Wal-Mart現在更想做的,已經不僅止于此。

  盡管「巨量資料」或「海量資料」等詞匯,幾乎已經密集延燒了一整年,但Big Data議題不僅未見絲毫疲態,這把火反倒愈燒愈旺,成為企業蓄積智慧與洞察力的絕佳寶庫,許多高階主管,都樂此不疲從巨量資料中探索致勝秘訣,據此建立競爭優勢。放大

  Wal-Mart過去為人樂道的尿布與啤酒傳奇,已成為「傳統」。新的商業分析技術正在興起,可以挖掘出過去顯為人知的訊息。

巨量資料分析架構示意圖

  乃至于全球最大的軟件公司微軟(Microsoft),也將巨量資料與行動應用、云端運算、企業生產力(含企業社群)等另三項議題,列為「主導未來十年產業變化」的四大趨勢之一;其認為多年以來,商業智慧一直扮演重要角色,如今隨著互聯裝置及應用程序的大量運用,引發爆炸性的資料增長,遂使得商業智慧愈趨朝向巨量資料靠攏,成為企業賴以洞燭機先的關鍵利器。

  值得一提的,隨著巨量資料、商業智慧彼此間擦撞火苗,也讓現今的商業分析內涵,出現了有別以往重大轉變;在過去,商業分析的重點,僅在于冰山之上已知可見的結構化數據,偏向事后分析型態,然而今后,其重點已經轉向為冰山之下的未知信息,且泰半屬于大家從前鮮少進行分析的非結構化資料型態。

  Wal-Mart過去為人津津樂道的尿布與啤酒傳奇,至此已可歸類為「傳統」的商業分析,展望未來,企業倘若只是做到這一步,并不足以掌握關鍵契機;所以Wal-Mart早就不以此為自滿,而是主動分析顧客搜尋商品的行為,以及用戶透過搜尋引擎尋找到Wal-Mart網站的關鍵字,利用這些關鍵詞的分析結果發掘顧客需求,以規劃下一季商品的促銷策略。

  不僅如此,Wal-Mart還瞄準了當今最炙手可熱的社群網站,期望從顧客在Facebook、Twitter等網站上對商品的討論,早一步掌握潛在消費需求,終至創造「比父親更早知道女兒懷孕」的另一驚奇故事。

  面臨新挑戰 企業亟需培育新智能

  即便許多企業,所屬業態與Wal-Mart大相逕庭,生財模式也與Wal-Mart多所歧異,但可以肯定的是,隨著全球經濟情勢與商業環境的改變,未來企業規模無論是大或小、從業資歷不管是深或淺,都無可避免一定會面臨諸多新挑戰。

  這些挑戰,包括了商品的競爭與價格壓力漸增、新市場的需求擴大、人力資源管理難度攀升,以及企業永續性與法規遵循的要求愈趨嚴格;在此前提下,企業別無他法,勢必得力求推動更多的創新,加快技術研發的速度,并設法改善客戶服務與盈利能力。

  意欲將前述條件逐一付諸實踐,對于絕大多數企業而言,其實并不容易,因而導致大部分公司抗御經濟情勢與商業環境變動的能力,都顯得有所不足,為業務發展埋下不確定因子;于是乎,現今不管身處哪一國度、哪一垂直產業領域的企業用戶,最殷切的期盼,便是尋求一個好的解決方案,借以幫助他們節省金錢、提高生產力、帶動業績的成長。

  以上三個愿望,看似平凡無奇,理應不難達成,實則不然,主因在于當前世局變遷速度加快,連帶造成各項新挑戰接踵而至,使得企業很難再沿用過去熟悉的方法,實現這些基本目標,必須援引新的方式,建立新的智能,才可望扭轉整個局面。

  如何培育新智能?答案就在于巨量資料分析!

  傳統 vs. 現代 商業分析大不同

  傳統的BI或資料倉儲(Data Warehouse),系擅長于處理結構化資料,亦即一般存放于關聯式數據庫的數據,對于XML、Logs、Click-Stream、RFID Tags等半結構化資料,抑或網頁、電子郵件、多媒體、實時訊息等非結構化資料,處理能力一向都不太好,少量處理如此,面對現今爆炸性的「巨量」,那更是無力應付。

  所以企業若一味緬懷過去,運用傳統資料倉儲、資料采礦(Data Mining)等工具鑒往知來,恐將事與愿違,因為這些工具所帶出的分析結果,對于企業競爭力的提升作用,已經愈來愈小。

  那么該如何是好?即是設法強化半結構化與非結構化巨量資料的處理能力,以期填補既有商業分析機制的先天缺陷;其大致的運作原理是,運用一套全新的解決方案,先針對內外部巨量資料加以儲存、運算、處理與分析,然后再把其處理或分析結果,轉變為某種結構化格式,如此一來,BI或資料倉儲便可擷取這些結果,為終端使用者進一步提供相關的索引或搜尋。

  于是乎,最擅長處理半結構化與非結構化資料的Hadoop-MapReduce,遂成為巨量資料分析架構當中的重要環節,從以往鮮為人知,變成今時今日的當紅技術;根據市場研究機構MarketAnalysis.com預估,時值2013~2018年期間,Hadoop-MapReduce市場的復合成長率高達58%,到了2018年其產值將達22億美元,放眼各項IT產品或技術,具備類似于Hadoop-MapReduce增長幅度的項目,其實并不多見。

  綜此,建立Hadoop-MapReduce分散式運算架構,似已成為企業跨足巨量資料分析的必經之途,但要想在這條路上走得安穩,企業必須先把大環境給營造出來,首先便是導入云端運算,藉由虛擬化技術將一群廉價的運算資料,匯集于可供挪移調度的資源池。

  其次則是建立資料儲存(Storage)與擷取(Retriever)機制,因此舉凡HDFS(Hadoop Distributed File System)分散式檔案系統,以及立基于欄位(Column)的HBase數據庫系統,顯然都成為企業IT人員的必修學分。

  HDFS有一個更傳神的稱謂-NameNode,負責將檔案切割成為固定大小的區塊,然后再將各個區塊分散儲存至不同的DataNode上,運作原理彷彿Linux檔案系統里頭的Inode;因檔案儲存皆跨越實體機器,所以HDFS可被為一項虛擬的分散式檔案系統,與傳統檔案系統分割Block后都存放到同一機器的做法,的確大不相同。

  至于HBase,我們可以這樣解釋,簡單來說,Hadoop就是一套實現Google Map & Reduce的工具,而HBase則用以實現Big Table設計概念,兩者皆屬于Apache項目的一環,也都以Java作為主要程序語言。Hbase是一種足以迅速存取大量資料的數據庫設計方法,它運用Row-Oriented、Column Family等思維,俾使用戶便于儲存具備不同欄位屬性的資料,爾后亦可援引Row Key,快速讀取其所需要的資料。

  而不管是HBase,以及負責將單一工作分散至不同集群加以平行運算的MapReduce,大家都需構筑在HDFS基礎之上,所以無論在建立HBase或Hadoop時,皆需設定聯系HDFS的Server與Port,以便于讓同一份檔案,可被復制到不同的運算節點。

  一旦運用Hadoop-MapReduce負責處理半結構化與非結構化資料,再配合傳統BI與資料倉儲對于結構化資料之處理與分析,企業即可成功進入Big Data世界,再從Big Data走向Total Data,從過去茫然未知的冰山下世界,深入萃取商業價值,借以預測未來、優化競爭策略、提振顧客滿意度。

  此處必須強調,過去的資料采礦,通常是提出「會問」的問題,接著從這些問題找答案、找知識,但進入巨量資料分析,用戶心態勢必需要調整,轉而將重點置于「不會問」的問題,比方說經由客戶在社群網站的意見討論,驅使下一個問題的產生,繼而探索解答,以利企業能從未知環境中創造價值。(RFID世界網編輯整理)

責任編輯:廖小亞