微軟即將開源REEF大數據框架
微軟開發出一套名為REEF(即可保留評估執行框架的簡稱)的大數據框架,并有意在一個月之內將其推向開源。REEF在設計上以下一代Hadoop資源管理器YARN為運行基礎,尤其適合完成機器學習類任務。
微軟公司技術研究員兼信息服務部門CTO Raghu Ramakrishnan在本周一上午于芝加哥舉辦的知識發掘與數據發現國際大會上,以主題演講的形式介紹了REEF項目與微軟的開源規劃。
YARN是一款資源管理器,最初作為Apache Hadoop項目的組成部分開發而來,旨在幫助用戶在由多臺物理設備構成的同一套集群內運行并管理多種任務類型(例如批量MapReduce、與Storm及/或圖形處理包共同實現流處理等)。這項新機制不僅能夠縮減機構所需管理的系統數量,而且能在同一位置以同一批數據為基礎執行不同類型的分析工作。在某些情況下,全部數據工作流甚至可以完全在同一套設備集群內進行處理。
不過根據Ramakrishnan的解釋,某些工作類型(例如機器學習)對于YARN類框架并不適合,因為它們對于數據移動、任務監控以及前續結果集迭代(以避免多次重啟)等功能存在特殊要求。針對REEF,Ramakrishnan表示這是一套運行在YARN之上的庫;雖然他并未深入探討其具體運作機制,但宣稱REEF能在一定程度上解決上述問題。
但他曾明確解釋稱,REEF被分為兩大主要部分:首先是作為容納REEF服務的YARN容器——Evaluator;然后是使用戶代碼運行在Evaluator當中的Activity。他還為我們帶來一段工作流演示,即在YARN當中啟動Evaluator,并以Evaluator為容器實現Activity代碼運行直到結束。值得一提的是,同一Evaluator還可以再次啟動并維持其初始狀態,這樣其它Activity進程也可以針對初始數據實現運行。據推測,微軟很可能是利用某種SQL查詢或者其它機器學習算法來實現這樣的效果。
從理論上講,REEF是一種非常有趣的技術。它希望解決企業在嘗試對數據進行進一步分析時所面對的遺留問題。我們期待微軟正式發布REEF之后,再從實際使用中獲取更多效果信息。盡管目前尚未實踐證明,但REEF仍然值得關注——這是因為微軟已經對Hadoop(YARN即為Hadoop的重要組成部分)及開源社區表現出高度關注。就在幾年前,微軟還在尋找Hadoop的替代方案及專有平臺。如今,軟件巨頭已經開始在Hadoop技術社區中傾注心力,希望借開源之力助自己更上一層樓。
                                        
                                        
                                        
                                        
                                        

