為什么說特朗普當選是對大數據技術的嚴峻考驗

作者：徐永紅

來源：來源網絡(侵權刪)

日期：2016-11-11 09:39:28

摘要：在美國大選上，微軟必應的預測卻錯得有點離譜。最終的結果是希拉里敗選，特朗普成了最大的贏家，那為什么在本次的美國總統大選上，微軟基于大數據模型的必應預測為何會出現如此嚴重的偏差？

　　鬧鬧哄哄的美國大選總算是塵埃落定，在老牌政客希拉里與政治素人特朗普之間，美國人民作出了自己的選擇，選擇了一切似乎都不按常規出牌的特朗普，給原本就似鬧劇一場的大選添上了一絲荒誕的色彩。

　　筆者對大選的結果倒并不關心，只是對大選之前美國的一些預測機構的表現頗為好奇。事實上，在大選之前，微軟的PredictWise、《紐約時報》的The Upshot以及普林斯頓的 Sam Wang三者在選舉的當天早上預測特朗普獲勝的概率都在10%上下，而最終的結果狠狠地打了這些預測機構的臉，難道是大數據技術出了問題?

　　成功的案例

　　早在2009年，在甲型H1N1流感爆發的幾周前，谷歌工程師們在《自然》雜志上發表了一篇論文，工程師們探討了谷歌為什么能夠準確地預測冬季流感的傳播情況。

　　事實上，谷歌的這套預測系統重點不在于提供解決方案，它關注的是特定檢索詞條的使用頻率與疾病在時間和空間上的傳播之間的聯系，比如某地在某段時間上對某種疾病解決方案的搜索頻率越高，那么某地某種疾病在某段時間內流行的概率就越大，正是這種適當的強相關性的建立為后來的大數據預測的準確性埋下伏筆。

　　同時谷歌還利用龐大的歷史檢索數據來完成對已發生事件的驗證式“預測”，通過不斷地調整預測的數學模型使之更加符合事實真相，從而提升該預測系統的準確率，以更好地完成對未來事件的預測。

　　事實證明了谷歌利用龐大的搜索數據進行趨勢預測的準確性，在2009年甲型H1N1流感爆發的時候，相比官方數據習慣性滯后的毛病，谷歌成為一個更為及時且更有效的指示標。

　　大數據技術面臨考驗

　　早在美國大選的幾周前，微軟必應團隊曾公布2016年美國總統大選的預測結果，認為希拉里·克林頓贏得大選的幾率接近90%。要知道微軟必應此前曾在體育比賽結果、電視賽事、各種頒獎禮及政治選舉結果預測中屢屢成功。

　　然而在美國大選上，微軟必應的預測卻錯得有點離譜。最終的結果是希拉里敗選，特朗普成了最大的贏家，那么為什么在本次的美國總統大選上，微軟基于大數據模型的預測(事實上不僅僅是微軟的，幾乎大部分的預測都出現嚴重偏差)為何會出現如此嚴重的偏差?

　　對此，微軟的解釋是：必應預測使用了多個來源的數據，包括搜索結果、網絡、社交媒體數據及第三方的預測結果等。由于這些都屬于預測性質，因而我們不能保證100%的準確性。

　　微軟的解釋無可厚非，事實也確實如此，大數據目前面臨的主要問題不在數據的多寡，而在于數據的質量，大數據講究的是數據的相關性而非因果，因此相關性越大，那么這些數據的質量就會越高，在此基礎上建立的應用就會越準確，比如對比賽結果以及政治選舉的預測等應用。而如何在數據海洋中建立起數據的強相關性，并不斷地進行算法的優化及構建合適的數學應用模型可說是目前大數據應用領域的關鍵，可見，未來的大數據應用依然任重道遠!

　　(文/徐永紅 rfid世界網獨家稿件，轉載請注明來源作者!)