好吊视频一区二区三区-国产精品V欧美精品V日韩精品-老司机亚洲精品影院-国产精品视频免费播放

物聯傳媒 旗下網站
登錄 注冊
RFID世界網 >  新聞中心  >  物聯網新聞  >  正文

大數據挖掘風正起 隱私邊界仍不清晰

作者:李新玲
來源:中國青年報
日期:2013-07-05 09:20:20
摘要:在當當網上購買了經濟類圖書,再登錄時,頁面上就會主動跳出與經濟金融投資相關的圖書;在淘寶網上買了幾件童裝,登錄后,頁面上就會出現各式的小孩衣服,而且價錢、樣式都會與購買的類似;只要在某個購物網站留下郵箱,郵箱里總會出現很多賣家的廣告……上述經歷,相信是很多人上網時會遇到的情況:被推送,而且是根據個人的喜好被精確推送商品。這一切都與現在網絡科技的一個熱門詞相關:數據挖掘。

  在當當網上購買了經濟類圖書,再登錄時,頁面上就會主動跳出與經濟金融投資相關的圖書;在淘寶網上買了幾件童裝,登錄后,頁面上就會出現各式的小孩衣服,而且價錢、樣式都會與購買的類似;只要在某個購物網站留下郵箱,郵箱里總會出現很多賣家的廣告……上述經歷,相信是很多人上網時會遇到的情況:被推送,而且是根據個人的喜好被精確推送商品。這一切都與現在網絡科技的一個熱門詞相關:數據挖掘。

  從去年開始,有關大數據的各種論壇此起彼伏,讓人感覺大數據時代來臨的緊迫性,這與前幾年云計算、物聯網風起時情況類似,人人都在談,但到底如何做、如何利用卻只有少數人能夠說得明白,談得清楚。

  不久前在北京舉辦的“中美創新鏈接大數據高端論壇”上,北京經濟和信息化委員會副主任梁勝就直接點題:“我更關心的是,大數據到底能為城市安全運行提供什么?到底能為科研生產活動提供什么?我想,這是政府和市民,以及各行各業都需要的。”

  阿里巴巴的數據科學家楊滔以阿里巴巴的實際案例,分享了一家數據生產巨頭內部對數據的挖掘和運用。

  楊滔先介紹了他們如何利用淘寶網構建起超級數據集:“就是對消費者信息的提煉,通過購物記錄、支付寶的記錄等,提煉出用戶性別、年齡,所在地的級別,比如是在城里還是鄉村(可以提煉出幾級城市),是在沿海還是內陸,是在南方還是北方,是不是結婚了,是不是有孩子這些信息都是從大量數據中提煉出來的。”

  楊滔透露,他們通過支付寶和淘寶的數據,統計發現淘寶網上的活躍用戶中有近2000萬名大學生。“大學生”這個標簽是數據本身中沒有的,但可以通過用戶收貨地址挖掘提取出來,并通過過濾手段把大學里的教職員工和其他人員排除在外。

  楊滔還介紹了用戶并不清楚的淘寶網“微市場”:“我們給用戶分成了很多群,這個群就是用到消費者超級數據集,再根據用戶的購物行為作動態的分組,比如說一個"貴婦"也喜歡買便宜的東西,一個不是有錢的大學生也可能買奢侈品,不同的行業里面和不同類目里面,根據消費者的行為作購物的動態分析。”楊滔特別提到“達人推薦”:“達人就是在不同商品中善于發現好東西的買家。找到你所在的群體中比較活躍,善于發現淘寶商品的達人,用達人來給你做推薦。”

  因為通過分析,楊滔他們發現,和某類消費者興趣相似的達人,經常能搜到一些有品質的商品,在這些達人的引導下,可以拔高追求高品質的消費者的需求,而不是重復原來的需求。

  他們在女裝“微市場”測試了6個群體。消費者不知道自己的分類,但是默認看到的東西和別人看到的東西是不一樣的。這6個群體用到了分群和達人推薦,購買的各項指標提升得都非常明顯,花費平均提升20%以上。其中消費能力高的“貴婦群”支付寶交易額提升60%以上。而“貴婦群”以前在淘寶很難找到適合她們的商品,淘寶更照顧尋找便宜和性價比較高商品的人群。

  楊滔最后還介紹了一個通過數據挖掘來進行商品銷售預測的項目。他們在“聚劃算”中選取少量商品,對比機器審核和原有的人工審核,結果是機器預測商品銷售遠高于人工審核的準確率。他認為,這個基礎性的工具,對于未來淘寶網精細化的運營,賣家合理的定價和庫存管理,都會大有用處。

  云計算和移動互聯網的高速發展正在推動和改變著企業的運營模式,很多巨頭公司都已經開始自建大數據平臺,越來越多的企業開始運用互聯網和移動平臺進行市場營銷和業務管理。針對這些新趨勢,DCCI互聯網數據中心創始人胡延平認為移動端的數據價值更大。“但這個領域處于數據沉淀,基礎數據監測階段,距離真正的挖掘還比較遠。”針對目前急驟上升的移動互聯用戶和數據,胡延平認為,“PC端和移動端的數據,從數據的質量、數據的結構、數據的獲取方式、數據的量級等,都有很大差異。”

  他解釋說,在移動端本身應用和應用之間相對來說都是封閉的,所以移動端數據不是開放性的。現在有些大企業試圖形成一個封閉的開放平臺,把大家圈進來形成規模,有了規模之后才能形成發現數據體系。

  同時,他也表示了對這個行業的憂慮:“(做數據挖掘)要尊重用戶,不尊重用戶數據很難做得很遠。我們評測65%以上移動應用,也會抓取一些與評測功能無關的用戶數據,甚至是涉及隱私的數據。”數據獲得與數據利用的隱私邊界都是問題。

人物訪談