王守崑:大數據時代社交圖譜與興趣圖譜的融合
中國技術商業論壇組委會主辦、《IT經理世界》雜志社承辦的“中國技術商業論壇”在京舉行,豆瓣首席科學家王守崑與會進行了主題演講。王守崑表示,個性化推薦會是整個互聯網,包括移動互聯網的下一件大事。能夠成為大數據它的首要條件必須是增長非??欤褪潜仨毜靡跃€性增長,然后快,這是第一個。第二個它必須有復雜的內部結構。
騰訊科技對本次盛會進行了全方位專題報道。
以下是文字實錄:
謝謝各位,感謝主辦方和《IT經理世界》能給大家提供這樣一個平臺。今天我演講的題目是“大數據時代社交圖譜與興趣圖譜的融合”也是豆瓣在過去幾年在數據和科技化方面的一個經驗的積累。首先,我想問大家一個問題,這個詞我們聽了好長時間了,大數據,什么是大數據?這個詞大概從去年,然后很多人就不停的聽到,可能很多同學在跟硬件相關的廠商那邊聽到,所以有的同學說是不是硬件廠商把其他的東西重新包裝一下,讓我們都賣產品。
我們看這個例子,第一個如果我們把全球所有的移動電話和用戶的通話記錄放在一起,這個叫大數據嗎?我聽有同事說算大數據。第二個是所有的門戶網站,我們說中文的門戶網站,幾個大的門戶網站,每天產生的新聞,這個算大數據嗎?有同學說算,有同學說不算。第三個這個東西可能用的不多,原來還有,就是特別厚的一本,上面各種機構或者有些時候還有個人的電話和他的地址,如果假設有這么一個東西,全世界的各個機構的電話跟他的地址綜合在一起,可能也是非常大的數據量,幾十億,幾百億的數據量,這個算大數據嗎?
下面,我用我自己的理解,這純粹是我個人的一家之言,不代表任何人來看一看這幾個東西到底算不算大數據?我覺得大數據的第一個條件就是所謂的超線性增長,你得增長特別快,超線性這個詞有一個廣義的理解,有一個狹義的,狹義的就是增長的斜率必須是固定的,必須大于1,必須得比線性斜率不能是恒定的。廣義的理解,就是即便是線性的,只要你是大于1的,就叫超線性增長。我在這里使用的是廣義的含義,就是你只要斜率大于1就算超線性。這個詞在美國的一個研究所,有一位物理學家是研究所有城市和機構為什么能夠長這么大,為什么我們這個世界上有超大型的城市,他在研究這個的時候提出的這樣一個理論。我把這個東西借鑒到這個理論來,就是一個數據源產生數據,能夠成為大數據它的首要條件必須是增長非常快,就是必須得以線性增長,然后快,這是第一個。第二個它必須有復雜的內部結構,為什么說要有復雜的內部結構呢?如果僅僅是簡單的數據機構,沒有辦法分析出更深的結果,沒有辦法從里面得到更多的信息。有復雜的數據結構之后,再配合上超線性的增長,我們就可以從里面分析出很多有意思的結果,能夠得到很深的一些洞察。
滿足前面這兩條的其實最最簡單的例子大家每天接觸的就是互聯網,它為什么能滿足前面兩條呢?第一、首先它是網絡,網絡的本質就是互相有連接。我們這個屋子里大概有100多人,假設150人,這樣一個狀態,如果是線性增長,我們每個人產生的數據肯定是一定比例的線性增長,但是如果我們之間互相之間都認識,兩兩之間都認識,這就是一個平方量級,就是150×149,或者150平方的關系。在這個關系上產生的數據就叫做超線性增長的數據,具備這樣條件的把它叫做大數據。
除此之外,當然還有第三點,不是硬性的一個規定,只是說為什么我們在現在這個條件下大家會更多的討論什么是大數據?那就是我們現在能夠以非常低的成本去接觸大數據,從大數據中挖掘出有意思的信息。這張圖是大概二三十年內存下降的趨勢,縱軸是對數,這實際上是線性下降的。我自己的印象也非常深刻,大概在20多年前,我念大學的時候,我的第一臺電腦,想把內存搞大一些,所以我花了差不多快2000塊錢買了一個內存條,當時看來已經非常大了,16兆的一個內存條,當時2000塊錢。我們現在2000塊錢可以買好幾十G的內存了,這個下降非???。這個也就使得普通的公司,非常小的公司,甚至是個人都能夠去從硬件的角度來看,都能夠處理大數據,都能夠從大數據中挖掘出對自己有用的,或者對用戶有用的價值。所以,這個是我個人的一個看法,就是什么是大數據,哪些東西能夠成為大數據?
回來看前面說的三個數據源,這是我個人的觀點。第一、我覺得它是大數據?為什么?因為我們之間的通話,交往的過程,它是一個網絡狀的,是超線性增長的,并且我們的通話內容是非常復雜的,具有復雜的數據結構,包括我們的時間,包括方方面面的算法。第二個例子是這樣,如果只是每天產生的新聞,它不算大數據,為什么?因為這個量是有限的,每天也就是大概幾十萬,上百萬條,而且每天的增長也是有限的。但是,如果把用戶的瀏覽記錄,甚至把新聞的內容,比如說你對這個文本做分解,把這個文本之間產生互相的聯系的話,這個就算大數據。因為這些新聞網站的用戶量是非常龐大的,從瀏覽記錄能夠分析出用戶的興趣,這個超線性的增長,它的數據結構會是非常復雜的一個結構,所以這個算是大數據。第三個在我個人來看,它不算大數據,雖然它的量非常大,幾十億,上百億的量,但是它的數據結構非常簡單,并且它的增長不是超線性的增長,僅僅是線性的增長。這個純粹是我個人的一個觀點,跟大家分享一下。
我們豆瓣上線已經有八年多的時間了,我們專注于一個都市青年的文化圈和生活的這樣一個線上服務。我們管我們自己叫做基于興趣圖譜的社會化網絡服務。從上線開始,我們就做一件事情,就是個性化推薦,我們依據用戶的歷史的興趣,或者他表現出來的偏好,給他推薦他可能感興趣的,但是他還不知道的東西。這也是個性化推薦所能做到的最重要的一點,就是它能夠幫你發現未知的,它跟搜索引擎不一樣,你在搜索引擎做搜索的時候必須心里有一個想法,或者你要知道是什么東西,你搜現在最熱的電影。但是,如果你不知道你想看什么電影的時候,這個時候推薦引擎就可以幫到你。
這是我個人的一個簡單的分類,個性化推薦到現在大概有20多年的發展歷史,最早在Web1.0的時代,那時候有非常多的垃圾郵件,當時用協同過濾的算法找到這些垃圾郵件的發送者。隨著亞馬遜把個性化推薦用到它的電子商務網站之后,其他很多網站都使用了這種個性化推薦的技術,豆瓣在05年一上線我們的創始人就使用了這個個性化推薦的技術為大家做推薦。
截止到目前來看,個性化推薦可以用在社交圖譜里面,社交的社會網絡里面,可以用在興趣圖譜里面,比如像豆瓣,還有像一些電子商務網站,用戶依據興趣挑選商品,或者挑選產品的這樣兩個大的緯度??v向來看,我們可以把這個服務分成信息服務,是工具、體型的服務,以及交易類的服務,我用方塊的大小表示個性化推薦技術在這些領域的使用。從目前來看,基于交易的興趣圖譜和基于信息的興趣圖譜上是使用的最多的。豆瓣對各種各樣的產品都去做推薦,這是我們嘗試后的一些結果,這里只是一個大概的數字,并不是實際的產品數據。從我們這邊來看,比如說單曲的推薦,圖書的推薦,小組的推薦,都會獲得很好的效果。我們用幾個緯度衡量個性化推薦的效果,一條目數和用戶數,一個是時效性和多樣性,比如時效性,這個產品出來多長時間之后,用戶就對它沒興趣了。比如新聞,一般來說我們的經驗是一天半以前的新聞用戶就不會有興趣了,但是比如書的話,時效性非常強,幾百年前,幾千年前寫的東西,人們還在讀。興趣的不同,對個性化推薦的選擇會有很大的影響。我們還嘗試了很多我喜歡的這些東西,可能稍微偏技術性一點,就是用不同的算法,不同的模型看個性化推薦在不同緯度上的表現。我們的結論是說比較簡單的算法,比如最簡單的協同過濾算法,其實它在各個方面都有必須好的結果,也就是在數據量達到一定程度之后,其實算法和選擇更多需要看你實際用戶的需要,其實往往簡單的算法會有好的一些結果。
個性化推薦技術可以給我們網站帶來非常大的效果上的提升,這是一個大概的數據,它的最大的優勢就在于新用戶的轉化率,尤其是新用戶在頭幾個訪問的時候,如果你能抓住他的興趣,迅速給他推薦一些他感興趣的產品,或者是感興趣的信息,它的轉化率會大大的提升。豆瓣上線沒多長時間我們就發現在依據興趣的這樣一個社交會給用戶的活躍度帶來很大的提升,所以我們在產品中也加入一些社交的元素。當然,社交圖譜方面我相信大家都非常了解了,在這里就不做介紹了。
我們做社交圖譜的時候發現這個東西比興趣圖譜要復雜的多,它的復雜其實來源于一個是人與人關系的復雜性,人跟產品之間的關系相對比較簡單,我喜歡這個產品,我不喜歡這個產品,這個描述大概能描述你80%的情況。但是,人跟人之間的關系就很復雜,沒有一個簡單的,或者說是清晰的模型去描述人與人之間關系的這個復雜性,或者人與人之間關系很難用單一緯度描述的,我們人與人之間的關系非常復雜。第二、人與人之間交互在網站上表現成文字了,現在互相的回帖,或者互相說個話等等,這個語義的復雜性也不是現在計算機技術能夠完全掌握,或者完全攻克的一個難題,所以語義的復雜性也帶來描述人和人之間關系的復雜性。
我們解決這個東西的一個辦法,最后我們用了一個相對比較簡單的辦法,效果還不錯的辦法,其實就是我們用人來描述人,結合編輯的一些力量,結合算法的力量,用人描述一群人,給每一群人找到一些代表性的人物,然后用這些代表性的人物的特點表現他的興趣描述整個一群人這樣的特點。這一點在我們個性化推薦方面,就是我把人和人之間的社會關系用到個性化推薦方面也取得了不錯的效果。
興趣圖譜跟社交圖譜的一個重大區別,在這里做了一個簡單的描述,在興趣圖譜中人群更多是一個生人的網絡,大家來到興趣圖譜之前互相之間不太認識,依據興趣來結合新的網絡。但是,社交圖譜更多是熟人的網絡,尤其是強社交的關系,像大家現在用的微信,手機里的通訊錄等等,這個是熟人的關系。不同的人群它表現出的特點其實也是不太一樣的,比如說社交圖譜在黏性上和頻度上都很高,但是它在持久性上,有時候有的產品比較高,但是有的產品其實也沒有那么高。興趣圖譜一般來說黏性和頻度都沒有那么高,但是它的持久性會比較好一些,因為興趣一般都會是長期的興趣。依據這樣不同的特點,在我們做個性化推薦的時候可以有不同的一些考量。
我們把社交圖譜融入興趣圖譜也有一個很大的提升,首先是推薦準確率提升了,純粹用興趣圖譜做推薦的時候,新用戶轉化率比較好。把社交圖譜融合進來最大的挑戰其實就是數據層面的挑戰,我們有上億量級的用戶,每個用戶細分的興趣大概有上千種,我們整個用戶的興趣。每個用戶相對比較強的社交的關系大概有幾百種的樣子,或者上百類。那么,這個乘起來其實就會是一個非常大的數據量,也就是我們會用幾十萬的維的向量描述一個人,甚至擺成一千量級的數據描述一個人,我們還要找人跟人之間的關系,在數據上就會是非常大的一個挑戰,也是我們每天的工作要做的事情。
對于我們來說,我們期待下一代推薦系統就是除了融合興趣圖譜和社交圖譜之外,我們真正想做的事情其實是給用戶的一個引導,能夠幫助用戶發現它真正有價值的東西。其實現在的個性化推薦往往很難解決一個驚喜的問題,現在的個性化推薦很多時候,你看過天龍八部,給你推薦笑傲江湖,這個沒有什么興趣,我們主要要解決的就是幫助你進一步探索你未知的,而且對你很有用,而且能給你帶來驚喜的這樣的推薦的領域。
從我個人來看,我也認為在現在的網絡融合的時代,有云計算好的基礎,有強大的社會網絡和興趣網絡,然后隨著移動互聯網的發展,我們大家也更愿意去把自己的信息放在網絡上,我們的手機是非常個人化的一個產品,從我個人來看,我也認為個性化推薦會是整個互聯網,包括移動互聯網的下一件大事。謝謝各位!



