專訪 Oxylabs 首席執行官:合乎道德的網絡數據收集如何為公眾利益服務?
請介紹一下 Oxylabs,公司一開始是什么樣的,這些年來最重要的成就有哪些?
Oxylabs 是高級代理和公開網絡數據采集解決方案的領先提供商,讓各種規模的公司都能利用大數據的潛力。簡而言之,我們提供所有必要的工具和解決方案,供企業大規模收集公開可用的數據。

這些年來,我們的產品組合不斷發展,能夠滿足對公開網絡數據的日益增長的需求。例如,我們推出了即開即用的抓取解決方案,如爬蟲 API,讓我們的客戶能夠專注于分析數據,而不用考慮棘手的網絡抓取過程。
如今,我們擁有 1000 多家客戶,其中包括數十家全球財富500 強企業。此外,Oxylabs 擁有 400 多名員工,他們真正專注于每天為我們的客戶交付出色的產品和體驗,我對他們每個人都心存感激。
請向我們的讀者解釋一下什么是網絡抓取?
簡單來說,網絡抓取就是從預定義的網站采集大量公開可用數據的自動化過程。企業可以使用收集的數據來獲得數據驅動型洞察,推動其運營,并支持戰略性企業決策。
例如,網絡抓取是在線購物中不可或缺的一環,因為它讓企業能夠訪問可靠的實時數據,并更好地理解其友商的行動。因此,公司能夠以最具競爭力的價格向客戶提供最令人滿意的產品和服務。
這只是一個網絡抓取商業案例,這樣的案例還有很多。隨著對大數據的需求極速增長,不同的用例也浮現出來,新的行業也在發現外部數據的優勢。
不太懂互聯網技術的中年人如何從網絡抓取技術獲益?
自動化網絡數據采集解決方案不僅可惠及各個企業,還能為更廣泛的普通大眾帶來諸多便利。
想象一下這樣的場景,你需要獲取特定產品的最優價格。我們不用打開不同零售商網站的多個瀏覽器標簽頁,記錄產品信息并花費數小時試圖找出最優惠的價格,而只需訪問價格產品比較網站。所有比較網站都依賴網絡抓取技術,在幾秒之內提供這些信息。
旅行規劃是另一個很好的例子。旅游比價平臺網站很適合用于組織家庭度假,或者規劃國外城市短假。它們提供了最優機票和食宿價格,并可幫助我們找到經濟實惠的交易。如果沒有網絡抓取,旅行者又只能花費數小時甚至數天來研究最優惠的價格,或依賴其當地旅行社。
當然,最明顯的例子還是搜索引擎,因為它們依賴網絡抓取技術來對互聯網上的所有網站編制索引。通過這樣做,搜索引擎實際上可以將我們定向到在線來源以解答我們的問題。簡單來說,網絡抓取是一項神奇的技術,可以讓我們的生活輕松得多。
如今數據保護法律似乎越來越向消費者傾斜,Oxylabs 是如何在廣袤的數據海洋中找到航向的?你們在采集公開數據時遵守什么禁忌規則?你們是合乎數據收集行業規范的提供商嗎?
我已經不止一次聽到這個問題了,以后肯定還會有人提出這樣的問題。如今,大部分人一聽到“數據”這個詞,立馬想到這會影響自己的隱私。這也在情理之中,因為世界范圍內的數據泄露比比皆是。
在 Oxylabs,我們處理的是公開網絡數據的 B2B 端。不管怎么樣,這仍是一個棘手的法律格局。網絡抓取是一項相對比較新的技術,缺乏廣泛的法律監管。因此,各家公司必須總是謹慎考慮自己計劃收集哪種網絡數據,以及是否會違反任何法律,例如,版權法。在開展任何網絡抓取活動之前,我們鼓勵每家公司咨詢律師,評估法律細節。
在 Oxylabs,我們投入了大量時間精力來培訓行業和我們的客戶,宣傳如何開展合乎道德的網絡抓取。我們在公開網絡數據采集方面有嚴格的政策,并確保我們的所有運營以最高的商業倫理標準為準繩。
能否講一講網絡抓取技術對整個社會的好處的成功案例?
我們一直致力于宣傳合乎道德的網絡抓取的積極作用,并展示這對更廣泛的普通大眾的好處,為此,我們推出了“Project 4β”,專門幫助大學、研究人員和組織解決緊迫問題和使命。
通過“Project 4β”,我們與許多大學建立了有影響力的伙伴關系,包括密歇根大學和 CODE - 應用科學大學,我們向他們共享了我們的工具和專業知識。
此外,在贏得 Govtech 實驗室挑戰賽之后,我們與立陶宛共和國通信管理機構 (CRA) 建立了無償服務的卓越伙伴關系。他們的一大使命是保護立陶宛互聯網空間,杜絕非法內容。
CRA 面臨自動識別非法內容的挑戰,為此,我們的團隊創建了由 AI 驅動的網絡抓取工具,掃描互聯網以檢測與兒童性虐待相關的非法視覺內容。之前,他們主要依賴互聯網用戶出于善意而向熱線電話舉報非法內容。截至 2022 年,該工具已在 CRA 的日常運營中完全部署,能夠積極主動采取措施取締這些網站,并確保惡意行為者受到懲罰,實在大快人心。
憑借“Project 4β”,Oxylabs 總是樂意成為研究人員和組織的幫手,幫助他們解決緊迫的社會問題。在網絡數據采集解決方案的幫助下,我相信我們可以解決更多社會問題。
                                        
                                        
                                        
                                        
                                        


