人工智能時代語音大熱,中國巨頭如何爭奪麥克風?
語音并不是一個新鮮事物,2011年,Siri被內置在iPhone 4s之中橫空出世時,曾掀起一波語音技術和討論熱潮和語音助手的創業熱潮。時隔五年之后,Google AlphaGo人機大戰將AI(人工智能)從實驗室技術變成坊間熱議的話題,人工智能成為國內外科技巨頭的爭奪焦點,語音則成為巨頭進軍AI的必經之路。
Google I/O大會上,最重要的項目便是Google Assistant(谷歌助理)和Google Home(類似于Amazon Echo的智能家庭音箱助手),Google Home的基礎則是語音。
蘋果WWDC開發者大會上,5歲的Siri終于兼容了Mac,并向開發者開放,能完成更多任務。
Amazon Echo成為Amazon 最成功的硬件產品,這款產品銷量已達到400萬,家庭智能語音音箱,被視作是智能手機之后的又一個爆款品類。
KPCB合伙人、享有“互聯網女皇”稱號的瑪麗·米克爾在今年的互聯網趨勢報告中,將超過十分之一的篇幅給了“語音”二字,在其看來,“觸摸屏+麥克風”正在取代“鍵盤+鼠標”的交互方式。

如此重要的技術革命,中國巨頭自然不會缺席。截止目前,中國市場還沒有與Amazon Echo媲美的中國版智能語音音箱,但在軟件層面互聯網公司卻一直在想方設法入局。Siri發布的第二年,搜狗便發布了語音助手,搜狗也是中國最積極投資語音的互聯網巨頭之一,阿里、騰訊、網易、京東等巨頭在語音上雖然偶爾有零星動作,但并未將之視作重點,要么是第三方合作,要么是蜻蜓點水。搜狗是搜索引擎,均崇尚技術,這是其押注語音的原因所在。
輸入成中國玩家進軍語音的亮點
輸入是語音最典型的應用場景,戶外、家里、走路、開車,人們有許多時候都不便于打字,或者說懶得打字,抑或打字效率不夠高,語音就成為一種選擇。隨著語音技術的發展,識別準確率、方言兼容度、噪音抗干擾諸多難題都已得到解決,語音識別率已達到實用水平。
在語音輸入法上,搜狗輸入法、訊飛輸入法和百度輸入法是最主要的三個玩家。科大訊飛憑借著語音技術切入輸入法領域,宣稱用戶數已過億;百度輸入法也將語音當做亮點,其宣稱借助于DeepSpeech技術解決了噪音問題。語音輸入量工具最大的則是搜狗輸入法,其7%的用戶會用到語音識別功能,這一功能每天會有超過1億次的語音轉化量,在整體1.4億的請求次數中占據相當比例,這也側面表明,搜狗語音應用最關鍵還是輸入。
搜狗輸入法做語音則有5年歷史,與訊飛語音輸入法強調識別率不同,搜狗輸入法更強調智能輸入。識別率再高,語音輸入依然會有錯字現象,手工更改成痛點——用語音輸入就是因為不想動手。搜狗輸入法的解決方案是智能交互,比如用戶說“航天一院”很可能被識別為“航天醫院”,用戶就可再說“一二三四的一”,搜狗輸入法就會將“醫”改為“一”。這樣的交互能實現,關鍵不在于識別率,而是語義理解,如果沒有語義理解技術,就會直接將“一二三四的一”轉化為文字。好的語義理解,需要應用深度學習為基礎的人工智能技術,這是互聯網公司尤其是搜索公司擅長的地方。
語音輸入法成為中國互聯網巨頭做語音的一大亮點,美國用戶并不需要“輸入法”,系統自帶功能就可滿足,因此美國并沒有類似于搜狗這樣的輸入法巨頭。當然,英文會需要語音輸入,不過這并沒有成為Siri的重點,未來或許會出現英文版的語音輸入法。
汽車成中國巨頭最親睞的場景
在語音使用場景方面,美國科技巨頭更親睞“家”,Amazon Echo、Google Home均是面向家庭這一場景。家是封閉空間,相對更安靜,并且干擾他人和被他人干擾的問題更小,還能與智能家居打通,是非常適合的語音場景。不過,由于做硬件需要較強的“硬實力”,與智能家居打通則需要大量的產業整合,不是一時半會能實現的,因此中國互聯網巨頭均對這個場景望而卻步,阿里、京東有嘗試與第三方合作推出與Echo類似的產品,市場表現卻很平淡。
與“家”同等重要的語音場景非汽車莫屬:車主在駕駛時雙眼和雙手都被占用,語音成為最佳輸入方式。過去汽車內的語音輸入存在許多痛點,自帶語音功能只支持少數英文命令,并且還要給更多錢買“豪華版”才會配置。汽車內的語音交互充滿著互聯網巨頭最向往的顛覆機會。
搜狗針對汽車發布了智能語音導航App,可實現駕駛之外的常規車內交互,包括打電話、發短信、查天氣、歌曲播放等等,這款產品可運行在智能手機上,還可通過車機互聯協議使之運行于汽車屏幕,如果汽車廠商與搜狗進行前裝合作則可獨立運行于汽車的OS上。不久前,YunOS與上汽合作的國內首款互聯網汽車,語音交互被當做一個賣點:阿里巴巴CEO張勇展示了用語音打開天窗這樣的操作。在未來,汽車內的語音交互將成為標配。
智能技術確保語音能夠聽得懂
Siri才五年歷史,但語音卻有十分悠久的歷史:科大訊飛在1999年就已成立,現在是A股市場上市值400億元的語音巨頭。不過,語音走向大眾,徹底改變人機交互方式,卻是近幾年才發生的事情。從國內外科技巨頭的動作來看,智能技術和云端服務已成為語音的兩大支柱。
語音技術過去是基于“規則”而不是“統計”,基于一定規則,對海量的語料庫進行處理之后就能不斷提高識別準確率。深度學習為基礎的人工智能技術加入之后,語音技術就變成通過機器集群去學習海量語料數據,并尋找到各種規律,進而進行準確的語音識別和語義理解。
不論是語音輸入的智能糾錯,還是語音搜索對用戶請求的準確理解,抑或Siri響應用戶諸如“幫我設置一個提醒,明天9:00取快遞”這樣的復雜命令,底層均是人工智能技術,AlphaGo掀起的AI啟蒙運動則將會成為語音普及的助力。
搜狗與清華大學聯合成立“天工智能實驗室”,正在人工智能技術這個“根”上布局,以求贏在起跑線上。借助于人工智能技術,搜狗宣稱語音識別準確率高于97%,識別速度高達每分鐘400字以上,在語音修改方面,支持替換、插入、刪除等幾百種改錯操作 ,修改成功率達到90%以上,處于行業領先水平。
云端服務則決定語音能夠做什么
智能技術確保了人與機器能夠順暢地對話和交互。云端服務整合能力,則決定機器在聽懂人話之后能做什么。
Siri相比Google Now的劣勢是,許多Siri無法回答的問題,Google Now可通過搜索解決。Amazon Echo之所以有很大價值,在于其能夠去Amazon網站下單購物。這些均體現了云端的服務整合能力,正是意識到這一點的重要性,今年的WWDC上蘋果決定開放Siri給開發者,讓開發者來豐富Siri的服務。
云端服務上,搜狗擁有搜狗地圖、搜狗搜索、搜狗號碼通、搜狗問問、搜狗百科等產品,未來搜狗語音還可整合其伙伴如京東、知乎、騰訊的諸多服務,比如QQ音樂、騰訊視頻、京東購物等等,甚至用語音給微信好友點個贊。相對來說,互聯網巨頭云端服務整合能力更強,搜索引擎憑借著強大的內容整合和服務連接能力表現又更突出。
僅僅是整合“在線服務”并不足夠,互聯網巨頭要做語音,下一步重點將是努力去與實體世界服務實現整合,比如讓用戶能夠通過語音訂外賣,可以通過語音打開門禁,通過語音來打開車窗……整合方式有兩種方向:一種是手機App與各種服務連接起來;還有一種是語音inside各種硬件之中,例如機器人,汽車等等。總之,整合實體世界服務之后,語音就不會只是回答用戶的問題,而是要幫助用戶完成任務,成為全能助理。
語音市場在AlphaGo掀起人工智能熱潮之后又迎來新的發展契機,語音正在徹底顛覆人與機器的交互方式,百度和搜狗為代表的中國科技巨頭正在輸入、汽車等場景上尋求突破,在智能技術和云端服務上進行雙重布局。不過,要讓麥克風取代鍵盤,科技巨頭還有很長的路要走,可謂任重道遠。



