盤點:語音交互國內外現狀
智能化的產品正在逐漸走入消費者的日常生活,但是關于什么樣的產品才更智能,市場上一直爭論不休。有人說達到一種無感化的控制,讓產品能夠根據用戶的個人喜好而自動調節以達到用戶習慣的狀態才是最好的,聽起來不錯,一件能夠主動智能的產品是能夠帶來很多的便利,但是只是根據用戶的歷史習慣去調控便會陷入另一種機械式的困境,不能隨機應變。

筆者個人覺得,作為一款產品,用戶能夠通過某種手段對其進行控制是 “智能”的基礎。而通過什么樣途徑進行控制呢,雖然不同的應用場景會有不同的操控交互技術,但是對于多數的應用場景來說語音交互便是最方便省事的,可以說語音交互技術將會成為越來越主流的技術。
前不久,英特爾宣布與語音識別技術公司Sensory達成了合作,將在以后Intel最新的芯片中集成整合Sensory公司的TrulyHandsfree語音識別技術。作為芯片行業的龍頭企業,此舉無疑是對未來語音識別技術的極大認可。
語音交互,主要取決于兩點:語音識別,和語義理解
語音識別——通過直接人機語音對話方式即對人類語音的詞匯語法的分解,并將內容轉換為計算機可讀的輸入,例如按鍵、二進制編碼或字符序列。思維是人腦的機能,是對外部現實的反映;語言則是現實思維、鞏固和傳達思維成果即思想的工具。
在日常生活當中,如果只從語音出發,我們根本沒有可能聽懂“XX牌普通話”,但是我們還是聽懂了,更能用另一種牌子的普通話和他交流,這就涉及到語義理解。
有了語義理解的突破,語音識別才能脫離桎梏,更上一層樓。
關于語義理解,目前一門技術正火,神經網絡。這是一種十分炫酷的技術,將機器學習的方式模仿人類大腦的神經元,當處理的語言越來越多時,這種網絡就可以逐漸理解語言。
實驗結果發現,這種技術可使得精確度提升25%以上,這是一個巨大的飛躍,因為這個行業只需要提升5%就具備革命意義。
語音識別國內外現狀如何,有哪些差距
Nuance
提及語音識別,就不能不說Nuance,就像提到PC處理器不能跨過intel, Nuance有著輝煌的歷史,曾經在語音領域一統江湖。
就算現在,瘦死的駱駝比馬大,它仍舊是全球最大的語音技術公司,專利數量和市場份額都遙遙領先。蘋果iPhone手機的虛擬語音助手Siri、三星的語音助手S-Voice、各大航空公司和頂級銀行的自動呼叫中心以及虛擬在線語音助手,都采用了Nuance的技術。
微軟
微軟通過深度神經網絡技術獲語音識別重大突破,錯誤率降低至 18.5%,準確率比傳統技術提升了 33%。這讓流利的語音對語音程序變得更加現實。
該技術無需用戶對識別系統進行 “訓練”,而是通過 “即時、因人而異的自動語音識別” 技術實現。換言之,真正的人聲識別。
微軟表示該技術突破大大提升了語音技術商業化的潛力。
谷歌
和大名鼎鼎的蘋果Siri相比,谷歌的語音搜索服務Google Voice Search顯得不那么有名氣。而實際上,如果你留意應該會發現,谷歌語音搜索技術最近已經有了飛躍式的進步,其識別率更是甩Siri幾條街。
和有美國國防部背景的Siri不同,Google Voice Search一直都備受語音識別算法困擾,而后人工智能大師杰弗里?希爾頓加盟谷歌,同時谷歌還挖走了Nuance的一些職員,這令谷歌的語音識別技術得到提升,并從產品設計之初就自帶了AI屬性。
谷歌前段時間向第三方開發者開放其語音識別API,與Nuance及其它的語音識別公司競爭。谷歌云語音API(Google Cloud Speech API)將覆蓋超過80種語言,兼容任何實時串流或者批處理模式的應用,它將為應用程序提供一整套API,給它們帶來“看、聽與翻譯”方面的功能。谷歌的這一舉措將會對整個行業產生不小的影響——尤其是對Nuance。
種種跡象顯示,谷歌似乎變得更加注重語音技術和眾多的使用案例。例如,該公司在2月宣布將允許Google Docs用戶通過語音來編輯和設計文檔。
蘋果

Google和微軟都摻和了,蘋果當然不會落后。
2013年,蘋果悄悄收購了一家語音識別技術公司Novauris Technologies,價格未知。Novauris公司以語音識別著稱,由其推出的產品和語音識別系統并非簡單的識別單個的詞句,而是理解上下文。Novauris 也曾推出一個名為 Novasystem 的分布式服務器語音識別系統,可同時處理多個并發語音請求,識別完整的句子,并分析音節結構。
另外,在過去幾年,蘋果不僅吸納了Siri的語音技術人才,更是將Nuance公司的多名高級語音研究人員挖角過來,包括了前研發副總裁Larry Gillick,以及來自微軟語音識別項目高管Alex Acero,后者在微軟工作達 20 年之久。
蘋果打算利用神經網絡來提升語音識別率,微軟研究部門主管 Peter Lee 認為,蘋果大約需要花6個月才能趕上Google 和微軟。
亞馬遜
Echo 音箱就是一個黑色的小柱子,相比起其他的智能語音助手比如 Siri,它的特點在于看得見、摸得著。一年多下來,Echo 已經成為了語音控制智能家居的入口。
上市一年多以來,Echo已經學會了朗讀小說、用Uber叫車、叫達美諾的匹薩外賣,甚至是配合蝙蝠俠電影上映帶著用戶玩語音探索游戲。
Alexa從一開始就是一個互聯網服務的入口,Siri還停留在蘋果硬件支持的程度,這么說起來,更像人工智能的反而是那個最初被稱作實體Siri的小黑家伙呢。
再看國內
科大訊飛:中科院典范,站穩教育市場
科大訊飛依靠中科大的語音處理技術以及國家的大力扶持,穩坐“中國的nuance”之位。根據調查,科大訊飛占據了超過60%的市場份額,絕對是語音技術的龍頭企業。一提到科大訊飛,可能大家想到的都是語音識別很牛,但其實它最大的收益來源是教育,特別是在2013年左右,收購了很多家語音評測公司,包括啟明科技等,對教育市場形成了壟斷,經過一系列的收購后,目前所有省份的口語評測用的都是科大訊飛的引擎,由于其占據了考試的制高點,所有的學校及家長都愿意為其買單。這種局面很難打破,所以其霸主的地位也很難撼動。
百度語音:有錢任性,技術實力很強大
百度語音其實很早就被確立為戰略方向,2010年與中科院聲學所合作研發語音識別技術,但是市場發展相對緩慢。百度幾乎成為了很多歸國人員刷簡歷的跳板,因此直到2014年,百度重新梳理了戰略,終于找對了人,請來了人工智能領域的泰斗級大師吳恩達,正式組建了語音團隊,專門研究語音相關技術,由于有百度強大的資金支持,到目前為止收獲頗豐,斬獲了近13%的市場份額,其技術實力已經可以和擁有十多年技術與經驗積累的科大訊飛相提并論。
其他諸如中科信利,尚科語音,捷通華聲等等都是國內做語音交互技術走的比較遠的企業,總得來說,語音識別的門檻并不高,因此國內各大公司也逐漸加入進來。搜狗開始采用的是云知聲的語音識別引擎,但很快就搭建起自己的語音識別引擎,主要應用于搜狗輸入法,效果也還可以。騰訊當然不會落后,微信也建立了自己語音識別引擎,用于將語音轉換為文字,但這個做的還是有點差距,想必大家也都體驗過。阿里,愛奇藝,360,樂視等等也都在搭建自己的語音識別引擎,但這些多的是自研自用,技術乏善可陳。
國內外巨頭布局語音識別的策略差異
上面歷數了國內外各個巨頭陸續建立語音識別引擎的過程和優勢技術,有一點我們還是要特別留意一下:國外巨頭欲進入語音識別行業,首先想到的就是收購初創的團隊,這些團隊大都也在5-20人之間,掌握著一定的優勢技術。顯然收購一家初創團隊很難滿足其戰略發展,因此一旦技術與公司業務融合以后,這些巨頭都會頻繁出手再次收購以補齊短板,逐漸建立起適合自己公司發展的語音識別優勢。
對于技術相對重要而技術點又比較分散的科技型公司,國外巨頭一般不會采取大手筆收購的商業模式,這也是導致Nuance最終無人問津的重要因素。想想也是,巨頭自然不會用別人家的引擎以免將來掣肘,何況收購技術類的大型公司無疑也是給自己找了個麻煩。
國內的語音識別發展脈絡沒有那么清晰,剛開始各個巨頭也都是采用專用公司比如科大訊飛、中科信利、云知聲等公司的引擎。后來醒悟過來,紛紛謀求自建,但是除了百度不斷砸入重金后獲得了一定的效果外,其他自建的各大公司沒有啥實質性進展。這一點從他們試圖低薪聘請語音識別相關人才的策略上,也可知道其戰略上沒什么可發展的。語音識別行業屬于聲學和計算機的交叉技術,本來培養的人才就很稀缺,而從上述分析可以看出,國內外的技術源頭很集中,無非就是業界相關的研究機構和擁有研發實力的巨頭公司。
目前智能語音識別主要有哪些問題亟待解決
1、對自然語言的識別和理解。首先必須將連續的講話分解為詞、音素等單位,其次要建立一個理解語義的規則。
2、語音信息量大。語音模式不僅對不同的說話人不同,對同一說話人也是不同的,例如,一個說話人在隨意說話和認真說話時的語音信息是不同的。一個人的說話方式隨著時間變化。
3、語音的模糊性。說話者在講話時,不同的詞可能聽起來是相似的。這在英語和漢語中常見。
4、環境噪聲和干擾對語音識別有嚴重影響,致使識別率低。
可以說聲音已經融入我們的身體,成為一種本能,它是最優的表達方式,自然語言回答代表未來智能化的產品的終極形式。
基于云計算的自然回答功能結合智能家居系統在功能和應用上更是可以開拓無數。
不得不說,智能語音產業正在形成一種趨勢,這對于正在發展中的物聯網行業來說,又將是一片待開發的新藍海,很值得關注。
對于智能語音類應用來說,蘋果的Siri讓用戶接受了這種方式,這種交互方式還有很長的路要走,而智能語音真正深入到用戶生活,還需要好多個Siri來引爆。



