RFID世界網 > 新聞中心 > 物聯網新聞 > 正文

人工智能時代語音大熱，中國巨頭如何爭奪麥克風？

作者：SuperSofter

來源：搜狐科技

日期：2016-07-27 09:34:29

摘要：語音并不是一個新鮮事物，2011年，Siri被內置在iPhone 4s之中橫空出世時，曾掀起一波語音技術和討論熱潮和語音助手的創業熱潮。時隔五年之后，Google AlphaGo人機大戰將AI(人工智能)從實驗室技術變成坊間熱議的話題，人工智能成為國內外科技巨頭的爭奪焦點，語音則成為巨頭進軍AI的必經之路。

關鍵詞：人工智能物聯網

　　語音并不是一個新鮮事物，2011年，Siri被內置在iPhone 4s之中橫空出世時，曾掀起一波語音技術和討論熱潮和語音助手的創業熱潮。時隔五年之后，Google AlphaGo人機大戰將AI(人工智能)從實驗室技術變成坊間熱議的話題，人工智能成為國內外科技巨頭的爭奪焦點，語音則成為巨頭進軍AI的必經之路。

　　Google I/O大會上，最重要的項目便是Google Assistant(谷歌助理)和Google Home(類似于Amazon Echo的智能家庭音箱助手)，Google Home的基礎則是語音。

　　蘋果WWDC開發者大會上，5歲的Siri終于兼容了Mac，并向開發者開放，能完成更多任務。

　　Amazon Echo成為Amazon 最成功的硬件產品，這款產品銷量已達到400萬，家庭智能語音音箱，被視作是智能手機之后的又一個爆款品類。

　　KPCB合伙人、享有“互聯網女皇”稱號的瑪麗·米克爾在今年的互聯網趨勢報告中，將超過十分之一的篇幅給了“語音”二字，在其看來，“觸摸屏+麥克風”正在取代“鍵盤+鼠標”的交互方式。

　　如此重要的技術革命，中國巨頭自然不會缺席。截止目前，中國市場還沒有與Amazon Echo媲美的中國版智能語音音箱，但在軟件層面互聯網公司卻一直在想方設法入局。Siri發布的第二年，搜狗便發布了語音助手，搜狗也是中國最積極投資語音的互聯網巨頭之一，阿里、騰訊、網易、京東等巨頭在語音上雖然偶爾有零星動作，但并未將之視作重點，要么是第三方合作，要么是蜻蜓點水。搜狗是搜索引擎，均崇尚技術，這是其押注語音的原因所在。

　　輸入成中國玩家進軍語音的亮點

　　輸入是語音最典型的應用場景，戶外、家里、走路、開車，人們有許多時候都不便于打字，或者說懶得打字，抑或打字效率不夠高，語音就成為一種選擇。隨著語音技術的發展，識別準確率、方言兼容度、噪音抗干擾諸多難題都已得到解決，語音識別率已達到實用水平。

　　在語音輸入法上，搜狗輸入法、訊飛輸入法和百度輸入法是最主要的三個玩家。科大訊飛憑借著語音技術切入輸入法領域，宣稱用戶數已過億;百度輸入法也將語音當做亮點，其宣稱借助于DeepSpeech技術解決了噪音問題。語音輸入量工具最大的則是搜狗輸入法，其7%的用戶會用到語音識別功能，這一功能每天會有超過1億次的語音轉化量，在整體1.4億的請求次數中占據相當比例，這也側面表明，搜狗語音應用最關鍵還是輸入。

　　搜狗輸入法做語音則有5年歷史，與訊飛語音輸入法強調識別率不同，搜狗輸入法更強調智能輸入。識別率再高，語音輸入依然會有錯字現象，手工更改成痛點——用語音輸入就是因為不想動手。搜狗輸入法的解決方案是智能交互，比如用戶說“航天一院”很可能被識別為“航天醫院”，用戶就可再說“一二三四的一”，搜狗輸入法就會將“醫”改為“一”。這樣的交互能實現，關鍵不在于識別率，而是語義理解，如果沒有語義理解技術，就會直接將“一二三四的一”轉化為文字。好的語義理解，需要應用深度學習為基礎的人工智能技術，這是互聯網公司尤其是搜索公司擅長的地方。

　　語音輸入法成為中國互聯網巨頭做語音的一大亮點，美國用戶并不需要“輸入法”，系統自帶功能就可滿足，因此美國并沒有類似于搜狗這樣的輸入法巨頭。當然，英文會需要語音輸入，不過這并沒有成為Siri的重點，未來或許會出現英文版的語音輸入法。

　　汽車成中國巨頭最親睞的場景

　　在語音使用場景方面，美國科技巨頭更親睞“家”，Amazon Echo、Google Home均是面向家庭這一場景。家是封閉空間，相對更安靜，并且干擾他人和被他人干擾的問題更小，還能與智能家居打通，是非常適合的語音場景。不過，由于做硬件需要較強的“硬實力”，與智能家居打通則需要大量的產業整合，不是一時半會能實現的，因此中國互聯網巨頭均對這個場景望而卻步，阿里、京東有嘗試與第三方合作推出與Echo類似的產品，市場表現卻很平淡。

　　與“家”同等重要的語音場景非汽車莫屬：車主在駕駛時雙眼和雙手都被占用，語音成為最佳輸入方式。過去汽車內的語音輸入存在許多痛點，自帶語音功能只支持少數英文命令，并且還要給更多錢買“豪華版”才會配置。汽車內的語音交互充滿著互聯網巨頭最向往的顛覆機會。

　　搜狗針對汽車發布了智能語音導航App，可實現駕駛之外的常規車內交互，包括打電話、發短信、查天氣、歌曲播放等等，這款產品可運行在智能手機上，還可通過車機互聯協議使之運行于汽車屏幕，如果汽車廠商與搜狗進行前裝合作則可獨立運行于汽車的OS上。不久前，YunOS與上汽合作的國內首款互聯網汽車，語音交互被當做一個賣點：阿里巴巴CEO張勇展示了用語音打開天窗這樣的操作。在未來，汽車內的語音交互將成為標配。

　　智能技術確保語音能夠聽得懂

　　Siri才五年歷史，但語音卻有十分悠久的歷史：科大訊飛在1999年就已成立，現在是A股市場上市值400億元的語音巨頭。不過，語音走向大眾，徹底改變人機交互方式，卻是近幾年才發生的事情。從國內外科技巨頭的動作來看，智能技術和云端服務已成為語音的兩大支柱。

　　語音技術過去是基于“規則”而不是“統計”，基于一定規則，對海量的語料庫進行處理之后就能不斷提高識別準確率。深度學習為基礎的人工智能技術加入之后，語音技術就變成通過機器集群去學習海量語料數據，并尋找到各種規律，進而進行準確的語音識別和語義理解。

　　不論是語音輸入的智能糾錯，還是語音搜索對用戶請求的準確理解，抑或Siri響應用戶諸如“幫我設置一個提醒，明天9：00取快遞”這樣的復雜命令，底層均是人工智能技術，AlphaGo掀起的AI啟蒙運動則將會成為語音普及的助力。

　　搜狗與清華大學聯合成立“天工智能實驗室”，正在人工智能技術這個“根”上布局，以求贏在起跑線上。借助于人工智能技術，搜狗宣稱語音識別準確率高于97%，識別速度高達每分鐘400字以上，在語音修改方面，支持替換、插入、刪除等幾百種改錯操作，修改成功率達到90%以上，處于行業領先水平。

　　云端服務則決定語音能夠做什么

　　智能技術確保了人與機器能夠順暢地對話和交互。云端服務整合能力，則決定機器在聽懂人話之后能做什么。

　　Siri相比Google Now的劣勢是，許多Siri無法回答的問題，Google Now可通過搜索解決。Amazon Echo之所以有很大價值，在于其能夠去Amazon網站下單購物。這些均體現了云端的服務整合能力，正是意識到這一點的重要性，今年的WWDC上蘋果決定開放Siri給開發者，讓開發者來豐富Siri的服務。

　　云端服務上，搜狗擁有搜狗地圖、搜狗搜索、搜狗號碼通、搜狗問問、搜狗百科等產品，未來搜狗語音還可整合其伙伴如京東、知乎、騰訊的諸多服務，比如QQ音樂、騰訊視頻、京東購物等等，甚至用語音給微信好友點個贊。相對來說，互聯網巨頭云端服務整合能力更強，搜索引擎憑借著強大的內容整合和服務連接能力表現又更突出。

　　僅僅是整合“在線服務”并不足夠，互聯網巨頭要做語音，下一步重點將是努力去與實體世界服務實現整合，比如讓用戶能夠通過語音訂外賣，可以通過語音打開門禁，通過語音來打開車窗……整合方式有兩種方向：一種是手機App與各種服務連接起來;還有一種是語音inside各種硬件之中，例如機器人，汽車等等。總之，整合實體世界服務之后，語音就不會只是回答用戶的問題，而是要幫助用戶完成任務，成為全能助理。

　　語音市場在AlphaGo掀起人工智能熱潮之后又迎來新的發展契機，語音正在徹底顛覆人與機器的交互方式，百度和搜狗為代表的中國科技巨頭正在輸入、汽車等場景上尋求突破，在智能技術和云端服務上進行雙重布局。不過，要讓麥克風取代鍵盤，科技巨頭還有很長的路要走，可謂任重道遠。

好吊视频一区二区三区-国产精品V欧美精品V日韩精品-老司机亚洲精品影院-国产精品视频免费播放

人工智能時代語音大熱，中國巨頭如何爭奪麥克風？