從搜狗的語音技術發(fā)展史中,我們來看平臺技術是如何落地的

從「語音」到「語言」的工作重心轉變,搜狗如何實現(xiàn) AI 的跨越式發(fā)展丨WARE 2017
「語言」即思想和知識的載體,是 AI 理解人話的關鍵。
智能語音要做到越來越「智能」,則需要大量的訓練數據,國內外不少做智能語音技術的搜索公司就有這點優(yōu)勢。國內的搜狗則是一家比較低調的公司,事實上,搜狗從 2013 年就開始做智能語音技術,先后推出實時轉寫、實時翻譯等功能。目前,搜狗已與車載、家電廠商合作推出搭載其智能語音技術的智能車機、智能電視等產品。
在去年的新硬件生態(tài)大會上,搜狗王小川做客深圳灣,暢談了人工智能為我們帶來的機遇。在今年的「WARE 2017 語音智能平臺與應用峰會」中, 搜狗公司語音交互技術中心總經理和搜狗輸入法研究負責人王硯峰發(fā)表了『從語音到語言』的演講,講述了搜狗在語音技術更新迭代過程中所做的主要工作。
AI 工作重心的轉移:從「語音」到「語言」
王硯峰指出,以往的語音助手之所以不夠「智能」,是因為機器經常沒「聽」懂人話,或者不能「理解」所聽到的內容。事實上,「語音」只是機器收集信息的一個入口,「語言」才是機器理解的所在,也就是說,機器要有知識并懂得如何思考。

在這幾年的時間里,搜狗一直在更新自己的語音技術,因為意識到這一點,逐漸將人工智能(AI)工作的重心從「語音」向「語言」技術進行轉移,解決大部分語音助手「聽」不懂人話、難以實現(xiàn)多倫對話的窘境。其中最核心的是解決「語言」這重要一環(huán)。
在產品演化的過程中,如何解決「語言」這一核心問題?
那么,搜狗是通過哪些路徑解決這些困難的呢?王硯峰提出了以下幾點:
第一,優(yōu)化語音識別的準確率,用深度學習和數據驅動語音識別的進步。 隨著搜狗輸入法所收集數據量的不斷提升,技術也隨之更新并且使得深度學習技術不斷得到加強,語音識別的精確度因此也得到大幅度提高。另外,讓語音技術在更多硬件設備中落地,進一步解決噪音、口音、遠場等問題。目前,搜狗輸入法每日的語音接收量達到 2.4 億次,等同于 20 萬個小時的訓練語料。

第二,即進入設計+工程化的階段。例如要實現(xiàn)人與機器溝通過程中能夠「隨意打斷」的目標,就需要利用工程化的方法,通過「喚醒」的方法讓機器理解人機對話過程中的關鍵指令。
第三,場景化、功能化、知識化。傳統(tǒng)的語音助手是一個開放和通用的應用,并不能有一個穩(wěn)定的預期。而將自然語言理解放在一個垂直的場景和功能上,并通過知識的整理,能夠為用戶提供更好的人機交互體驗。如場景化后的車載語音助手以及智能電視語音助手。

如何讓語音識別技術做到真正的「智能」?
接下來,則是要「死磕」語言,讓語音識別技術實現(xiàn)真正的「智能」。王硯峰總結出了搜狗以下的幾個關鍵做法:
一、追求掌握更先進的自然語言理解和深度學習技術,這是推動技術發(fā)展的根本。例如搜狗所推出的實時翻譯技術,就采用了目前業(yè)界里最先進的架構,相比 Google 深度學習層數達到的 8 層,搜狗目前的層數雖然少一些, 但已與國內領先的百度達到持平的狀態(tài)。

二、在高頻應用場景中通過產品創(chuàng)新帶來用戶數據迭代,提升對話能力。在機器學習中,數據量是最重要的一環(huán)。AI 不能只談技術,而是應該與產品結合起來,或者讓好的產品驅動語音技術的發(fā)展。越多用戶使用的產品,產品背后的技術能夠反向推動語音技術的提升。
三、讓搜索進一步走向問答。數據的不斷挖掘是自然語言進步的重要基礎,搜狗則利用搜索公司本身所擁有的這方面優(yōu)勢,讓大量數據推動技術的進步。如讓機器基于搜索,并通過自然語言理解的方式對數據庫進行解釋,提供知識問答服務。
總的來說,搜狗發(fā)展語音技術的關鍵可歸結為以下幾點:
- 智能語音 = 語音入口 + 自然交互 + 知識計算
- 智能語音產品的發(fā)展路徑,就是不斷通過各種條件降低自然語言理解難度的一個過程。
- 語言是大腦的核心,是智能語音追求的終極目標。
- 我們不僅要追求先進技術,還要同時在產品創(chuàng)新上給技術的進化創(chuàng)造出更多條件。
- 讓輸入法走向對話,讓搜索走向問答。
問答
Q:AI 的問答機制是否都需要人參與梳理原始邏輯?
A:一般是不需要的。
Q:搜狗的語音技術能否支持離線模式?
A:是。
Q:搜狗有沒有像其他巨頭那樣提供 AI 公共平臺的戰(zhàn)略規(guī)劃?
A:會的,搜狗應該會在今年下半年提供開放平臺。
Q:搜狗展示的語音識別翻譯的翻譯引擎是自家開發(fā)的嗎?搜狗有在翻譯數據基礎上做自己的優(yōu)化嗎?
A:搜狗的語音翻譯就是用的搜狗自己開發(fā)的,神經網絡機器翻譯,數據源也是網上抓的。搜狗有深度語言學習的基礎,很快就能構建語音識別和機器翻譯的技術。
Q:語音技術有哪些最新的研究進展?
A:在人聲分離、語音合成、陣列前端這幾個領域,大家都在嘗試深度學習的方法。更前沿的技術,在沒有深度學習的領域嘗試工程化的方法去理解,在傳統(tǒng)的領域通過深度學習來解決,并且讓整個過程都深度學習化,端到端的語音識別雖然不成熟,但是都是大家努力的方向。
Q:目前國內語音市場前景如何?
A:前景還是不錯的。這也是為什么創(chuàng)業(yè)公司和大公司,包括像小米這樣的智能硬件公司,都在智能語音領域布局,這是大的趨勢。但總體還是在非理性的狀態(tài)下,創(chuàng)業(yè)公司的估值偏高,以后會慢慢的沉淀下來,小的創(chuàng)業(yè)公司會掛掉或被收購。在語音、自然語音處理、AI 等行業(yè)前沿的核心技術,最終都是大公司的賽道。
Q:為什么國內智能音箱市場沒有國外那么火?
A:從文化的角度,從體驗的角度,從銷售的渠道,國內的智能音箱,與 Echo 都是有差距的。
Q:搜狗和國內其他語音廠商的方案相比有哪些優(yōu)勢?如何評價其他廠商的方案?
A:國內的語音廠商,長遠來看,比較看好搜狗和百度。這兩家公司在搜索和語音等方面還是比較完整的,有搜索地圖,有垂直搜索,從語音的入口到最終的服務,是一個閉環(huán),目前只有搜狗和百度能做到。其他公司,科大訊飛、思必馳、云知聲,可能相對只有中間環(huán)節(jié)的語音技術,而沒有背后服務能力的支撐。
但是在目前的商業(yè)模式和市場環(huán)境下,靠提供技術解決方案的方式實現(xiàn)商業(yè)價值,在國內并沒有那么好的市場前景。對于提供這些技術解決方案的公司,需要下沉到某一個垂直產業(yè),做更上游的事情,才能更好的實現(xiàn)商業(yè)價值。比如科大訊飛,在教育領域,提供更完整的全套的教育解決方案,而不僅僅是教育中所需要的語音技術。
Q:國內做語義理解有哪些比較好的應用場景?
A:目前國內,語義理解的場景和語音理解的場景,本質沒有什么區(qū)別,主要是在更垂直的行業(yè)、產品、應用中,比如車載、電視、音箱。如果能在輸入法和搜索方面,能夠把這樣的語音和語義能力融合的更好的話,也是一個不錯的應用場景,比如搜索方面的用戶查詢,都是自然語音,而用戶在輸入法中的聊天,本來就是自然語言,可以依據這些產生很多產品創(chuàng)新的。
語義理解最大的應用場景,是客服。在任何大產品上都有需求,比如支付寶、京東、順豐,任何呼叫中心的客服,都是語義理解、自然語言理解特別好的應用場景。
后記:
在搜狗內部團隊歷年的黑客馬拉松上,我們可以看到搜狗基于人工智能核心技術,所做的創(chuàng)新探索。在「WARE 2017」會前的采訪中(查看全文),我們了解到了搜狗這家公司的語音技術發(fā)展歷史,以及搜狗是如何基于自己的搜索核心技術進行商業(yè)化落地。從語音的入口到最終的服務,國內的兩家公司,搜狗和百度,在技術上都在各自建立著自己的壁壘。我們期待搜狗未來更好的表現(xiàn)。