7 分鐘定制一個語音技能,思必馳投 2 億開發者基金助力 DUI 開放平臺

DeepBrain 李傳豐:當語義技能商店應用達到百萬量級的時候,語音交互時代才會真正成熟 | WARE 2017
語音交互時代操作系統真正走向成熟,還要走五到十年
7 月 15 日,在由硬件創新社區深圳灣全程策劃出品的「WARE 2017 語音智能平臺與應用峰會 第 II 季」上,DeepBrain 聯合創始人兼 CMO 李傳豐發表了「創業公司在語音交互領域的發展機遇在哪里?」為主題的演講,為我們展現了以語義技能為核心的智能生態,應該去關注哪些落地場景及如何搭建應用框架。
DeepBrain 核心團隊是國內最早專注于自然語言處理技術(NLP)領域的團隊之一,曾在 2011 年蘋果發布集成了 Siri 智能語音助手后,推出過國內第一款基于智能手機的中文語音助手——智能 360,并積累了千萬級的用戶。該團隊在 2014 年還做出了國內第一款語音智能音箱——小智超級音箱,比 Echo 的推出還要早半年。
物聯網四大落地場景,語音交互成新流量入口
在演講中,李傳豐表示,DeepBrain 認為智能手機并不是一個強語音交互場景。目前,將手機作為主要應用場景的 Siri、Cortana 等語音助手,并沒有很好地凸顯出產品的智能性,而后進場的 Alexa 在智能音箱這個純語音交互的場景上火了。

2012 年 DeepBrain 團隊認為有必要推出語義開放平臺, 2013 年在智能硬件還不那么熱火時 ,DeepBrain 團隊發布語義開放平臺,同時做了一個語音版的藍牙遙控器。 2014 年 3 月發布了小智音箱,6 月在音頻類眾籌獲得優異的成績。除了音箱,后來還嘗試著開始將自然語義植入智能機器人等硬件嘗試做場景化的智能產品。

李傳豐認為,物聯網語音交互有四大落地場景,分別是智能家居、兒童、黑白電以及車載(包括前裝與后裝)。基于成本考慮,在較長時間內,終端價格100 元以上可能才會率先語音化。

在整個物聯網的發展推動下,語音交互將會成為下一場新流量入口。現有的交互形式,包括鍵盤、鼠標、以及觸摸屏等,在基于視覺的同時還需占用雙手,這并不適用于需要時刻手握方向盤的車載,以及忙著做家務的家居環境
而語音交互能方便的解放雙手,使得用戶在專注于手頭工作的同時,能通過語音方式下達任務。正是基于這樣的市場分析及考慮,DeepBrain 于今年 5 月推出了以語義技能生態為核心的智能云大腦。
為硬件廠商提供五大能力,語義技能生態是核心
李傳豐介紹 ,DeepBrain 能夠為硬件廠商提供五大能力,即語義技能商店 、AI 人機對話引擎、機器人功能組件、精細化大數據及家居互聯網服務。其中語義技能商店這一塊,是語義為中心的生態計劃中最關鍵的一環。

在產品進入市場之前,首先要做的是調研市場需求,做好產品的精準定位。例如:這款產品的使用者是男孩還是女孩,家用還是辦公場景?外觀怎么設計?內容服務怎么搭建?用戶運營還怎么推行?
如果一款產品的設計僅僅是為了賣出去,賺取幾塊錢的微薄利潤,是沒有意義的。那么該如何通過嫁接在硬件之上的智能服務留住用戶,伴隨著技術、硬件的升級形成良性的商業鏈循環,是傳統廠商 AI 轉型升級的共性需求。
語義技能生態便是 AI 服務的基石,通過引入開發者,各行業各領域的開發者開發出更適用于該場景下符合用戶期望的語義技能應用。李傳豐認為目前的語音智能助手并沒有很好的體現出開放性與智能性,例如你問 Siri 有多少種功能?大家不知道,因為它的技能并沒有一個很好的呈現方式。
消費者并不知道語音交互助手有多少功能,也不知道問哪些問題才會有準確的結果,哪些問題是得不到具體反饋的。這也是目前語音助手經常陷入困境的原因:用戶使用期望很高,結果使用起來沒有結果。當有一天我們的問題 90% 以上都有了精確的結果的時候,語音交互智能時代就真正到來了。

李傳豐認為,未來基于語音交互的語義技能,必須要能夠達到幾萬、幾十萬甚至上百萬種的時候,才能促使語音交互時代操作系統真正走向成熟,而這個過程,還要走五到十年。
目前 DeepBrain 的語義技能平臺已經進駐了上千名開發者,開發了超過 1000 種以智能家居為主的語義技能,預計今年年底這個數字會達到 3000 種。而如何應用 NIP 技術,建造一個能幫助開發者縮短開發時間的開放生態平臺,對接傳統廠商,將用戶預期調整到合理的范圍,就是 DeepBrain 目前在做的事。