用藍牙造「智能」音箱,日本電信巨頭 DOCOMO 這款產品給了一個新思路

Synaptics Saleel:現有人機交互界面技術的創新應用,將為用戶帶來語音 AI 的沉浸式體驗 | WARE 2018
借助下一代環境感知語音 AI,智能設備將得到革命性發展,它可智能識別用戶、位置以及對話場景。
關于語音智能硬件,大部分人都或多或少了解一些名聲響亮的產品商和技術提供商。殊不知,為了實現技術落地、并與產品服務實現無縫的結合,背后還有不少默默為之操心的技術開發提供商。而 Synaptics 就是這樣一家「產品背后的公司」,致力為智能設備提供創新性和直觀式用戶體驗,擁有包括語音、生物識別、觸控、顯示、處理和成像的技術。
在此次峰會,Synaptics 全球副總裁兼語音和圖像部門總經理 Saleel Awsare 就「下一代環境感知語音 AI」進行了主題分享。

隨著語音、視覺等 AI 技術的發展,智能設備也將得到變革,從過去人們需要主動學習怎么使用設備,到現在人們在眾多設備(手機、平板等)之間自如控制。Saleel 認為,在未來,智能設備將在環境感知 AI 的驅動下適應用戶,在這過程中,語音交互將從事務性處理向環境感知處理轉變,它會自動識別用戶以及用戶環境,并根據對話內容提供相應的場景服務。
另外 Saleel 還進一步表示,僅僅需要創新性的想法和應用,利用 Synaptics 現有的語音、圖像、生物識別、擴展顯示等人機交互技術,我們將能創造出一個真正的沉浸式智能人機交互體驗。
————————嘉賓演講實錄————————

演講嘉賓:Saleel Awsare / Synaptics 全球副總裁兼語音和圖像部門總經理
演講主題:語音、圖像、生物識別,人機交互領域的技術趨勢和最新應用
作為一家致力于人機交互界面廠商,Synaptics 致力于交互技術的革新和應用
Synaptics 是一家致力于人機交互界面廠商,致力為智能設備提供創新性和直觀式用戶體驗,擁有包括語音、生物識別、觸控、顯示、處理和成像的技術,已經在 PC、移動端手機、車載、IoT 等領域有豐厚的技術積累。
早在 2007 年,我們組建了語音技術團隊,專注于 Audiosmart;2012 年,全球首款支持語音功能的電視機發布,搭載了 Synaptics AudioSmart 技術;2015 年,Synaptics 為主要 PC OEM 廠商提供語音技術合作體驗;
到了 2017 年,Synaptics 已與亞馬遜、微軟、百度、騰訊、SK Telecom、Korea Telecom、Naver、Kakao、NTT Docomo 等知名廠商合作發布 AudioSmart 開發套件。
在過去一年,Synaptics 一共支持了 70 多個遠場語音產品的實現。囊括的產品包含智能音箱、機器人、智能冰箱、智能燈、智能車載配件等等。
作為一家人機交互界面技術開發提供商,Synaptics 致力于 Voice Product 多年,已經見證了語音人機交互技術在不同時代、在各類產品中的應用。
借助下一代環境感知語音 AI,智能設備將得到革命性發展
從 PC 到移動互聯網,再到如今的物聯網時代,我們明顯感覺到人機界面技術正在發生變化。從穿孔卡、鍵盤、鼠標、觸控,大家即將迎來語音交互的時代。
我們也了解到,在過去 4-5 年間,Siri 等語音助手主要被應用在手機移動端。而在這兩年里,語音交互技術得到快速發展,并且正在滲透到我們生活的方方面面,達到「無處不在」的地步。
隨著語音、視覺等 AI 技術的發展,人機交互方式正在發生改變,而重要的是,我們使用的智能設備也在發生變革。從過去人們需要主動學習怎么使用設備,到現在人們在眾多設備(手機、平板等)之間自如控制。
我們認為,能夠自動感知、適應用戶的 AI 設備是下一代設備的趨勢,人們不需要學習或接觸設備,而是設備反過來主動感知環境和用戶。其中,擁有自主學習能力的「環境感知語音 AI」在起到關鍵作用。
在這過程中,語音交互將從事務性處理向環境感知處理轉變,它會自動識別用戶以及用戶環境,并根據對話內容提供相應的場景服務。
環境感知語音 AI 在家庭、辦公、車載、動態(On The GO)等場景下的應用
在環境感知計算的作用下,環境感知語音 AI 能實現從各個感觀上「洞察」用戶狀態和需求,包括:
- 可以探測到用戶的注視,實現無縫交互。`
- 解讀用戶情緒,作出積極回應。
- 從人群中識別特定用戶的聲音和指令。
- 預估用戶的距離、語氣和情境。

另外,目前語音指令大多在云端處理,未來,在智能云端的幫助下,語音指令將實現在本地處理,以保障用戶隱私安全、提升語音 AI 的響應速度以及產品體驗。這也是語音 AI 交互模式的一大趨勢。
「無處不在」的語音 AI 被廣泛應用到家庭、工作、車載、On The Go 等場景,而相應的環境感知語音 AI 也必須具備識別用戶(包括多個不同用戶)、位置、對話情景的能力。
例如,在家庭場景下,用戶說「外面太冷了,我會留下看場電影」。試想一下,AI 會根據對話語境理解用戶需求并提供這樣的服務:溫控器會自動調高室內溫度,電視機會根據用戶喜好搜尋好一堆影片,烤箱會主動你是否需要準備一些爆米花……
同樣的,在工作(辦公)場景下:

在車載場景下:

在動態(On-The-Go)場景下:

在 Synaptics 現有的語音、圖像、生物識別等人機交互技術基礎上,打造出真正的沉浸式語音界面
針對下一代環境感知語音 AI,基于 Synaptics 現有的人機交互界面技術,我相信,創新的想法將使得這些技術得到巧妙的應用,并打造出一個真正的沉浸式語音界面,它擁有更智能的邊緣計算能力。
對此,Synaptics 具備多年以來積累的觸控、圖像、視頻、生物識別、語音/音頻、顯示等人機交互界面技術,擁有著強大的基礎優勢。作為人機交互領域的探索者,Synaptics 將不斷挖掘技術趨勢和最新應用。
Q&A
Q1: 如何讓設備識別你的指令是對它還是針對朋友講話?
Saleel Awsare:我們的技術對環境的噪音做了很多過濾和篩選、區別,可以幫助機器識別到你的語音。在未來,我們會用一些 AI 技術,更好的判斷你是在對朋友講話還是對設備講話。我們這個技術現在叫 DSS。
Q2:設備怎么識別聲音來自機器還是人?如果我把另外一個音箱放到音箱旁邊的時候,另外一個音箱會觸發這個音箱,怎么辦?
Saleel Awsare:我們做的分離技術就旨在區分這兩者,人和機器識別的頻率和聲道都不一樣,這是其中的原理。目前,我們跟亞馬遜正在合作一個項目,就是確保設備在廣告播放的時候不被誤喚醒。在未來,我們會利用 AI 技術將聲音做出更好的區分。
Q:許多語音交互服務是在云端運行,后續會把大部分應用都放到本地,這樣一來,不需要云端也不需要 WiFi 和網絡,這是通過什么樣的技術來實現的呢?
Saleel Awsare:目前大部分語音交互都還是在云端進行,下一步,通過機器學習,終端本地化的能力會得到提升,未來將實現一部分的本地處理。
整理、編輯:Jes / 深圳灣