全系標(biāo)配滿級防水,OPPO A5 系列新品正式發(fā)布
從傳統(tǒng)麥克風(fēng)到智能麥克風(fēng),語音技術(shù)在硬件上的進(jìn)化與轉(zhuǎn)變 | WARE 2017
語音技術(shù)看似簡單,實則是一個龐大和復(fù)雜的工程。
在人機(jī)交互領(lǐng)域,語音是最自然的交互方式,完整的語音系統(tǒng)涉及到人聲喚醒、語音識別、語義分析、邏輯判斷、信息回饋、語音合成,以及機(jī)器的麥克風(fēng)陣列、音頻編解碼、應(yīng)用處理器等,從軟件到硬件的方方面面。
對于用戶來說,通過額外的操作喚醒語音設(shè)備的方式顯得多此一舉,未來的語音設(shè)備必定是全天候 24 小時在線,隨時隨地聆聽,等待用戶的喚醒。
在深圳灣舉辦的「WARE 2017 語音智能平臺與應(yīng)用峰會」中,瑞聲科技高級研發(fā)工程師張金宇從語音交互的硬件基礎(chǔ)上進(jìn)行分享和交流,和在場的觀眾共同探討語音技術(shù)未來的發(fā)展趨勢。
以下來自張金宇在「WARE 2017 語音智能平臺與應(yīng)用峰會」的演講整理。

語音技術(shù)應(yīng)該「隨時隨地」,并且「自然而然」
人機(jī)交互分三類,首先是視覺交互,它的特點是豐富、沉浸,比如在一些游戲和娛樂領(lǐng)域的應(yīng)用,因為它能夠提供足夠豐富的信息量,給用戶展現(xiàn)具有沖擊力的畫面,3D 眼鏡和體感操控的浪潮更是把沉浸式的視覺體驗推到了一個極致。第二是觸覺的交互,包括鍵盤、觸屏,這種交互方式應(yīng)用于對操作精準(zhǔn)度要求更高的場合,比如日常辦公、設(shè)計領(lǐng)域。第三是語音,語音交互一個很重要的市場是家居和生活領(lǐng)域,其特點是自然開放,隨時隨地工作,給我們輕松便利的反饋和信息支持。
語音是一個很開放的東西,在機(jī)器對話中,我們希望機(jī)器人不僅僅是菜單式的選擇,而是能夠結(jié)合上下文進(jìn)行理解,然后做出有效的回應(yīng),這也是語音技術(shù)的一個難點。在生活中,語音可以解放我們的雙眼和雙手,把「智能」放到幕后,不再讓「智能」成為生活的負(fù)擔(dān),而是隱藏在背后的,稱職的助手。
對于家里的老人和小孩來說,他們不容易掌握最酷炫的技術(shù),也常常不喜歡去操作功能復(fù)雜的智能家電。我們能不能為他們做些什么呢?語音技術(shù)是一個天然的、低學(xué)習(xí)成本的交互方式,隨著語音交互技術(shù)的成熟,我們讓這些人群更好地享受智能設(shè)備帶來的便捷。
所以,一個語音助手,它應(yīng)該做到的是自然而然,隨時隨地。隨著技術(shù)臻于成熟和精致,讓它學(xué)著理解我們既有的語言習(xí)慣,不需要我們懂它。這樣,「智能」才能真正的深入到人們的生活,而不是讓人「眼前一亮」的技術(shù)。

功耗更低、體積更小、成本更少的智能麥克風(fēng)
為了適應(yīng)智能交互的要求,我們希望語音系統(tǒng)可以 24 小時全天候工作,你可以隨時給它一個信息,讓它喚醒一個設(shè)備,然后讓它去識別,這樣才適合我們生活的狀態(tài),但是這樣做功耗太大。
為了解決這些問題,我們嘗試著先于市場邁出一小步,開發(fā)了一款智能麥克風(fēng)。這款智能麥克風(fēng)把語音喚醒功能集成在一塊芯片上,允許麥克風(fēng)外的整機(jī)處于休眠狀態(tài),從而節(jié)省電量的消耗。當(dāng)用戶開啟語音助手的時候,麥克風(fēng)會發(fā)出一個信號,喚醒需要開啟的模塊。這款智能麥克風(fēng)最低可以做到低于 100 微瓦安的靜態(tài)功率,可以完成毫秒級的觸發(fā)動作,真正地讓用戶擺脫了對功耗的顧慮。

除了功耗之外,我們還希望它的體積足夠小,成本足夠低,并可以適用于不同類型,不同應(yīng)用場景的設(shè)備。
我們開發(fā)了 Analog AVD 技術(shù),用以區(qū)分人聲與環(huán)境噪聲,避免在嘈雜的環(huán)境下長時間的處于喚醒狀態(tài)。我們引入了小體積、低主頻、低功耗的關(guān)鍵字識別單元,為更多的智能設(shè)備提供低門檻的語音控制方案。我們加入了壓電麥克風(fēng)的 wake on sound 功能,實現(xiàn)了接近零功耗的靜態(tài)模式。借助立體封裝技術(shù),我們把這些功能封裝于數(shù)個毫米的極致空間之內(nèi)。
語音產(chǎn)品要結(jié)合不同的應(yīng)用場景和需求
防水與防塵已經(jīng)逐漸成為主流手機(jī)的標(biāo)準(zhǔn)配置。現(xiàn)有的雙層結(jié)構(gòu)的電容式 MEMS 麥克風(fēng),當(dāng)水或者顆粒物進(jìn)入振膜和背極之間的間隙,會引起致命的失效。目前主流的手機(jī),比如 iPhone7 或者三星 S7,均通過一層防水膜屏蔽異物的侵入,但僅僅用于防范正常使用中的意外進(jìn)水,并不能讓用戶自由地在有水或者沙塵環(huán)境下使用,也并不提供進(jìn)水的保修。瑞聲開發(fā)的 MEMS 壓電麥克風(fēng)則是一個單層膜結(jié)構(gòu),即使有少量的水或顆粒物進(jìn)入,對性能也幾乎不產(chǎn)生影響。這實現(xiàn)了由避免侵入到不懼侵入的跨越。
隨著語音交互技術(shù)的不斷進(jìn)步和提升,音頻硬件和算法、應(yīng)用端各自為戰(zhàn)的情形顯然是難以應(yīng)對市場的需要的。在這里,一方面,我希望能給大家?guī)硪恍┞晫W(xué)器件方面的視角,更重要的,也希望我們能在彼此交流中,碰撞出一些新的火花。
現(xiàn)場觀眾提問
提問:我想問一下,把 AVD 放在 ADC 之前,目前這個 AVD 是做到什么樣的水平?它能夠識別關(guān)鍵詞,還是只能識別噪音? 它的記憶原理是什么?
張金宇:它能識別一個穩(wěn)定的噪聲和一個突發(fā)的聲音。另外,它識別人聲和其他的噪聲的成功率很高,比如按喇叭的聲音,和人突然對它說話的聲音。但是關(guān)鍵字的話 AVD 是做不到的。
它的記憶不僅僅是頻譜,這是一個比較長的技術(shù)發(fā)展過程。最初它是在數(shù)字端來實現(xiàn)的,一個比較復(fù)雜的算法,不斷收集中文的,英文的,它一些發(fā)音的特點積累下來形成一個算法,一個經(jīng)驗庫,然后逐漸把它簡化,可以在一個很低的功耗下來實現(xiàn)。
提問:我們用怎樣客觀的方式去測試麥克風(fēng)陣列處理之后的結(jié)果?
張金宇:這應(yīng)該是取決于你具體適用的目的,取決于具體的功能。
提問:瑞聲的麥克風(fēng)的有開關(guān)功能,這個開關(guān)的限定是設(shè)定在什么位置比較合適?
張金宇:現(xiàn)在有兩種模式,一種是自身用的模式,它靠它的芯片來判斷,比如在地鐵里它會自動調(diào)高,在會場上會降低,在家里會降得更低。另外,它也可以是通過上位機(jī),比如手機(jī)的 AP(應(yīng)用處理器),或者是智能家居的 MCU 來控制。
后記:
在峰會后的講師晚餐中,我們和金宇聊到了智能麥克風(fēng)的應(yīng)用場景,智能手機(jī)、智能家居、以及現(xiàn)在銷量已經(jīng)超過 Apple Watch 的 AirPod 智能耳機(jī)。我們能看到語音智能聊天手機(jī)未來可觀的終端增長數(shù)量,也看到了脫離手機(jī)的語音喚醒的智能耳機(jī),對于麥克風(fēng)等硬件的挑戰(zhàn)。比如關(guān)鍵字識別需要的模塊略大,如果僅僅是 VAD 功能的,大約在 3.x mm * 2.x mm,如果需要關(guān)鍵字觸發(fā),就需要 4.x * 3mm。另外用不同 IC 工藝節(jié)點可以縮減尺寸,但是成本提高及比較多了。
我們期待上游廠商在硬件技術(shù)研發(fā)上的突破,為下游應(yīng)用廠商帶來的豐富場景應(yīng)用機(jī)會。