2017-04-18

從傳統(tǒng)麥克風(fēng)到智能麥克風(fēng)，語音技術(shù)在硬件上的進(jìn)化與轉(zhuǎn)變 | WARE 2017

語音技術(shù)看似簡單，實則是一個龐大和復(fù)雜的工程。

在人機(jī)交互領(lǐng)域，語音是最自然的交互方式，完整的語音系統(tǒng)涉及到人聲喚醒、語音識別、語義分析、邏輯判斷、信息回饋、語音合成，以及機(jī)器的麥克風(fēng)陣列、音頻編解碼、應(yīng)用處理器等，從軟件到硬件的方方面面。

對于用戶來說，通過額外的操作喚醒語音設(shè)備的方式顯得多此一舉，未來的語音設(shè)備必定是全天候 24 小時在線，隨時隨地聆聽，等待用戶的喚醒。

在深圳灣舉辦的「WARE 2017 語音智能平臺與應(yīng)用峰會」中，瑞聲科技高級研發(fā)工程師張金宇從語音交互的硬件基礎(chǔ)上進(jìn)行分享和交流，和在場的觀眾共同探討語音技術(shù)未來的發(fā)展趨勢。

以下來自張金宇在「WARE 2017 語音智能平臺與應(yīng)用峰會」的演講整理。

語音技術(shù)應(yīng)該「隨時隨地」，并且「自然而然」

人機(jī)交互分三類，首先是視覺交互，它的特點是豐富、沉浸，比如在一些游戲和娛樂領(lǐng)域的應(yīng)用，因為它能夠提供足夠豐富的信息量，給用戶展現(xiàn)具有沖擊力的畫面，3D 眼鏡和體感操控的浪潮更是把沉浸式的視覺體驗推到了一個極致。第二是觸覺的交互，包括鍵盤、觸屏，這種交互方式應(yīng)用于對操作精準(zhǔn)度要求更高的場合，比如日常辦公、設(shè)計領(lǐng)域。第三是語音，語音交互一個很重要的市場是家居和生活領(lǐng)域，其特點是自然開放，隨時隨地工作，給我們輕松便利的反饋和信息支持。

語音是一個很開放的東西，在機(jī)器對話中，我們希望機(jī)器人不僅僅是菜單式的選擇，而是能夠結(jié)合上下文進(jìn)行理解，然后做出有效的回應(yīng)，這也是語音技術(shù)的一個難點。在生活中，語音可以解放我們的雙眼和雙手，把「智能」放到幕后，不再讓「智能」成為生活的負(fù)擔(dān)，而是隱藏在背后的，稱職的助手。

對于家里的老人和小孩來說，他們不容易掌握最酷炫的技術(shù)，也常常不喜歡去操作功能復(fù)雜的智能家電。我們能不能為他們做些什么呢？語音技術(shù)是一個天然的、低學(xué)習(xí)成本的交互方式，隨著語音交互技術(shù)的成熟，我們讓這些人群更好地享受智能設(shè)備帶來的便捷。

所以，一個語音助手，它應(yīng)該做到的是自然而然，隨時隨地。隨著技術(shù)臻于成熟和精致，讓它學(xué)著理解我們既有的語言習(xí)慣，不需要我們懂它。這樣，「智能」才能真正的深入到人們的生活，而不是讓人「眼前一亮」的技術(shù)。

功耗更低、體積更小、成本更少的智能麥克風(fēng)

為了適應(yīng)智能交互的要求，我們希望語音系統(tǒng)可以 24 小時全天候工作，你可以隨時給它一個信息，讓它喚醒一個設(shè)備，然后讓它去識別，這樣才適合我們生活的狀態(tài)，但是這樣做功耗太大。

為了解決這些問題，我們嘗試著先于市場邁出一小步，開發(fā)了一款智能麥克風(fēng)。這款智能麥克風(fēng)把語音喚醒功能集成在一塊芯片上，允許麥克風(fēng)外的整機(jī)處于休眠狀態(tài)，從而節(jié)省電量的消耗。當(dāng)用戶開啟語音助手的時候，麥克風(fēng)會發(fā)出一個信號，喚醒需要開啟的模塊。這款智能麥克風(fēng)最低可以做到低于 100 微瓦安的靜態(tài)功率，可以完成毫秒級的觸發(fā)動作，真正地讓用戶擺脫了對功耗的顧慮。

除了功耗之外，我們還希望它的體積足夠小，成本足夠低，并可以適用于不同類型，不同應(yīng)用場景的設(shè)備。

我們開發(fā)了 Analog AVD 技術(shù)，用以區(qū)分人聲與環(huán)境噪聲，避免在嘈雜的環(huán)境下長時間的處于喚醒狀態(tài)。我們引入了小體積、低主頻、低功耗的關(guān)鍵字識別單元，為更多的智能設(shè)備提供低門檻的語音控制方案。我們加入了壓電麥克風(fēng)的 wake on sound 功能，實現(xiàn)了接近零功耗的靜態(tài)模式。借助立體封裝技術(shù)，我們把這些功能封裝于數(shù)個毫米的極致空間之內(nèi)。

語音產(chǎn)品要結(jié)合不同的應(yīng)用場景和需求

防水與防塵已經(jīng)逐漸成為主流手機(jī)的標(biāo)準(zhǔn)配置。現(xiàn)有的雙層結(jié)構(gòu)的電容式 MEMS 麥克風(fēng)，當(dāng)水或者顆粒物進(jìn)入振膜和背極之間的間隙，會引起致命的失效。目前主流的手機(jī)，比如 iPhone7 或者三星 S7，均通過一層防水膜屏蔽異物的侵入，但僅僅用于防范正常使用中的意外進(jìn)水，并不能讓用戶自由地在有水或者沙塵環(huán)境下使用，也并不提供進(jìn)水的保修。瑞聲開發(fā)的 MEMS 壓電麥克風(fēng)則是一個單層膜結(jié)構(gòu)，即使有少量的水或顆粒物進(jìn)入，對性能也幾乎不產(chǎn)生影響。這實現(xiàn)了由避免侵入到不懼侵入的跨越。

隨著語音交互技術(shù)的不斷進(jìn)步和提升，音頻硬件和算法、應(yīng)用端各自為戰(zhàn)的情形顯然是難以應(yīng)對市場的需要的。在這里，一方面，我希望能給大家?guī)硪恍┞晫W(xué)器件方面的視角，更重要的，也希望我們能在彼此交流中，碰撞出一些新的火花。

現(xiàn)場觀眾提問

提問：我想問一下，把 AVD 放在 ADC 之前，目前這個 AVD 是做到什么樣的水平？它能夠識別關(guān)鍵詞，還是只能識別噪音？它的記憶原理是什么？

張金宇：它能識別一個穩(wěn)定的噪聲和一個突發(fā)的聲音。另外，它識別人聲和其他的噪聲的成功率很高，比如按喇叭的聲音，和人突然對它說話的聲音。但是關(guān)鍵字的話 AVD 是做不到的。

它的記憶不僅僅是頻譜，這是一個比較長的技術(shù)發(fā)展過程。最初它是在數(shù)字端來實現(xiàn)的，一個比較復(fù)雜的算法，不斷收集中文的，英文的，它一些發(fā)音的特點積累下來形成一個算法，一個經(jīng)驗庫，然后逐漸把它簡化，可以在一個很低的功耗下來實現(xiàn)。

提問：我們用怎樣客觀的方式去測試麥克風(fēng)陣列處理之后的結(jié)果？

張金宇：這應(yīng)該是取決于你具體適用的目的，取決于具體的功能。

提問：瑞聲的麥克風(fēng)的有開關(guān)功能，這個開關(guān)的限定是設(shè)定在什么位置比較合適？

張金宇：現(xiàn)在有兩種模式，一種是自身用的模式，它靠它的芯片來判斷，比如在地鐵里它會自動調(diào)高，在會場上會降低，在家里會降得更低。另外，它也可以是通過上位機(jī)，比如手機(jī)的 AP（應(yīng)用處理器），或者是智能家居的 MCU 來控制。

后記：

在峰會后的講師晚餐中，我們和金宇聊到了智能麥克風(fēng)的應(yīng)用場景，智能手機(jī)、智能家居、以及現(xiàn)在銷量已經(jīng)超過 Apple Watch 的 AirPod 智能耳機(jī)。我們能看到語音智能聊天手機(jī)未來可觀的終端增長數(shù)量，也看到了脫離手機(jī)的語音喚醒的智能耳機(jī)，對于麥克風(fēng)等硬件的挑戰(zhàn)。比如關(guān)鍵字識別需要的模塊略大，如果僅僅是 VAD 功能的，大約在 3.x mm * 2.x mm，如果需要關(guān)鍵字觸發(fā)，就需要 4.x * 3mm。另外用不同 IC 工藝節(jié)點可以縮減尺寸，但是成本提高及比較多了。

我們期待上游廠商在硬件技術(shù)研發(fā)上的突破，為下游應(yīng)用廠商帶來的豐富場景應(yīng)用機(jī)會。

語音識別

語音智能平臺與應(yīng)用峰會

麥克風(fēng)陣列

語音智能

深圳灣（微信公眾號 ID：shenzhenware）是最早也是最活躍的硬件創(chuàng)新社區(qū)和媒體，關(guān)注「軟件+硬件」帶來的場景和交互創(chuàng)新，以及與平臺和應(yīng)用相連的產(chǎn)業(yè)鏈升級。

版權(quán)聲明：本文系深圳灣原創(chuàng)，轉(zhuǎn)載或摘錄請先獲得授權(quán)。
深圳灣微信公眾號：shenzhenware。深圳灣同時在頭條號、企鵝號、知乎等主流媒體站開設(shè)專欄板塊，歡迎關(guān)注。轉(zhuǎn)載、約稿、投稿、團(tuán)隊報道請在公眾號對話框回復(fù)關(guān)鍵字并留下聯(lián)系方式。

上一篇：在這個行業(yè)首次聚焦語音智能的主題峰會上，我們思考語音技術(shù)對智能硬件提出的新挑戰(zhàn) | WARE 2017

下一篇：全系標(biāo)配滿級防水，OPPO A5 系列新品正式發(fā)布