角逐智能小家電藍海市場,AI 企業該做怎樣的技術儲備和戰略規劃丨WARE 2019

隨時喚醒語音助手,真不是一句話的事兒 | 深圳灣夜話
實時在線的低功耗語音喚醒,技術解析與應用前景,聽聽各路專家怎么說
近年來,在運動、車載、商超、地鐵、公交等隨行場景,我們看到了越來越多的設備增加了語音交互的功能。
應用場景的變化,對于語音喚醒的快速和靈活反應,以及功耗和算力,甚至硬件設備本身的結構設計,都提出了新的要求。
算法商、芯片商、設備商、甚至云服務提供商,都給出了不同的解決方案,但共同的目標都是讓設備的功耗更低,讓語音交互的體驗更好。
在第 122 期「深圳灣夜話」上,來自思必馳、QuickLogic、順豐科技、步步高的嘉賓,分享了他們在低功耗語音喚醒方面的技術和應用。

△ 從左依次為:陳葦珍 / 思必馳低功耗商務負責人、尚進 / QuickLogic 中國區銷售負責人、熊思杰 / 順豐科技「小豐」產品負責人、顏秋洪 / 步步高教育電子技術總監
算法商怎么做?
在算法層面,思必馳提供了從 DSP 到 AP 的一整套集成方案,包括雙麥定向波束、命令詞檢測、骨傳導特征檢測等多項技術方案,實現設備從低功耗喚醒、到喚醒驗證、再到聲紋識別的多級喚醒。

△ 現場產品展示:思必馳低功耗模組
通常情況下,語音喚醒的算法運行在 DSP 中,因語音交互而產生的數據也在 DSP 上緩存,通過獨立的麥克風做喚醒輸入,經過數據交換,將緩存數據輸送到 AP 中,再觸發二級喚醒和聲紋驗證。
而在設備處于待機或休眠的超低功耗狀態,或者當設備在播放音樂時,就會自動切換到「闖入模式」,語音數據也會直接傳輸給 AP 芯片,觸發二級喚醒和聲紋驗證,實現低功耗算法中的回聲消除(AEC)。

△ 低功耗算法技術特點 | 思必馳演講 PPT 截圖
基于以上工作流程,要做到「實時在線」的語音喚醒,在算法的基礎上,還需要在麥克風陣列、定向波束、命令詞檢測、骨傳導特征檢測、藍牙傳輸協議、以及云端多個方面進行優化。
在麥克風陣列的聲學結構設計方面,有很多「Know-How」學問。比如市面上常見的雙麥克風結構設計,需要做線性分布和水平放置,最佳間距為 30mm,聲音流向要與麥克風垂直,麥克風拾音孔要水平朝上且處于同一平面,收音腔設計除了單孔型還有網狀自由場型,隔音減震設計也有講究,等等。思必馳的工程師會協助客戶完成從麥克風選型到麥克風參數評估的方方面面。
設備有了「聽清」的能力后,就要解決命令詞也就是「聽懂」的問題。拿藍牙耳機產品來舉例,類似播放/暫停音樂、撥打/掛斷電話、支付寶掃一掃這樣的操控命令,甚至一些品牌命令詞,都可以直接儲存到設備上,在設備上直接完成調用。

△ 思必馳低功耗算法方案 | 思必馳演講 PPT 截圖
最后在協議層,思必馳也提供了 SMA 藍牙配件接入協議,賦予思必馳全鏈路語音交互技術,通過曉聽 APP,實現控制家電、場景識別等個性化功能。
芯片商怎么做?
隨著越來越多的 TWS 耳機增加了語音交互功能,語音喚醒的方式也從傳統的觸控喚醒,逐漸過渡到語音喚醒。
交互方式的演進也對設備的交互能力有了新的要求,語音識別的準確性、語音助手的始終在線、以及用戶使用和佩戴狀態的智能識別,都需要有更先進的技術支持。
QuickLogic 在 4 年前就提出了 EOS S3 語音和傳感器處理平臺,目前也是世界上唯一提供超低功耗并集成了始終在線、始終監聽、始終感知(Always On / Always listening + Sensor)處理能力的多核 SoC 解決方案。

△ EOS S3 Hardware S3 芯片硬件架構 | QuickLogic 演講 PPT 截圖
它使用了分層式架構,可以集成運動傳感、加速傳感、心率傳感、語音喚醒和降噪、室內導航等傳感器和算法,運行功耗相較于普通的 MCU 方案大大降低。
兩年前,QuickLogic EOS S3 語音和傳感器處理平臺就與亞馬遜 Alexa 實現了合作,針對其雙麥降噪、近場喚醒的需求,通過 S3 實現 OPUS 壓縮算法,降低亞馬遜藍牙耳機所使用的高通 CSR867X 藍牙音頻芯片的運載負擔。

△ 最新發布的 Echo Buds
目前 S3 已與多個藍牙平臺實現了合作,共同提供驗證的方案,幫助客戶產品快速上市。同時,QuickLogic 還開放軟件代碼、eFPGA,使軟硬件設計更加靈活。
為快遞小哥定制的藍牙耳機,語音喚醒怎么做?
在開場思必馳的分享中提到,低功耗語音喚醒的應用不僅在耳機、手表、小家電等消費電子產品領域有著豐富的應用,在物流配送、專車駕駛、餐飲服務等 toB 的垂直場景,也有巨大的需求空間。
為了保障用戶隱私,同時幫助快遞小哥更安全、更高效的處理日常收派件工作,今年年初,順豐科技推出了「小豐」智能藍牙耳機,目前已在全國多個收派環境較復雜的區域開始投放使用。

產品搭載智能語音技術,可以實現語音喚醒和操控,快遞小哥可結合順豐豐密運單通過語音指令呼叫用戶,保障用戶隱私,此外,日常呼叫通訊錄聯系人 、查單 、轉單等高頻操作,都可以由 8 步手動操作減為 1 步語音指令,大大提升了工作效率。
更多的功能和服務還包括,路徑規劃和語音導航、超速提醒、實時同步用戶消息、實時播報系統消息 …等等針對具體應用場景和業務需求的功能。

△ 順豐的智能語音生態服務應用案例 | 順豐演講 PPT 截圖
順豐「小豐」也是思必馳「曉聽」FreeSpeech E1 的應用案例,該方案集成了雙麥定向增強與降噪、免提語音交互等多項技術,并可以實現 30KM/H 降風噪,始終在線功耗小于 2mA,以及 12 小時的連續高清通話。
具體到「小豐」耳機,則是基于主頻算力小的小型 NCU,思必馳提供了基于雙麥的 ANC 喚醒方案以及前端信號處理、低功耗喚醒等技術,將快捷命令詞納入喚醒詞中,既大大提高語音交互的效率,又確保了低功耗。
為小朋友定制的教育平板,語音喚醒怎么做?
除了耳機、手表、小家電,教育平板對語音喚醒的需求也在迅速攀升。以步步高教育平板為代表,語音 AI 已經逐漸成為旗艦標配。
步步高家教機 2019 年的旗艦產品 S5 同時具備了 AI 視覺和 AI 語音識別的能力,相比一般的常見 AI 智能機器人和傳統的教育平板,步步高家教機 S5 的語音助手可以做到實時在線、語音喚醒,并針對學習場景,優化了問答、聽寫的語音交互體驗。產品一上市,就獲得了廣泛好評。
在語音方案選型之前,步步高的產品負責人對于需求做了全面的梳理:
需要有語音識別技術(ASR),對隨時接收的用戶語音輸入進行識別;
在 ASR 無法智能判斷用戶是否在和它對話,從而亂響應的情況下,需要語音喚醒技術明確對話請求,用簡短的喚醒詞減少喚醒識別時間;
為延長待機時間,設備 AP 需要休眠,語音喚醒服務不能長期在 AP 中運行,這就需要低功耗外掛芯片,需要能夠對喚醒詞和識別句進行分拆,需要能夠過濾本機回聲。
具體到方案的規格,步步高需要一個能夠內置低功耗語音喚醒算法的低功耗芯片,它需要具備以下性能:
支持 One-Shot 即喚醒詞+指令一句連說,這就要求算法留出 3 秒左右的緩沖,而芯片留出 >96kb 的 SRAM 可用空間;
支持 AEC,并且 AEC 的 CLK 要與 AP 同源;
功耗 <5mW,保證續航時間需求;
喚醒率 >98%,保證良好的喚醒體驗,這里主要是童聲體驗;
誤喚醒要 <1次/24 小時,保證極低的打擾和插話;
成本 <$1。

△ 步步高家教機 S5
在語音 AI 產品化的過程中,步步高也經歷了從模式識別到深度學習的轉變,通過不斷的采集和更新樣品數據,提升設備喚醒率。同時,針對在嘈雜環境喚醒率低、人聲場景的誤喚醒較高等問題,步步高采用了單麥的低功耗喚醒和雙麥的降噪方案,ASR 能力獲得 10~15% 的明顯改善。
目前,步步高還在探索新的優化方向,包括多麥低功耗語音喚醒和聲紋。在步步高看來,多麥低功耗語音喚醒是必然趨勢,而聲紋要做好比較難。
夜話聊不完
在活動最后的深圳灣夜話的交流環節,幾位嘉賓一起就算法、芯片、藍牙耳機等話題,展開了進一步的討論。這里我們精選了一些嘉賓的觀點,歡迎各位讀者留言參與討論。
深圳灣:把算法做到芯片里,實現離在線的 AI,越來越多的玩家在加入。思必馳深聰的芯片與競品相比,優勢是什么?
思必馳:思必馳團隊有400多名算法研發工程師,豐富的項目落地經驗,以及為客戶做靈活高可用定制的能力。
深圳灣:最近發布的亞馬遜 Echo Buds 采用的多芯片方案,而小米發布的 Air 2 采用的是單芯片方案。QuickLogic 的芯片集成了語音喚醒、外接傳感器算法的芯片,與高通等藍牙主控芯片搭配使用。單芯片和多芯片各自有哪些優劣勢?
QuickLogic:單芯片是未來發展的趨勢。但在目前的狀況下,廠商對于性價比、功耗、傳感器功能的可拓展性、是否能快速上市、以及未來的上升空間,考慮更多一些,QuickLogic 的方案可以滿足廠商這些方面的需求。
深圳灣:未來耳機的進化方向,各位怎么來看?
步步高:體積小、功耗低、語音喚醒,是藍牙耳機的發展趨勢。
順豐科技:語音和圖像識別可以有一些互補,當用戶用語音提問時,設備可以通過顯示屏進行反饋,而不是一定要通過語音對話進行反饋。耳機只是一種交互介質,可以與其他設備有更多的結合和聯動,從而讓用戶有更好的使用體驗。
QuickLogic:藍牙耳機與助聽器的結合,將會有更大的市場空間。
思必馳:藍牙耳機一定會朝著智能方向發展,而在眾多的玩家中,手機廠商做智能耳機會有更大的優勢。最近我們看到了亞馬遜、微軟等很多互聯網廠商紛紛推出智能耳機。我們預測,明年將會是智能耳機的爆發元年。
關于
深圳灣夜話是最早由深圳灣發起的社區分享活動。目前已經進行至第 122 場,超過 400 位商業領袖、產品達人、技術專家、意見領袖做客活動并分享洞見,累計吸引了超過 10000 名創新創業者、尤其是智能硬件的行業從業者和愛好者參與線下活動。
很多人因為「深圳灣夜話」認識到深圳,因為「深圳灣夜話」而與產業鏈上下游實現了連接,因為「深圳灣夜話」而獲得了啟發和鼓舞。
4 年來,我們一直用心經營著這個「地標性」的活動,精選嘉賓、打磨主題、優化活動體驗,試圖每一個經過我們設計的夜話,都能給讓各位收獲滿滿。
微信號:shenzhenware
主筆:陳壹零 / 深圳灣
編輯:左思思 / 深圳灣