CES 上的音箱混戰中,渡鴉的 raven H 憑什么被評為 CES 最佳? | CES 2018

拿什么喚醒你的智能設備?這里是一份關于喚醒詞的調研報告
本篇文章將從數據的角度,科學的告訴你,智能語音交互產品該「叫」什么名字。
對話式 AI 技術正在重新定義人機交互的方式。為引領和定義最好的人機交互,百度 DuerOS 在 2017 年 11 月百度世界大會上,成立了百度 AI 交互設計院,擬以報告輸出、產品測評等形式,幫助 DuerOS 的合作伙伴和全球 AI 產品在交互設計上不斷提升優化。本文系百度 AI 交互設計院對外發布的第二篇報告。
和很多智能語音交互產品一樣,當你使用搭載 DuerOS 系統的智能音箱的時候,需要多次這樣叫出它的名字「小度小度」,才能讓它更好的為我們服務。但是什么樣的名字才是好名字?什么樣的名字順口悅耳人人喜愛?本篇文章將從數據的角度,科學的告訴你,智能語音交互產品該「叫」什么名字。
什么是「喚醒」和「喚醒詞」?
在討論名字之前,我們首先對語音交互過程中的一些定義做一個簡單的介紹。
語音交互的過程,和我們平時與人交流的方式非常相似。比如某天中午你正坐在辦公室看到窗外陰天,你擔心接下來會不會下雨,于是你向正在低頭辦公的同事喊了一聲「小明」,小明聽到了抬頭看你表示在聽,你接著問「今天會下雨么?」小明打開手機查了一下今天的天氣預報,然后回答你說「天氣預報說下午 3~4 點有雷陣雨」。
在百度 AI 交互設計院的研究地圖中,語音交互流程被劃分為五個環節:喚醒、響應、輸入、理解、反饋。其中喚醒是每一次用戶與語音產品交互的第一個接觸點,因此喚醒環節的體驗在整個語音交互流程中至關重要,它的體驗好壞將直接影響用戶對產品的「第一印象」。

我們知道,盡管是「智能」的語音交互產品,機器仍然沒有我們人類聰明。對于目前市面上常見的語音交互產品來說,一個眼神或者一個動作還不能引起它的注意,因此需要定義一個將產品從待機狀態切換到工作狀態的詞語,我們稱這種詞為「喚醒詞」。
還記得我們剛剛提到的「問天氣」的例子嗎?我們通過呼喊「小明」的名字,來引起他的注意,而對于智能語音交互產品,我們也需要通過叫出「名字」,也就是喚醒詞來激活設備。以智能音箱產品為例,「小度小度」是喚醒渡鴉 Raven H 的喚醒詞,「Hey Google」是喚醒 Google Home 的喚醒詞,「Alexa」是喚醒 Echo 的喚醒詞。

喚醒詞對用戶體驗的影響
百度 AI 交互設計院基于大量的對智能語音交互產品用戶測試的經驗,發現影響語音喚醒體驗的因素包含兩個維度——輸入和輸出。輸入環節的影響因素包括喚醒詞、喚醒方式,輸出環節的影響因素包括喚醒響應速度、喚醒反饋方式、喚醒成功率和誤喚醒率。為了確定影響語音喚醒體驗的主要因素,我們通過問卷調查的方法對其重要性進行了研究。調查結果發現,對于用戶來說,喚醒詞是語音喚醒輸入環節中較為重要的影響因素,且一個好的喚醒詞,會直接影響喚醒率。
而目前,關于喚醒詞設計的關鍵因素還未進行科學的研究。鑒于此,本期我們以喚醒詞為對象進行研究,希望能夠對喚醒詞的設計提供理論和數據上的支持。

怎樣設計一個好的喚醒詞?
針對喚醒詞,我們先后通過以下兩個實驗進行了研究。
實驗一:現有喚醒詞組合方式研究
實驗二:喚醒詞語音要素研究
下面我們對每個實驗的結論進行逐一詳述:
實驗一:現有喚醒詞組合方式研究
首先,我們對市場上各類語音交互設備喚醒詞的組合方式進行拆解,發現喚醒詞均是在一個簡單「名字」的基礎上加以變化而構成,此外,「名字」本身也具備不同的構成方式。在實驗中,我們為用戶提供了不同組合方式的喚醒詞,由用戶根據其個人喜好程度在 5 點量表上進行評價(1-非常不喜歡、2-不喜歡、3-一般、4-喜歡、5-非常喜歡)。
實驗結果表明,不同組合方式下,用戶的喜好程度不同:
1)在以「名字」為基礎的不同組合方式中,「名字+名字」的疊詞式組合方式最受用戶喜歡,而「品牌+名字」的組合方式最不被用戶喜歡。
2)另外,就「名字」本身而言,「小+字」的名字最受用戶喜歡。這點也與漢語人名命名習慣相符,『漢語人名用字的統計分析(鄭淑花,2010)』顯示,「小」字在人名命名十大常用字之中。
實驗二:喚醒詞語音要素研究
音節是聽覺上最容易分辨出來的語音單位,也是最自然的語音單位,漢字中一個漢字讀音就是一個音節,每個基本音節都是由聲調、聲母和韻母三個部分構成。

理想條件下,我們希望對喚醒詞每一音節的聲調、聲母、韻母進行研究,但是由于音節數的增加,研究變量數將大幅度增長,導致我們無法通過一次實驗來完成。另外,通過文獻查閱,我們發現人們在起漢語人名時,會將尾音節的發音情況列入考量,同時,漢語人名/寵物名統計研究中也多見其對尾音節發音情況的統計。
因此,綜合文獻和前文實驗的結論,本次實驗中我們以喚醒詞尾音節為研究對象,選取「小+字」的構詞結構,變換尾音節,進行喚醒詞的發音偏好實驗。同時為避免用戶受漢字本身字義的影響,實驗中用戶看到的喚醒詞均為標有聲調的拼音。在實驗中,我們要求用戶根據其個人喜好程度在5點量表上對喚醒詞進行評價(1-非常不喜歡、2-不喜歡、3-一般、4-喜歡、5-非常喜歡)。
實驗結果表明:
1)聲調方面,用戶最喜歡陰平(1 聲);另外相較「仄聲」(3 聲上聲、4聲去聲統稱為「仄」),用戶更加喜歡「平聲」(1 聲陰平、2 聲陽平統稱為「平」)。
2)聲母方面,用戶更加喜歡尾音聲母為零聲母,而包含了 z、c、s 的舌尖前音最不被用戶所喜歡。
3)韻母方面,從韻母發音時的開口口型來看,用戶更喜歡開口口型較大的齊齒呼和開口呼;另外從韻母結構來看,音節韻母為單韻母的詞最受用戶的喜歡。
實驗結果小結
本文主要圍繞智能語音交互設備的喚醒詞展開研究,從喚醒詞組合方式和語音要素兩個方面探討了影響用戶體驗的因素,我們發現:
1)現有喚醒詞組成方式方面:
在以「名字」為基礎的不同組合方式中,「名字+名字」的疊詞式組合方式最受用戶喜歡,而「品牌+名字」的組合方式最不被用戶喜歡;
就「名字」本身而言,「小+字」的名字最受用戶喜歡。
2)語音要素方面:
聲調:用戶最喜歡陰平,同時相較「仄聲」,用戶更加喜歡「平聲」;
聲母:用戶更加喜歡尾音聲母為零聲母,而包含了 z、c、s 的舌尖前音最不被用戶所喜歡;
韻母: 按照韻母發音時的口型開口情況來看,用戶更喜歡開口口型較大的齊口呼和開口呼;另外按照韻母結構來看,音節韻母為單韻母的詞最受用戶的喜歡。
喚醒詞分類
基于本文的研究,相信你已經掌握了如何構造一個好的喚醒詞的方法了吧?以下是我們結合收集的用戶自定義喚醒詞及本文研究結論,為喚醒詞作出的分類,供讀者們應用參考。

需要注意的是,本文是從用戶視角出發,對喚醒詞進行了科學的研究和探討,但是實際在設計喚醒詞時,需要考慮的因素還有很多,如:喚醒詞是否過于常見導致語音設備容易被誤喚醒,喚醒詞與品牌之間是否具有關聯。另外,受當前語音技術的限制,現有的喚醒詞多以4音節詞居多,但未來隨著語音技術的進步,喚醒詞的長度存在變短的趨勢,在設計喚醒詞時還應考慮其可優化的空間等等。
特別注明:由于實驗設定的條件和樣本數量等限制因素,本次實驗研究結論或許不能代表所有智能產品用戶在家居環境的全部感受,但希望通過我們的研究和探索,可以為語音交互中喚醒環節的設計提供支持和依據,幫助打造自然和極致的語音交互體驗。
內容來源:百度 AI 交互研究院
題圖:搭載 DuerOS 的 Sengled 小迪智能音箱燈
責任編輯:陳壹零