小米的低價智能音箱斷了小團隊們的后路?這名擁有 5 年行業經驗的從業者表示「不用那么悲觀」

在先行者叮咚面前,小個子天貓精靈的耐撩指數能打幾分?| 深度測評
你們期待的天貓精靈與叮咚 A1 互撩的畫面來了……
「在國內,做智能音箱的,基本都拆過叮咚。」
在上個月深圳灣舉辦的「WARE 2017 語音智能平臺與應用峰會 第 II 季」的百箱爭鳴論壇中,靈隆科技總經理魏強這般笑稱道。雖然是一句玩笑話,但不可否認,叮咚在國內的先行者地位。
在 2015 年,靈隆科技有限公司推出智能音箱叮咚 A1,而其二代版本也將于近期上線。一周前,阿里旗下的智能音箱天貓精靈開售,正式進入國內早已水深火熱的音箱市場。
作為國內最知名的兩家電商公司,阿里巴巴與京東不僅在每年的雙 11 打的火熱,其戰線也開始逐漸向物聯網及人工智能推進,并延伸到當下最火熱的硬件產品——智能音箱上。
天貓精靈這款音箱表現究竟如何?深圳灣(公眾號 ID:shenzhenware)選取了天貓精靈 X1 與叮咚 A1 兩款產品,進行了深入的對比。

一、天貓精靈 X1+叮咚音箱 A1 對比評析
作為目前國內僅有的兩款可購物音箱,天貓精靈與叮咚無論是從功能、渠道還是產品定位等角度都具有很強的可比性。此次,深圳灣分別從外觀、語音、內容等幾個角度深入體驗了這兩款音箱:
外觀
單從外表來看,天貓精靈通體為白+灰色設計,外殼為膠質材料,頂部有一個靜音按鍵,兩個音量調節觸控鍵,以及六個麥克風音孔。

而叮咚 A1 外殼則為金屬材質,因此箱體較為沉重,外部采用噴漆工藝,色澤略暗;頂部有一個實體靜音按鍵,一個音樂播放/暫停鍵,兩個節目切換鍵,以及音量調節觸控線。

當兩款音箱分別被喚醒時,均會出現一個與 Echo 類似的藍色光環,不同的是叮咚在頂部,而天貓精靈在底部;在調小音量時,叮咚的光環長度會變短,而天貓精靈光環亮度會變暗。

語音
天貓精靈使用自家 AliGenie 語音系統和聲紋識別技術,采用思必馳的 6 麥克風陣列技術,搭載聯發科智能語音芯片;叮咚 A1 采用的則是科大訊飛的 7+1 麥克風陣列及語音技術,并搭載叮咚開放平臺。
音質上,由于叮咚 A1 采用的是一個低頻揚聲器加上 4 個全頻帶單元,而天貓精靈只有一個全頻揚聲器,因此在音質體驗上叮咚音箱要更為細膩立體。
語音對話是智能音箱最為核心的技能,這方面我們進行了以下幾個方面的詳細測試:
A、喚醒測試:分別采用了 0.5 米 、2 米 、5 米三種不同距離進行測試:
- 0.5 米距離,用同等程度低聲喚醒,二者不分伯仲,喚醒率均較高;
- 2 米距離,用正常聲測試時,雖兩者均可正常喚醒,但叮咚喚醒率略高于天貓精靈;
- 5 米距離,兩者均需提高音量才能保證喚醒,這一環節叮咚則明顯強于天貓精靈,這其中或許也有其口語化喚醒詞的一份功勞。

B、語義識別測試 :TTS 是叮咚的強項,在語義識別準確率上叮咚 A1 也明顯強于天貓精靈。
例如,對叮咚音箱說「上山打老虎」,叮咚音箱能正確識別并播放同名音頻內容,天貓精靈則推薦了一首毫不相關的歌曲;而改為「請播放上山打老虎」后,才能正確播放歌曲。

C、降噪測試:在用同等音量的音頻進行干擾時,用略高于噪音的音量與之對話,叮咚的處理方式是抓取大音量關鍵詞,例如「打車」;而天貓精靈會不斷嘗試識別所有聽到的內容。因此在這一點上,叮咚略優于天貓精靈。
D、多輪對話:叮咚可通過 APP 設置 15s 到 5 min 時長的多輪對話(AIUI),設置后便可免喚醒對話,而天貓精靈則暫時不支持多輪對話。

E、聲紋識別:正常對話情景下天貓精靈能準確識別被記錄過的聲紋,而在同一個人故意變聲(包括用尖銳、低沉的嗓音)時,則容易識別失敗。叮咚則無此功能。
內容
叮咚的音頻內容比較豐富,分類較為詳細,主要接入的內容提供商有百度音樂、咪咕音樂、喜馬拉雅 FM 等。
而剛剛出道不過兩個月的天貓精靈雖也接入了蝦米音樂、喜馬拉雅等內容,但在內容豐富度及分類上則還需要繼續努力。

從上圖中可看出叮咚的內容資源比天貓精靈更豐富有序。在交互體驗上,叮咚支持語音與 APP 兩種方式點播內容,而天貓精靈只能通過語音的方式進行點播。天貓精靈的 APP 中能直接看到使用者與音箱對話的文字內容,叮咚則不可以。
不過從應用的角度來看,天貓精靈與叮咚均屬于功能型智能音箱,對于帶有關鍵字的指令性任務均有著不錯的響應。而當你想在無聊時,像與 Siri 或若琪聊天那樣與它進行一場玩笑調侃式聊天,則顯得很無趣。
例如分別對叮咚與天貓精靈說「我餓了」,叮咚會說「你可以搜索附近的美食」,天貓精靈會說「我可以幫你點外賣」。而像對話式音箱,例如若琪,則會回答你「可是我不餓呀」,或是「看著你的大腿就不餓了」。

二、核心功能體驗:購物與智能家居
作為兩款電商背景下誕生的智能音箱,天貓精靈與叮咚有著相似的營銷渠道、產品定位。目前來看,叮咚主打內容與智能家居,而在接入了京東商城及中通快遞等服務后,也開始有了購物與快遞查詢功能。
而天貓精靈則一開始就推出了聲紋購這一殺手锏,是中文語境下首款能通過聲紋實現付款購物的智能音箱。此外,天貓精靈也正在快速擴充內容體系與智能家居陣容。
接下來分別從購物與智能家居兩個角度評析天貓精靈與叮咚兩款產品:
購物
得益于語音識別的高準確率,叮咚能比較準確地根據關鍵詞找到對應的商品,可放入購物車或直接下單(僅支持到付)。但由于沒有聲紋識別功能,意味著任何人都可以語音下單。如果擔心家里的「熊孩子」會瞎買,則意味著每次購完物后都需要通過手機 APP 關閉購物服務。
購物方面天貓精靈的優勢則很明顯,在錄入聲紋后,用戶能通過特定人的聲紋驗證完成購物,同時也能為特定的手機號碼充值話費,這點的確是比叮咚安全又方便很多。但對于商品名稱的區分能力則有待加強,例如對它說「我的購物車里有什么」,它會理解成是想要買購物車一類的商品。

另外,從購物范圍來看,叮咚支持京東平臺的所有品類的商品購買,而天貓精靈目前的購物范圍只是局限于天貓超市。例如你說要買一雙運動鞋,京東會推薦一款某品牌跑鞋,而天貓精靈則會說「沒有找到你想要的」。
智能家居
阿里與京東都已在不同程度上布局了智能家居。
早在 2015 年 4 月,阿里巴巴成立了智能生活事業部,整合了電商銷售資源、還集成了云端數據服務、內容平臺,以全面支持阿里智能產品的推進。
京東則在 2015 年與科大訊飛合資成立靈隆科技開始布局智能音箱, 2016 年發布京東微聯,開始聯合各大家電廠商打造智能家居生態。
目前天貓精靈支持阿里智能與 BroadLink 兩個智能平臺的接入:


叮咚的定位就是一款智能家居中樞產品,目前能支持京東微聯、美的家居、米家旗下智米等兩千多種設備。叮咚 APP 上有支持的智能產品設備列表,點開后直接會引流到京東商城的購物頁面。

三、技術解析:叮咚語音識別更勝一籌,聲紋購是阿里的殺手锏
關于天貓精靈與叮咚各自的技術優勢,阿里人工智能實驗室負責人淺雪也曾發表過意見:科大訊飛的技術偏重語音識別,而 AliGenie 的強項在語義理解。不同的技術基因決定了不同的產品體驗,通過上面的測試我們也能感受到:叮咚在內容搜索上更加精準,而天貓精靈的購物體驗更佳。
那么這種區別是怎樣造成的呢?我們先來了解一下智能音箱包含了哪些語音技術。
智能交互的三個技術層次
當一個產品經理在規劃產品中的語音功能時,他需要考慮的絕不僅僅是語音識別,還包括其背后的智能交互。概括起來,表面上看到的智能交互,背后實際上包含三個層次的技術:語音技術、智能化技術、大數據技術。
語音技術:包括語音識別(ASR)、語音合成(TTS)、聲紋識別和認證、情感識別等,這是一個將語音轉化成文字,并能識別其中包含的語言、情感等信息的過程。

語義技術:包含自然語言理解(NLU)、多輪對話管理、跨領域對話等技術,是一個理解用戶意圖、感知場景信息,并根據用戶過往積累的行為數據做出針對性決策的過程。
大數據技術:包含各種垂直領域(天氣、航班、餐館…)的數據服務,基于知識圖譜的信息問答,垂直或通用領域的信息搜索,以及大規模機器學習模型的訓練等技術。
語音技術廠商的兩大陣營
關于智能語音技術的廠商,目前分為兩大陣營:一類是平臺廠商,如科大訊飛、百度、思必馳等,以方案商的角色將語音技術賦能到合作廠商的音箱;另一類就是自研技術廠商,如若琪、阿里,并且同時也都推出了自家的智能音箱。
叮咚背后的科大訊飛在智能語音領域已經沉淀了 18 年,背靠中科院、中國科學技術大學這些科研機構,具有強大的人才及技術資源吸收能力,是當下國內智能語音領域綜合實力最強的企業。
強大的科研背景決定了科大訊飛在語音識別、語音合成等基礎研究領域具有雄厚的實力。站在了「巨人」的肩膀上,叮咚的語音識別能力自然優秀。
相較之下,阿里巴巴在語音領域的布局則晚了很多,到 2014 年才成立了一支語音交互技術團隊,起初也只是為阿里巴巴集團以及生態圈中小企業提供智能語音交互服務。
但阿里是何等厲害的角色,在不到三年的時間里就迅速吸收了前南洋理工大學教授王剛等一大批海歸技術專家,并秘密籌建了人工智能實驗室。
阿里的「決策引擎」及聲紋購
淺雪提到的語義理解,其核心體現在天貓精靈的 「決策引擎」機制,通俗來講就是在理解了上下文意思后,判斷應該啟動哪一模塊響應,并給出最終判斷。這一機制最常用在購物環節,系統會根據判斷推薦一個最優結果給到用戶。
而另一個阿里獨有的殺手锏,便是阿里自研的聲紋購功能。下圖展示了聲紋識別技術的原理:

原定于今年 8 月上市的叮咚二代將成為靈隆科技首款攜帶聲紋識別功能的智能音箱,但其聲紋技術主要用于個性化的內容服務,暫時不會支持聲紋購物。而阿里自研的聲紋購將在未來一段時間內成為天貓精靈的競爭壁壘。
四、競爭廠商分析:三大派系混戰已成一片紅海,有能力構筑服務生態者才是最后贏家
其實在智能音箱這條賽道上,中國公司的反應的并不比國外慢。
早在 2014 年,國內就涌現出一批智能音箱「拓荒者」,并出現了國內首款智能音箱「小智」,比亞馬遜 Echo 的上市還要早半年。
Echo 的問世,使得一直在業務布局層面對標亞馬遜的京東意識到語音智能可能會成為智能家居的一個新的突破口,便火速與科大訊飛合資成立了靈隆科技,并在 2015 年 6 月發布了第一款智能音箱叮咚 A1。
靈隆科技總經理魏強曾在深圳灣采訪中提到,京東想要完成在智能家居硬件層面的布局,而主營 B 端業務的科大訊飛也一直想要做一款家庭交互硬件產品,進一步拓寬 C 端市場,于是雙方在幾次會議后一拍即合成立了合資公司。
智能音箱江湖的三大派系
從拓荒者出現,經歷了兩年的積淀期,在 2017 年智能音箱市場終于迎來了全面爆發。國內先后涌入了聯想、騰訊、阿里、小米、百度等一批實力強勁的互聯網廠商,以及上百家傳統音箱方案商與創業公司。
縱觀當下國內的智能音箱廠商,大致可以分為互聯網功能型音箱、內容 IP 音箱,以及傳統音箱三大派系。
- 功能型音箱以互聯網廠商為主,例如天貓精靈、叮咚均歸屬電商旗下,其走的是類似 Echo 式的購物+智能家居路線;
- 內容音箱廠商如喜馬拉雅、酷狗,它們沒有自研語音技術及硬件基礎,但占有獨特的 IP 資源,這類廠商目標群體明確,也更加接近用戶的實際需求;
- 傳統音箱廠商則有著多年的硬件積淀及渠道資源,他們傾向于以合作的形式跨進人工智能這道門檻,例如貓王與 DuerOS,漫步者與阿里巴巴。
語音智能生態才是核心
上面提到的三類廠商定位均很明確,但與內容廠商的單線突破,與已有用戶基礎的傳統廠商相比,阿里與京東面對的挑戰,則是如何依靠電商本身多樣化的服務生態,打造以購物+家居為核心的完整服務體系。
這也是一條亞馬遜正在踐行的道路,盡管 Echo 的銷售量已經突破千萬臺,但亞馬遜依舊在馬不停蹄地打造以 Alexa 為核心的智能語音生態。據統計,Alexa 已經擁有超過 1.5 萬項語音技能,賦能給了超過 7000 家硬件廠商,這才是 Echo 真正的競爭力所在。

一個完整的語音生態不僅僅包含前端的語音交互技術、硬件方案,更包含后端完整的語音技能商店、強大的云端數據處理能力,以及開放給各方硬件廠商及個人開發者的的開放平臺。
眼下叮咚推已經出了叮咚開放平臺,并接入了幾十家第三方應用商,并將聯合一些平臺廠商合作開發更多技能;阿里也即將于年底推出 Aligenie 開發者平臺,進一步豐富其語音服務生態。
雖然技能數量遠遠不及 Alexa ,但作為中國最具資源整合力的生態型公司中的佼佼者,阿里與京東會是這場長跑競賽中不可小視的種子選手。
五、結語:烈火炙烤之下更需深思
對于阿里與京東這樣的長跑選手來說,體力好、彈藥足,他們在布局一個新領域時考慮更多的不是當下,而是未來。相較之下,一些中小型創業公司的日子則會辛苦許多。
最近在訪談一位早期做智能音箱公司的聯合創始人時,對方表示,由于國內不成熟的市場環境,以及資金與技術資源的缺乏,使得這樣一家頗具前瞻意識的創業公司沒能走到最后。如今這家公司的初始團隊已經轉型開始做語義技能生態的構建,開始了新一輪的征程。
智能音箱會不會真的成為下一代交互入口,我們尚不能判斷。但可以預見的是,眼下巨頭相繼涌入的局面,會使得人才與硬件資源迅速向大公司靠攏,行業燒錢的速度也會加快,那些中小型創業公司也將面臨更多的壓力。當下市場確如烈火般炙熱,但從業者也更需多一點深思。