渡鴉發布 1699 元智能音箱:百度「自家」是如何打造 AI 硬件的?

賦能你的手機、你的家、你的車,DuerOS 喚醒萬物的盤子可能比你想象還要大
我們期待著 DuerOS 能為整個語音智能行業帶來的勃勃生機。
4 個月前,當景鯤喊出這一句口號時,許多人覺得這只是巨頭自信心過剩的大話。然而短短 4 個月里,DuerOS 新增 130 余家合作伙伴、落地硬件解決方案超過 20 個、每月有 5 款以上搭載 DuerOS 的設備推出……DuerOS 迭代平臺、整合生態、將對話式 AI 能力進行產品化落地的速度,讓懷疑的聲音很快安靜下來。
11 月 16 日召開的「百度世界大會 2017 」上,DuerOS 發布了全面升級的 DuerOS 2.0 對話式 AI 操作系統,并相繼推出了一系列推進產業鏈變革和產學研聯動的措施。
對話核心系統:讓設備更智能,用戶體驗更好
在智能音箱這個新興的消費產品市場,許多人工智能產品被詬病為「人工智障」,究其原因還是人機交互設計和智能化程度的不成熟。DuerOS 要賦能萬物,成為世界級 AI 系統的標桿,必須提升自身交互體驗的能力,拔高全行業最高水平,同時推高行業平均水平。

這一版升級的 DuerOS 2.0 系統,在核心技術能力層面,提升了準確快速的語音喚醒能力、流暢自然的語音識別能力、生動鮮活的合成語音、以及更加豐富的 AI 能力。
在語音喚醒能力方面,實現了一句聯控、任意打斷、波束成形、噪聲抑制、混響抑制、陣列增益、回聲抵消。其中,無間斷喚醒、清唱識曲,這兩項用戶使用頻率較高的設備能力,在這一版有了較好的表現。
在語音識別能力方面,百度的上億級近場數據,為遠場設備做了調優鋪墊,識別準確率有了大幅度的提升。高頻詞做了全面優化,中英文、多種說話方式和口音的一體化建模,大大降低了設備的誤識別率。在語音語義一體化識別上,也更加流暢。
在合成語音能力方面,DuerOS 基于深度學習的情感拼接合成,全新定制的高度擬人化的合成音,「小度」的聲音將更加生動鮮活。
除此之外,新版 DuerOS 還集成了包括人臉識別、圖形識別、音頻旋律匹配與檢測技術、大數據控制與分析技術等更加豐富的 AI 能力,為智能設備的功能擴展預留空間。
用戶體驗是對話式人工智能生態系統的核心。DuerOS 希望達到的效果,是能讓用戶在不同的場景下,能夠自然的使用設備、并且習慣一直使用這個設備,并讓用戶越來越習慣智能化的生活。

智能設備開放平臺:加快賦能硬件設備
在過去的幾個月里,DuerOS 不停歇地推動著搭載 DuerOS 能力的硬件設備陸續落地。一方面,我們看到了包括中信國安廣視、小魚在家、海爾、美的、聯想、哈曼、TCL、極米、小天才等眾多知名企業與 DuerOS 的品牌聯合;另一方面,DuerOS 也在將對話能力應用到手機、電視、音箱等智能家居、智能穿戴和車載場景中。
為了更快的推進各行各業的賦能,DuerOS 在解決方案方面也進行了全面升級,包括更好的遠場語音交互開發套件、全新的語音交互 App 解決方案、全新的 DuerOS for Apollo 解決方案、以及全新的跨場景跨設備解決方案。
李彥宏在百度世界大會上通過手機百度,在語音播報新聞信息流內容時,用自然語言交互進行播報控制及深度信息挖掘的體驗展示,正是基于 DuerOS 2.0 提供的語音交互 App 解決方案。
除此之外,DuerOS 還對平臺體系進行了升級,包括新增的物聯網設備云、智能設備質量認證支持,平臺體系更加豐富。

技能開放平臺:讓設備擁有更豐富的內容、服務、和特定場景的對話能力
4 個月前,我們在做語音技能的深度報道時,還需要通過 App 開發做類比,以闡述技能的概念,并渲染在 AI 時代,語音技能開發的未來前景。然而不到半年的時間,國內廠商陸續發布了各自的語音技能平臺。人們對于技能關注的目光,也逐漸從「是什么」、「為什么」,轉向「怎么做」。
百度自己評價對話式 AI 產品體驗的核心指標是聽清、聽懂與滿足能力,其中的滿足就體現在內容及服務生態的豐富度上。DuerOS 已經可以提供 10 大類、超過 100 項原生技能給用戶,讓用戶體可以體驗包括影音娛樂、信息查詢、出行路況、聊天休閑、生活服務等技能。
為了讓用戶享受到豐富多彩的技能,DuerOS 不僅大幅提升了原生技能的豐富度與用戶體驗,還發布了小度技能開放平臺,兼容了 UNIT、ChatFlow、STOR/AOR、ruyi 等多種技能開發工具,讓開發者借助平臺,真正實現「一站式」、「零門檻」的語音技能開發。
目前,DuerOS 的技能生態已擁有超過 100 個原生技能和 100 個第三方技能。未來,將會有更多諸如成語接龍、星座運勢、飲食百科的語音技能上線 DuerOS 技能商店。
推動對話式人工智能在產、學、研三方面全面發展
要成為世界級人機交互的標桿,更好的推動行業發展和更優秀的產品體驗,DuerOS 可以做的更多。
對話式 AI 技術正在重新定義人機交互的方式。為引領和定義最好的人機交互,DuerOS 成立了百度人工智能交互設計院,未來將以報告輸出、產品測評等形式,幫助 DuerOS 的合作伙伴和全球 AI 產品在交互設計上不斷提升優化。
同時,為了進一步提高對話式 AI 領域的技術領先優勢,DuerOS 最新的普羅米修斯計劃正式起航,這個計劃包含開放超大規模對話式 AI 數據集、跨學科合作等多種計劃,以及一個 100 萬美元的基金用以鼓勵和培養對話式 AI 領域的優秀項目和人才。
DuerOS 將推動對話式人工智能在產、學、研三方面全面發展。喚醒萬物、全面領跑語音智能行業的 DuerOS 將最有能力成為那個為智能創造更多可能的平臺。

展望
過去的 4 個月,是整個語音智能行業特別突飛猛進的 4 個月。國外,Google 推出了智能音箱全家桶,亞馬遜發布了二代 Echo 并推進 Alexa 技能付費政策,蘋果供應商爆料 HomePod 將搭載 Face ID,Sony 等廠商也相繼推出帶屏幕的智能音箱。這些都是特別好的信號,巨頭推動產業變革的速度,總能超出人們的想象。
國內,一個雙 11 將百箱大戰推到了一個新高度。產品公司積極的向普通消費者普及智能音箱,在家里、在車上、在酒店,場景化的對話式人機交互已經無處不在。另一方面,平臺公司則面向開發者,相繼開放了自己的語音智能平臺能力,開發者申請開發板和參與技術沙龍的熱情高漲。整個行業保持的這種熱情,推動著人機交互的變革走進每一個家庭,讓對話式 AI 成為一個生活必需品。
這是一個最好的時代。要成為時代的領跑者,不僅要成為披荊斬棘的創新者和開拓者,更需要成為縱橫捭闔的整合者。百度是國內最早進入、最大投入、最完整布局的 AI 公司。作為百度 AI 能力和資源集大成者的一個縮影,以及對話式人工智能的一個縮影,DuerOS 充分發揮了可以貫穿技術、產品、平臺、生態的垂直整合能力。
我們期待著 DuerOS 能為整個語音智能行業帶來的勃勃生機。