国产亲妺妺乱的性视频播放,9797WWW成人影片,99精品国产在热久久无毒不卡 ,西方37大但人文艺术人山踪林

Uploads%2farticles%2f13991%2fcover
|
2020-04-22

離線語音從場景到設備再到芯片,聽 5 位行業大佬解讀端上 AI 的共性和趨勢 | 特稿

灣里對話:Sonos、云知聲、Rokid、思必馳、全志科技

本文為深圳灣的一期特別策劃,來自 Sonos、思必馳、云知聲、Rokid、全志科技、Arm 中國的 5 位專家,將為我們解讀關于離線語音助理的熱點話題。同時,他們的觀點和洞見,也讓我們看到了從設備端到芯片再到 IP 內核,下一代語音 AI 平臺和技術的發展趨勢

從 3 起語音助手初創公司的收購案說起

蘋果近日宣布收購了愛爾蘭的語音 AI 初創公司 Voysis。Voysis 成立于 2012 年,曾面向零售商推出了一個獨立的語音平臺,通過對用戶數據庫中產品、服務和詞匯的深度學習,實現在較小的內存里實現 AI 的自然語言對話。

蘋果公司可能會利用 Voysis 的技術來提高 Siri 對自然語言的理解能力,或者將 Voysis 平臺提供給開發者,以改善 Siri 與應用的協作方式。

△ Voysis 面向零售商推出的語音助手,可以實現更精準的搜索


而就在今年 1 月,蘋果以約 2 億美元的價格收購了另一家 AI 初創公司 Xnor。Xnor 面向智能設備,推出了低功耗機器學習技術,可以在離線的情況下運行。

Xnor 和 Voysis 有相似之處,可以在很低的功耗或很小的內存下幫助智能設備實現離線語音。而離線是蘋果公司感興趣的,離線可以幫助設備更好的實現隱私。

△ 智能家居設備商 Wyze 在攝像頭上采用了 Xnor 的離線 AI 技術,可以實現人臉、寵物、灰塵識別


蘋果的兩起收購案,無疑為我們帶來了信號,是時候要幫助 Siri 成長了。

無獨有偶,去年 11 月,音響界的蘋果 Sonos 公司宣布以 3750 萬美元的價格,完成了對語音助手初創公司 Snips 的收購

Snips 是一個來自法國巴黎的語音助手初創公司,成立于 2013 年。通過 Snips 的離線語音平臺,打造可以直接在設備端運行、無需將信息傳輸到云端的語音助手。這一主打離線操作語音平臺也正是 Sonos 收購 Snips 的最重要原因。

△ Snips 語音平臺


離線語音助理:更快的響應速度、更好的隱私保護、更自然的語音理解、更分散的使用場景、更細化的社會分工

去年深圳灣曾經與 Sonos 大中華區戰略合作副總裁張維明有過一次對話,談及 Sonos 收購 Snips 背后的思考。

一方面,隨著家庭里的智能設備數量越來越多,設備需要穩定和高效的響應速度,用戶也需要更好的隱私保護,而離線語音便是保障這兩點的解決方案,離線語音是大勢所趨。

另一方面,Sonos 也不需要一個全能型的 AI 助手,Sonos 所打造的智能音箱與 Echo 等智能音箱有著本質的區別,后者帶有明顯的「入口化」和「多媒體化」特點,而 Sonos 更關注的是音樂體驗本身,而語音助手更像是一個個面向垂直場景的離線語音控制指令集

△ Sonos Beam,支持 Alexa、Google Assistant、Siri 和 Rokid 等多個語音助手


就拿語音點播這一個場景舉例,Sonos 希望能把體驗做到深處,或許打造更多適合垂直使用場景的音樂技能,甚至也有可能把語音指令做到類似 Spotify 這樣的內容里面,實現體驗入微的內容點播,這正是 Sonos 希望能帶給大家的極致音樂體驗的一個例子。

思必馳創始人、首席科學家俞凱則認為,近期有關邊緣計算的收購案很多,實際上是端上 AI。端上 AI 和邊緣計算是兩個概念,雖然都不需要經過云端,但邊緣計算是在局域網和類局域網的邊緣終端上進行的,而蘋果和 Sonos 這些消費電子廠商在做的是端上 AI。

各家企業提出的「云+端」是普適的發展線路,云端比較集中,端上比較分散,無論是設備、技術、還是所提供的服務種類。針對端上的普適性語音助手的技術目前還不明確,大公司從布局的角度上,會選擇收購小公司,來盡可能覆蓋不同的設備場景。

對于蘋果公司來講,最典型的場景就是本地助理。早在 2011 年 Siri 面世,語音助理的概念被拓展的很寬泛,而如今則面臨一個助理分散化的趨勢。蘋果的幾宗收購案的共性是,聚焦在生活類場景,與實際的業務邏輯結合在一起。

這里還看到一個趨勢——數字助理的行業化,是自然而然發生的。就像人類的社會分工,隨著物質文明的進步,有專門的人鉆研專門的知識。而隨著數字助理的發展,也會有針對不同行業和領域的專門分工,有的公司做通用的數字助理,有的則選擇垂直領域深鉆。

△ 思必馳低功耗模組


端上語音交互:從云端到芯片,小型化,與業務邏輯深度整合,ASR、TTS、NLP 將成為標配

對于端上 AI 交互的發展趨勢,思必馳俞凱也為我們做了總結。他認為,端上語音助理的小型化是現在的趨勢。一方面,技術層面上,識別、合成、理解的模型都要做到足夠小,另一方面,結合業務邏輯,小場景,理解能力更強。

端上 AI 并不是簡單在將云端的技術拿來在端上跑,雖然技術種類并沒有區別,但難度更大,比如,端上可以識別語音的范圍和種類受限。其次,端上語音 AI 的更新和定制,是要難于云端的,端上的深度學習更難。

談及趨勢,云知聲董事長、CTO 梁家恩認為,語音交互和硬件深度融合,結合低功耗邊緣計算加速能力,是大勢所趨,這是也是云知聲做 AI 芯片的邏輯依據。

各家 AIoT 平臺必然是「云+芯」結合的形態出現,感知和生成層面工作,基本上會在本地完成,云端解決協同和在線服務的問題。大公司基本上會圍繞自己業務構建 AI 體系,獨立第三方平臺主要是面向中小企業和垂直化尋求發展。

梁家恩還指出,當前,離線挑戰在于低資源、低功耗情況下保持高性能、低成本,減少環境復雜和模型壓縮帶來的精度損失。語音成為 IoT 設備的交互標配是大勢所趨,邊緣計算能力也成為必要條件。

Rokid 副總裁周軍認為,隨著模型小型化技術的進展,端側可以用非常小的運算資源運行非常優秀的推理模型。比如在一個 DSP 上跑語音信號處理與多達 50 個離線命令詞,噪聲下可以達到 90% 以上識別率。

目前,端側的語音識別(ASR)、語音合成(TTS)、甚至自然語言理解(NLP)占用的內存和運算資源還比較高,這也是創業公司的機會,通過創新的算法、模型設計以及新的芯片架構來解決。

△ Rokid 在 2018 年量產的 Kamino18 異構架構 DSP+NPU+CPU 至今還有很強的競爭力。


端側的 AI 訓練也將是一個趨勢,通過自學習進一步提高智能。此外,除了離線語音,未來也會與離線視覺/圖像/環境理解結合,創造出更有意思的產品。

當然端側還是需要與云端配合,實現多用戶協作,比如可以針對行業用戶,定制智能 SaaS 服務。

△ 可實現離線語音操作的 Rokid Glass 2

離線語音在很多場景會成為一個標配,不僅是智能音箱,AR 眼鏡也將是剛需。Rokid Glass可以在惡劣的工業環境下,無聯網下全語音操作。


離線 AI 芯片架構的設計趨勢:多重異構、高質量的周邊 IP 配套、大算力、低功耗

近日,全志科技聯合 Arm 中國推出了采用 AI 專核(周易 AIPU)跑智能語音的芯片 R329,它集成了 AIPU、DSP、CPU、雙核 HIFI4 共 5 顆計算核,其最大的優勢是在精度和算法移植的速度上的優化上,以及在設備端體現出來的低功耗、長續航、小型化、可擴展性等特點。

全志科技副總裁陳風則認為,語音識別(ASR)技術在大多數家居場景已經達到了實用程度,短期內再有大幅度提升不太現實,而「人工智障」的問題還有很大的改善空間,因此接下來的提升重點在于語義理解(NLP)。

NLP 的提升需要更高的深度學習算力,這就需要更強算力、更高能耗比的芯片支持。這意味著客戶對芯片的深度學習算力、以及能耗比要求,都有了指數級的提升。對于芯片而言,集成音頻 DSP 和音頻 NPU 的需求已經出現,發展趨勢非常明確。

本地 NLP 需要本地 ASR、本地 TTS 以及傳統信號處理的配合,才能實現一個完整的端側語音識別功能,對應芯片的需求就是需要音頻 DSP 和音頻 NPU 的標配支持。

有很多人會關心,除了語音,離線 AI 是否還有更大的拓展空間?陳風認為,現有通用 AP 用于離線 AI,還有一些地方不盡如人意,目前市場上誰先推出集成了音頻 NPU 的芯片,將更有可能在這個需求明確的市場上建立領導地位。

現在 NPU 市場百花齊放,導致算法公司和客戶存在大量的適配和優化工作,NPU 市場現階段呈現碎片化狀態形式。

未來,離線 AI 芯片架構的設計將具備以下幾個特征:

1、支持多重異構:音頻 DSP、音頻 NPU 不可或缺,本地 ASR、NLP、TTS 均是基于深度學習的算法,降噪、回聲消除等前端音頻信號處理也在快速往深度學習算力上轉移。

2、高質量的周邊 IP 配套,如高精度多路 ADC、DAC 配套,多路 I2C/TDM、DMIC、SPDIF、UART 支持等。

3、兼具大算力和低功耗兩大特性,以實現帶電池設備的待機可喚醒,需要至少配備不小于 2MB 容量的 SRAM,低功耗狀態下的內存帶寬需要至少大于 600MB/S。

下一代語音 AI 平臺和技術的趨勢:場景化、全鏈路、軟硬結合、高度可定制、云+芯

毋庸置疑,離線語音將成為 IoT 設備的標配,逐漸在市場普及。

離線語音交互在家電家居市場已廣泛落地

離線語音的落地是有層次的。思必馳俞凱認為,首先是完成基本的命令控制、設備交互;之后,基于對設備隱私的保護,大詞匯的語音合成、理解、識別將逐步在設備端實現。

需要強調的是,離線語音是不好作為獨立的產品形態存在的,需要與云端能力結合,需要有一定的離在線結合能力,否則,語音助理是無法進化的。而未來語音助理的自學習、自進化能力是非常重要的

在俞凱看來,下一代語音 AI 技術的發展,有兩個趨勢:1、場景化,未來會有越來越多的應用型公司;2、全鏈路、軟硬結合、高度可定制、「云+芯」等綜合技術的整合。

而隨著 AI 產業的分化會越來越專業化,思必馳將會進一步夯實全鏈路的技術平臺,將場景級的賦能做到極致。


要點回顧

  1. Sonos 不需要一個全能型的 AI 助手,而更關注的是音樂體驗本身。在類似語音點播這個具體場景,把體驗做到深處。

  2. Siri 把語音助理的概念拓展的很寬泛,而如今則面臨一個助理分散化的趨勢。蘋果從布局的角度上,通過收購語音初創公司,來盡可能覆蓋不同的設備場景。

  3. 端上語音助理的小型化是現在的趨勢。一方面,技術層面上,識別、合成、理解的模型都要做到足夠小,另一方面,結合業務邏輯,小場景,理解能力更強。

  4. 離線挑戰在于低資源、低功耗情況下保持高性能、低成本,減少環境復雜和模型壓縮帶來的精度損失。

  5. 端側的 AI 訓練也將是一個趨勢,通過自學習進一步提高智能。此外,除了離線語音,未來也會與離線視覺/圖像/環境理解結合,創造出更有意思的產品。

  6. 對于芯片而言,集成音頻 DSP 和音頻 NPU 的需求已經出現,發展趨勢非常明確。

  7. 未來,離線 AI 芯片架構的設計將具備以下幾個特征:支持多重異構、高質量的周邊 IP 配套、兼具大算力和低功耗兩大特性。

  8. 離線語音的落地是有層次的。首先是完成基本的命令控制、設備交互;之后,基于對設備隱私的保護,大詞匯的語音合成、理解、識別將逐步在設備端實現。未來語音助理的自學習、自進化能力是非常重要的。

  9. 離線語音將成為 IoT 設備的標配。


微信號:shenzhenware

主筆:陳壹零 / 深圳灣

編輯:森林木 / 深圳灣

B5
611658217 2020-04-22 23:00

端側語言自然、流暢、實時交互即將實現,未來生活更美好、更便捷,【表情】

>>
Back to top btn
主站蜘蛛池模板: 祁门县| 湖南省| 清镇市| 新和县| 改则县| 泰州市| 喀什市| 温州市| 博兴县| 昌黎县| 姚安县| 罗源县| 绥德县| 钦州市| 尉犁县| 合山市| 吴忠市| 诸暨市| 香港| 如皋市| 阜南县| 海安县| 沁源县| 白城市| 昆明市| 门源| 商河县| 宜宾县| 全南县| 韩城市| 威信县| 庆安县| 垫江县| 曲阳县| 云阳县| 凭祥市| 天柱县| 原阳县| 云阳县| 和林格尔县| 宁津县|