全系標(biāo)配滿級(jí)防水,OPPO A5 系列新品正式發(fā)布

訊飛星火版《Her》全民開(kāi)放,極速暢聊百變?nèi)嗽O(shè),情緒價(jià)值拉滿
對(duì)話科大訊飛高建清:業(yè)界首個(gè)端到端極速超擬人交互是如何煉成的?星火極速超擬人交互將在情感陪伴、機(jī)器人等場(chǎng)景大有可為
8 月 30 日,科大訊飛星火極速超擬人交互技術(shù)正式上線訊飛星火 APP,率先面向全民開(kāi)放體驗(yàn)。據(jù)了解,這是國(guó)內(nèi)首個(gè)對(duì)標(biāo) GPT-4o 語(yǔ)音的大模型產(chǎn)品,用戶可在訊飛星火 APP 中直接體驗(yàn)使用。根據(jù)官方介紹,星火極速超擬人交互在響應(yīng)和打斷速度、情緒感知情感共鳴、語(yǔ)音可控表達(dá)、人設(shè)扮演四個(gè)方面實(shí)現(xiàn)重大突破,讓整體交互體驗(yàn)更自然、更具情感。
上線當(dāng)天,科大訊飛研究院常務(wù)副院長(zhǎng)高建清針對(duì)星火極速超擬人交互技術(shù)及應(yīng)用展開(kāi)進(jìn)一步解讀,不僅剖析了星火超擬人交互的「端到端」、「共情力」等核心技術(shù)亮點(diǎn),還為公眾勾勒出技術(shù)產(chǎn)業(yè)化的愿景圖。
業(yè)界首個(gè)「端到端」的極速交互體驗(yàn)
筆者第一時(shí)間搶先體驗(yàn)星火極速超擬人交互,最直觀的感受就是響應(yīng)速度極快,支持隨時(shí)打斷,可以識(shí)別不同的情緒并代入符合情境的對(duì)話和回復(fù),絲毫沒(méi)有「機(jī)械感」與「磕巴感」,真的就像平時(shí)跟朋友或家人對(duì)話那樣隨和自然。其中,極速響應(yīng)是確保一切體驗(yàn)的基礎(chǔ),也是區(qū)別于其它語(yǔ)音產(chǎn)品的關(guān)鍵能力。
據(jù)悉,「端到端」技術(shù)框架是實(shí)現(xiàn)極速響應(yīng)的重點(diǎn)。目前在全世界范圍內(nèi),框架模型算法持續(xù)演進(jìn),國(guó)外以 GPT-4o、特斯拉 FSD 等為代表的多模態(tài)端到端方案,已被證實(shí)可進(jìn)一步提升技術(shù)效果和用戶體驗(yàn)。而科大訊飛極速超擬人交互作為業(yè)界首個(gè)端到端極速超擬人交互,通過(guò)將此前級(jí)聯(lián)方案升級(jí)為統(tǒng)一神經(jīng)網(wǎng)絡(luò),直接實(shí)現(xiàn)語(yǔ)音到語(yǔ)音的「端到端」建模,大幅縮短響應(yīng)時(shí)間,做到了真正的極速。
而人類語(yǔ)言被稱為世界上最動(dòng)聽(tīng)的語(yǔ)言,是因?yàn)榫哂歇?dú)特的情緒感染力,能夠傳達(dá)復(fù)雜的情感和思想,實(shí)現(xiàn)文明的傳承和進(jìn)化。但長(zhǎng)久以來(lái),智能語(yǔ)音與自然語(yǔ)言處理技術(shù)主要針對(duì)「內(nèi)容」模塊下功夫,比如能「聽(tīng)懂」更多的語(yǔ)種,「解答」更多的問(wèn)題,但想要獲得擬人化的對(duì)話體驗(yàn),還需要「內(nèi)容」與「情緒」等模塊協(xié)同作用。

大模型時(shí)代的到來(lái),恰好能讓不同的模塊化功能進(jìn)行「大統(tǒng)一」。高建清表示:「以往語(yǔ)音交互系統(tǒng)都是不同的模塊,比如語(yǔ)音識(shí)別、語(yǔ)音合成和大語(yǔ)言模型。而科大訊飛星火極速超擬人交互技術(shù)基于端到端大模型框架,并結(jié)合訊飛多維度語(yǔ)音屬性解耦表征訓(xùn)練模塊,實(shí)現(xiàn)情感、方言、韻律、音色等的可控,實(shí)現(xiàn)了對(duì)語(yǔ)音交互的擬人化升級(jí)。」
大模型開(kāi)始「情感共鳴」
星火極速超擬人技術(shù)還將星火大模型的「共情力」帶到了新的高度,在這次單交互系統(tǒng)上線之前,業(yè)界的交互系統(tǒng)大多沒(méi)有情感,均以中性情緒回復(fù),或者個(gè)別系統(tǒng)有這種情感,但大多停留在文本層面。而星火極速超擬人技術(shù)可以實(shí)現(xiàn)情感共鳴,當(dāng)人機(jī)對(duì)話時(shí),機(jī)器可以理解你的聲音內(nèi)容,包含情緒表達(dá)。高建清認(rèn)為,雖然目前系統(tǒng)暫時(shí)不能使用表情,但未來(lái)如果將表情、聲音內(nèi)容與聲音情緒三者結(jié)合在一起,將會(huì)是一條可行的新路徑。

星火極速超擬人語(yǔ)音的情緒感知能力,能夠感知到數(shù)十種音頻事件與情緒,比如喜怒哀樂(lè)、害怕、困惑等,AI 會(huì)以「感同身受」的方式進(jìn)行語(yǔ)言組織和情緒表達(dá)。而情感共鳴會(huì)結(jié)合聲音和內(nèi)容等不同維度,在合適的情境采用合適的情感進(jìn)行回應(yīng),比如用戶開(kāi)心的時(shí)候用笑聲呼應(yīng)心情,用戶悲傷的時(shí)候用安慰語(yǔ)氣進(jìn)行安撫,讓 AI 變得有血有肉有溫度。
共情力對(duì)于大模型是一項(xiàng)重要的基礎(chǔ)能力,或許在未來(lái)的人形機(jī)器人身上,我們將看到共情力的具象表達(dá)。比如你一進(jìn)門(mén),機(jī)器人向你笑臉相迎地問(wèn)候道,就像 1999 年科幻電影《機(jī)器管家》里面的人形機(jī)器人安德魯,讓人機(jī)之間也有情感紐帶。當(dāng)然暢想這些還為時(shí)尚早,現(xiàn)階段的星火極速超擬人交互更有另一部電影《Her》的既視感,TA 可以用笑聲回應(yīng)開(kāi)心,用急促回應(yīng)憤怒,更自然,更逼真,更還原真人對(duì)話的語(yǔ)境。
至于快速打斷功能,這也是真人對(duì)話中經(jīng)常復(fù)現(xiàn)的狀況。比如你入住酒店問(wèn)前臺(tái)客服,如果對(duì)方答非所問(wèn)肯定當(dāng)即打斷;同理,沒(méi)耐心聽(tīng) AI 講一大堆話,或者回答跑偏,立即打斷是人的生理本能。「這是個(gè)極其復(fù)雜的工程問(wèn)題,需要去判定何時(shí)打斷、何時(shí)不應(yīng)打斷,我們通過(guò)技術(shù)創(chuàng)新與強(qiáng)化底座認(rèn)知能力,解決了打斷和響應(yīng)時(shí)間平衡的問(wèn)題。」高建清說(shuō)道。
謀局未來(lái),挖掘產(chǎn)業(yè)應(yīng)用價(jià)值洼地
針對(duì)星火極速超擬人交互的未來(lái)發(fā)展,高建清表示,星火極速超擬人交互的未來(lái)計(jì)劃是「三個(gè)更多」—— 即融入更多模態(tài),具備圖片視頻模態(tài)輸入與超擬人虛擬人輸入;融入更多語(yǔ)言,增加更多語(yǔ)言、方言的語(yǔ)音交互能力和翻譯能力;以及持續(xù)拓展情感、人設(shè)種類,繼而實(shí)現(xiàn)諸如口技、唱歌等更多能力與更好體驗(yàn)。

根據(jù)中金企信國(guó)際咨詢測(cè)算的數(shù)據(jù),我國(guó)對(duì)話式人機(jī)交互核心產(chǎn)品的市場(chǎng)規(guī)模將在 2025 年達(dá)到 237 億元,直接帶動(dòng)相關(guān)產(chǎn)業(yè)規(guī)模達(dá)到 1525 億。同時(shí)語(yǔ)音語(yǔ)言技術(shù)與大模型結(jié)合將賦能更加廣闊的應(yīng)用場(chǎng)景,下游領(lǐng)域包括家電、汽車、消費(fèi)電子、金融、物流、房產(chǎn)、政務(wù)、醫(yī)療等,預(yù)計(jì)智能語(yǔ)音語(yǔ)言技術(shù)在垂直行業(yè)應(yīng)用的核心產(chǎn)品規(guī)模將在 2025 年達(dá)到 159.1 億元,帶動(dòng)相關(guān)產(chǎn)業(yè)規(guī)模達(dá)到 875.1 億元。

據(jù)高建清介紹,星火極速超擬人語(yǔ)音交互在商用領(lǐng)域大致分為三個(gè)層級(jí)。第一層是閑聊陪伴場(chǎng)景,將在兒童玩具、情感陪伴等品類上增強(qiáng)情感表達(dá)能力。第二層是機(jī)器人場(chǎng)景,結(jié)合多模態(tài)能力會(huì)加強(qiáng)產(chǎn)品競(jìng)爭(zhēng)。第三層是智能汽車、智能家電等場(chǎng)景,讓車機(jī)聊天更具情感,有助于提升車企智能化水平,包括奇瑞汽車、中國(guó)一汽、大眾汽車等車企都是訊飛星火的合作伙伴。
無(wú)論是從技術(shù)迭代角度,還是從用戶體驗(yàn)角度,星火極速超擬人交互的創(chuàng)新,正讓語(yǔ)音交互從「能用」、「好用」走向「常用」的新階段。以訊飛星火為代表的大模型創(chuàng)新,或?qū)⒅厮苷Z(yǔ)音交互領(lǐng)域,推動(dòng)語(yǔ)音產(chǎn)業(yè)新變革,帶來(lái)諸如汽車、機(jī)器人、家電等更廣闊的應(yīng)用空間,推動(dòng)萬(wàn)物互聯(lián)時(shí)代的加速到來(lái)。