全系標(biāo)配滿級防水,OPPO A5 系列新品正式發(fā)布

哈曼宋柏勛:人機(jī)交互和人際溝通畢竟不同,語音到底怎樣做才算自然?| WARE 2017
盡管語音智能在追求像人一樣的自然交互,但人際溝通和人機(jī)交互畢竟還有許多差異的。
「我們談?wù)Z音交互的時(shí)候,說的當(dāng)然是人用語音跟機(jī)器交互。但現(xiàn)在我們思考的是,如何讓人與機(jī)器的交互方式回歸到像人與人交談一樣自然,這才是我們發(fā)展技術(shù)想要追求的目的。」
在深圳灣「WARE 2017 語音智能平臺與應(yīng)用峰會 第 II 季」上,哈曼(Harman)麥克風(fēng)系統(tǒng)負(fù)責(zé)人宋柏勛比較了人際語言溝通和人機(jī)語音交互之間的異同,從語音交互的需求、人機(jī)聽覺的差異、以及聲音信號的處理等方面,淺析了如何讓人機(jī)語音交互更接近人與人自然對話的問題。
自然的交互≠完全相同
「現(xiàn)在語音技術(shù)的努力方向,主要還是在聽懂人在說什么,層面停留在人對機(jī)器的控制。」宋柏勛說,「而未來的需求則是要讓機(jī)器更了解你,帶有人與人交談的情緒性,知道你是誰,知道與你互動(dòng)與其他人互動(dòng)是不同的。」
盡管語音智能在追求像人一樣的自然交互,但人際溝通和人機(jī)交互畢竟還有許多差異的。
人機(jī)交互需要高的識別率,需要語音方面的強(qiáng)化,能夠通過聲紋識別分辨不同的對象,同時(shí),還要求機(jī)器的可控。
「比如你讓它關(guān)電視它就要關(guān)電視,說了三遍它還沒反應(yīng)你就覺得產(chǎn)品有問題了。」宋柏勛說,但人與人交談的重點(diǎn)則并不是追求這種絕對的控制。
人與人的交談,除了需要清晰的語音,還帶有情緒性,這種情緒語氣本身也在傳遞信息。此外,在聆聽的專注性上,人可以有意識地進(jìn)行選擇。
二者的這些方面的差異,有的需要彌合從而增強(qiáng)人機(jī)語音交互的自然程度,而有的則是基于交互對象的固有差異,如何區(qū)分和兼顧這兩種差異,是實(shí)現(xiàn)自然語言交互的關(guān)鍵。
大腦并不是這樣「聽」的
現(xiàn)在的語音識別技術(shù),多數(shù)是通過分析下圖這樣的聲音頻譜特征來識別語言內(nèi)容。

「但人的聽覺感知可不是這樣基于聲音頻譜做傅里葉分析。」宋柏勛說,「人的聽覺是聲音引起耳蝸內(nèi)基底膜振動(dòng),產(chǎn)生神經(jīng)細(xì)胞興奮將振動(dòng)轉(zhuǎn)化為脈沖電信號,傳遞到大腦的聽覺皮質(zhì)來解析。」這與現(xiàn)在語音識別技術(shù)中使用的方式是十分不同的。
「我們嘗試用信號處理、機(jī)器學(xué)習(xí)等技術(shù)解決聲音上的問題,需要花費(fèi)大量的資源,是因?yàn)槲覀冊诩夹g(shù)上認(rèn)知的聲音特征和大腦所認(rèn)知的是十分不同的,大腦感知聲音的方式在另一維度上。」
「這也是為什么人只要用兩只耳朵,就能在復(fù)雜的空間識別不同的聲音,在多個(gè)人講話的時(shí)候,專注聆聽其中一個(gè)人。這與人耳的構(gòu)造、聲音信號傳遞過程中的控制和處理都密切相關(guān)。」

「這個(gè)過程中的聲音信號處理十分復(fù)雜,但神經(jīng)心理等學(xué)科的研究已經(jīng)發(fā)現(xiàn)這個(gè)過程中的許多機(jī)制,并試圖通過算法把這個(gè)復(fù)雜的機(jī)制轉(zhuǎn)化為可實(shí)現(xiàn)的信號處理方式,這是為復(fù)雜的聲音環(huán)境創(chuàng)造出更好信息處理方式的重要方向。」
哈曼想做的是人工智能的耳朵
作為一家一直深度鉆研聲音的傳統(tǒng)音頻廠商,哈曼試圖做的,就是在語音智能體系中為人工智能提供足夠好的「耳朵」和「嘴巴」,這也是哈曼公布 SONIQUE 語音識別方案的初衷。

「盡管語音智能在市場上已經(jīng)開始興起,但在制造上,在如何控制好音質(zhì),如何自定義規(guī)格,以及好與不好的標(biāo)準(zhǔn)制定等方面都還面臨著挑戰(zhàn)。」
針對不同應(yīng)用場景,哈曼開發(fā)了一系列麥克風(fēng)元件和專門為語音識別設(shè)計(jì)的低失真喇叭,通過硬件和算法的搭配在不同場景下實(shí)現(xiàn)性能優(yōu)秀的聲學(xué)解決方案。



而在未來應(yīng)用方向上,語音除了作為人工智能的交互接口,進(jìn)行語音控制、語音通話等功能外,宋柏勛還特別提到了基于聲紋識別的個(gè)人化的重要性。最后,宋柏勛總結(jié)說,未來智能語音產(chǎn)業(yè)的發(fā)展重點(diǎn),將落在訊號處理與機(jī)器學(xué)習(xí)的融合、市場專業(yè)分工化、產(chǎn)品落地與產(chǎn)業(yè)供應(yīng)鏈完善、人機(jī)交互體驗(yàn)的提升以及人才的培養(yǎng)等多個(gè)方面。