速記和同傳可以轉行了,搜狗 398 元的錄音翻譯筆現已開售

虛擬主播、智能硬件… AI 的下一個應用突破會在哪里 | 對話搜狗王小川
我們認為,靠技術創新,可以獲得巨大的市場份額。
和國內 BAT 大型發布會高唱 AI 賦能各種場景的論調不太一致的地方,是華爾街對于 AI 的態度:回歸冷靜,伴隨對 AI 公司的投資放緩、估值下移。
在上周香港召開的 RISE 大會上,微軟、亞馬遜、LINE、索菲亞機器人等領軍企業帶著數十家高唱 AI 的企業,在 keynote 和圓桌環節悉數登場。其中就包含行業明星和新秀,與老練穩重的老牌巨頭相比,他們展示了獨有的活力,與參會者積極的討論下一個科技熱潮。
同樣亮相 RISE 大會的搜狗,則在大會上發布了全球首個高度實用化、定制化的虛擬主播。不需要主播本人的出境,只需要央視新聞主播姚雪松 1.5 個小時的音視頻數據,結合語音、圖像等多模態信息進行聯合建模訓練,輸入一段 RISE 大會文字稿,就可以快速預測生成與真人無異的播報效果。(觀看以下視頻了解實況)
在「兜售」了一遍搜狗以語言為核心的 AI 戰略布局后,搜狗出人意料地在大會上爆料,將在年底前發布 4 款新的智能硬件。
帶著一些對于 AI 落地的疑問,深圳灣發起了一次與王小川的對話。
是嗎?AI 已經沒有那么吃香了?
在人工智能方面,我認為中國還是有機會跟美國在應用層面上齊頭并進。
2018 年 3 月 5 日,人工智能產業第二次被寫入政府工作報告。據統計,2017 年中國人工智能核心產業規模超過 700 億元,隨著各地人工智能建設的逐步啟動,預計到 2020 年,中國人工智能核心產業規模將超過 1600 億元,年復合增長率將達 31.7%。
事實上,人工智能不是一個新課題,上個世紀 60 年代、80 年代就分別有兩波人工智能熱潮。不同于以往人工智能只存在于高校,現在參與人工智能的企業數是過去的數倍,可以說,現在人工智能才開始真正走向了實用。
在目前的中國經濟體系中,互聯網是最有創新活力的一個版塊,擁有著龐大的用戶規模。而以這個群體為核心,中國在人工智能應用領域具備很大優勢。這些互聯網公司有大量的數據,有足夠的資金和創新動力,也能吸引不少工程師人才,甚至是美國的頂尖科學家。
在技術研究方面,中國略顯薄弱。好在目前全球是一個知識共享體系,在有最前沿的人工智能論文出來之后,我們很快就能學習到新的學術成果,并將之轉化成生產力。因此,在人工智能應用層面上,我認為中國還是有機會跟美國齊頭并進的。
那么,AI 的下一個應用突破會在哪里?
我們已看到當前最熱的「智能音箱大戰」...這些事情背后有一個共同點——讓人工智能開始去解決語言的問題。
在這一年間,人工智能領域有許多新的突破。包括當前最熱「智能音箱大戰」,以及其他「黑科技」。例如,Google 在今年 I/O 大會上提出,讓機器幫助人打電話預訂餐廳等。所有這些事情背后都有一個共同點,那就是讓人工智能開始去解決語言的問題。
我認為以后 AI 會融入到方方面面,并呈現這樣一個消費趨勢——機器越來越懂人,而不是人去適應機器。比如,從以前的五筆輸入法到現在的拼音、語音輸入,就是一個從人適應機器到機器適應人的一個典例。
未來的 AI,應該可以做到讓人和機器更自然地交流,變得更聰明且能幫人類處理更多的工作。人工智能可能會在以下幾個領域率先有所發展:
- 一是識別。比如涉及到大量識別工作的安防領域。
- 二是商業智能,即讓機器智能做出決策判斷。比如在投資等一些領域,讓機器做出比人類更高效、可靠的判斷。
- 三是在娛樂產業。人類需要享受藝術和文化生活,而目前包括畫作、音樂、影視劇、游戲等在內的相關作品都由人創作。未來在 AI 的幫助下,創作效率可以得到極大的提高,為人類提供更好的娛樂產品。
- 另外在這些垂直領域,AI 也會有大的突破:一個是醫療,一個是電商和客服。
僅 1.5 小時的數據訓練,就能生成虛擬主播,搜狗家的技術優勢在哪里?
這是全球首款高實用化、定制化的虛擬主播,采用搜狗業界領先的語音合成、唇語合成、音視頻聯合建模、深度學習等技術。
在本次大會(RISE)亮相的虛擬主播是全球首款高實用化、定制化的虛擬主播,目前市面上還沒有類似的產品。
它采用了搜狗在語音合成、唇語合成、音視頻聯合建模、深度學習等技術的研究成果。采用一個主播的音視頻數據,結合語音、圖像等多模態信息進行聯合建模訓練,給機器輸入一段文字,便可以生成一段音視頻同步的新聞播報。
其最大的難點在于,經過真人主播 1.5 小時的數據訓練后,僅提供一段文本,機器要通過虛擬主播技術來生成逼真度極高的視頻,并且還要確保視頻中主播的音頻和臉部表情、唇動能夠自然且一致。

至于技術優勢方面,早在 2012 年,搜狗就開始研究語音合成技術,經過多年的技術沉淀和數據積累,目前已具備多語種、多音色的語音合成能力,并在業內首推個性化語音合成和情感遷移的技術。用戶上傳少量音頻,即可合成高質量的個性化音色,并且能快速遷移成多種講話風格(相聲貫口、唱歌、繞口令等)。
未來,搜狗會在虛擬主播情感表達上做更深入的研究,讓虛擬主播的真實感得到提升。結合搜狗語音交互系統知音 OS 能力,我們可以讓虛擬主播具備交互能力。例如用在帶屏幕的智能音箱,虛擬主播就可以發展成為虛擬私人助理,用戶可以從單純與聲音交互變成與一個逼真的虛擬人物交互。
這么多很牛的技術,具體會應用在哪里?
搜狗希望可以讓人和機器的交互更自然。接下來我們會推出更完整的虛擬主播,它能跟你在互動時開始具有自己的表情,甚至模仿具體的人的聲音跟你去互動,跟用戶的交互更自然親切。
自然交互方面,搜狗涉及的技術包括語音識別與合成、圖像識別與合成等。其中,搜狗中文語音識別準確率已經做到 98%。
目前,搜狗輸入法已經是中國最大的語音輸入引擎,為我們的語音交互研究積累了大量語料和用戶行為基礎。接下來,我們會把更多的工作聚焦到語種、方言、麥克風矩陣,以及語音的糾錯修改等。
除了語音識別以外,我們開始嘗試對于表情做更多的理解,其中包括:
唇語識別,即機器通過圖像識別捕捉人嘴唇運動,并建立識別模型。搜狗中文唇語識別技術在垂直應用領域中的準確率超過 90%。
情感遷移技術,即生成相同音色,實現個性化語音合成。這一技術對聲音結構,主要在風格、音色等方面,有更深層次的理解。
基于以上幾項技術聯合建模,接下來我們會推出更完整的虛擬主播,它能跟你在互動時具備自己的表情,甚至模仿具體的人的聲音跟你去互動,從而跟用戶的交互變得更自然親切。

這么多很牛的技術,怎么賺錢?
我們認為,靠技術創新,可以獲得巨大的市場份額。
過去,搜狗主要依靠搜索廣告盈利,提供的是人和信息的服務。伴隨 AI 技術的應用,用戶能夠與機器進行更自然的語言交互。另外,機器通過計算,對語言邏輯進行處理,能給用戶提供更精準的答案。
在 AI 技術的幫助下,這一模式會獲得更大的增值。這一競爭力的直接體現就在于收入的提升。我們認為,靠技術創新,可以獲得巨大的市場份額。
概括來講,我們的盈利現在分成三大部分:
- 搜索引擎:搜狗在國內占有 18% 的市場份額,一年收入規模達到 60 億。
- 搜狗輸入法:幫助中國人更好的用中文表達自己的想法,目前,搜狗輸入法在中國 PC 和手機上都處于相對壟斷的位置。
- 翻譯:今年我們推出了新的智能硬件,搜狗旅行翻譯寶和搜狗錄音翻譯筆,兩款以 AI 翻譯為核心,能夠幫大家解決語言問題的產品。這些產品和搜狗的輸入法是一脈相承的,也是幫大家表達和獲取信息,而范圍從表達中文,獲取中文信息,擴展到了獲取全世界的信息,和全世界對話。
另外,在電商和客服等垂直行業,我們會尋求更大的突破。例如通過人機結合,幫助電商人員更好的表達他們的想法,從而更方便的提供電商咨詢等服務。

從「造硬件」到「賣硬件」,搜狗這家互聯網公司有什么心得?
一個新的產品出來之后,從用戶對它有大概的認知,到真正去使用,再到去進行口碑傳播,需要一個過程。
我們知道,一個新的產品出來之后,從用戶對它有大概的認知,到真正去使用,再到去進行口碑傳播,需要一個過程。
以搜狗的翻譯寶和錄音翻譯筆這兩款產品為例,從產品角度來講,目前整個翻譯市場還是相對比較垂直、小眾。我們的翻譯類產品從推出到現在僅有幾個月時間,在這期間,用戶逐漸形成了對產品、技術、企業的認知。
最終,這兩款產品的市場反饋也都不錯:翻譯寶在首發日開售 1 小時后,各地就陸續售罄,當日銷售額突破 1000 萬;搜狗錄音翻譯筆發售前在京東平臺的預約量超過 11 萬。
未來,無論是在旅游還是在商務場景,跨語言交流市場將會巨大的發展潛力,搜狗將此作為重要目標并有所作為。

關于川總爆料今年年內還會推出 4 款新硬件,可以了解更多嗎?
可以透露的信息是,它們是以語言為核心的,2C 的、便攜性產品。
這些新產品目前還處于保密階段,可以透露的信息是,它們是以語言為核心的,2C 的、便攜性產品。
在智能硬件布局上,搜狗遵循的核心的邏輯是,產品具有核心的語音、語言交互技術,并為某個和用戶個人直接相關、真實落地的場景打造。