Uploads%2farticles%2f12545%2f42429930235 b13a6689ec k

2018-07-16

虛擬主播、智能硬件… AI 的下一個應用突破會在哪里 | 對話搜狗王小川

我們認為，靠技術創新，可以獲得巨大的市場份額。

和國內 BAT 大型發布會高唱 AI 賦能各種場景的論調不太一致的地方，是華爾街對于 AI 的態度：回歸冷靜，伴隨對 AI 公司的投資放緩、估值下移。

在上周香港召開的 RISE 大會上，微軟、亞馬遜、LINE、索菲亞機器人等領軍企業帶著數十家高唱 AI 的企業，在 keynote 和圓桌環節悉數登場。其中就包含行業明星和新秀，與老練穩重的老牌巨頭相比，他們展示了獨有的活力，與參會者積極的討論下一個科技熱潮。

同樣亮相 RISE 大會的搜狗，則在大會上發布了全球首個高度實用化、定制化的虛擬主播。不需要主播本人的出境，只需要央視新聞主播姚雪松 1.5 個小時的音視頻數據，結合語音、圖像等多模態信息進行聯合建模訓練，輸入一段 RISE 大會文字稿，就可以快速預測生成與真人無異的播報效果。（觀看以下視頻了解實況）

在「兜售」了一遍搜狗以語言為核心的 AI 戰略布局后，搜狗出人意料地在大會上爆料，將在年底前發布 4 款新的智能硬件。

帶著一些對于 AI 落地的疑問，深圳灣發起了一次與王小川的對話。

是嗎？AI 已經沒有那么吃香了？

在人工智能方面，我認為中國還是有機會跟美國在應用層面上齊頭并進。

2018 年 3 月 5 日，人工智能產業第二次被寫入政府工作報告。據統計，2017 年中國人工智能核心產業規模超過 700 億元，隨著各地人工智能建設的逐步啟動，預計到 2020 年，中國人工智能核心產業規模將超過 1600 億元，年復合增長率將達 31.7%。

事實上，人工智能不是一個新課題，上個世紀 60 年代、80 年代就分別有兩波人工智能熱潮。不同于以往人工智能只存在于高校，現在參與人工智能的企業數是過去的數倍，可以說，現在人工智能才開始真正走向了實用。

在目前的中國經濟體系中，互聯網是最有創新活力的一個版塊，擁有著龐大的用戶規模。而以這個群體為核心，中國在人工智能應用領域具備很大優勢。這些互聯網公司有大量的數據，有足夠的資金和創新動力，也能吸引不少工程師人才，甚至是美國的頂尖科學家。

在技術研究方面，中國略顯薄弱。好在目前全球是一個知識共享體系，在有最前沿的人工智能論文出來之后，我們很快就能學習到新的學術成果，并將之轉化成生產力。因此，在人工智能應用層面上，我認為中國還是有機會跟美國齊頭并進的。

那么，AI 的下一個應用突破會在哪里？

我們已看到當前最熱的「智能音箱大戰」...這些事情背后有一個共同點——讓人工智能開始去解決語言的問題。

在這一年間，人工智能領域有許多新的突破。包括當前最熱「智能音箱大戰」，以及其他「黑科技」。例如，Google 在今年 I/O 大會上提出，讓機器幫助人打電話預訂餐廳等。所有這些事情背后都有一個共同點，那就是讓人工智能開始去解決語言的問題。

我認為以后 AI 會融入到方方面面，并呈現這樣一個消費趨勢——機器越來越懂人，而不是人去適應機器。比如，從以前的五筆輸入法到現在的拼音、語音輸入，就是一個從人適應機器到機器適應人的一個典例。

未來的 AI，應該可以做到讓人和機器更自然地交流，變得更聰明且能幫人類處理更多的工作。人工智能可能會在以下幾個領域率先有所發展：

一是識別。比如涉及到大量識別工作的安防領域。
二是商業智能，即讓機器智能做出決策判斷。比如在投資等一些領域，讓機器做出比人類更高效、可靠的判斷。
三是在娛樂產業。人類需要享受藝術和文化生活，而目前包括畫作、音樂、影視劇、游戲等在內的相關作品都由人創作。未來在 AI 的幫助下，創作效率可以得到極大的提高，為人類提供更好的娛樂產品。
另外在這些垂直領域，AI 也會有大的突破：一個是醫療，一個是電商和客服。

僅 1.5 小時的數據訓練，就能生成虛擬主播，搜狗家的技術優勢在哪里？

這是全球首款高實用化、定制化的虛擬主播，采用搜狗業界領先的語音合成、唇語合成、音視頻聯合建模、深度學習等技術。

在本次大會（RISE）亮相的虛擬主播是全球首款高實用化、定制化的虛擬主播，目前市面上還沒有類似的產品。

它采用了搜狗在語音合成、唇語合成、音視頻聯合建模、深度學習等技術的研究成果。采用一個主播的音視頻數據，結合語音、圖像等多模態信息進行聯合建模訓練，給機器輸入一段文字，便可以生成一段音視頻同步的新聞播報。

其最大的難點在于，經過真人主播 1.5 小時的數據訓練后，僅提供一段文本，機器要通過虛擬主播技術來生成逼真度極高的視頻，并且還要確保視頻中主播的音頻和臉部表情、唇動能夠自然且一致。

至于技術優勢方面，早在 2012 年，搜狗就開始研究語音合成技術，經過多年的技術沉淀和數據積累，目前已具備多語種、多音色的語音合成能力，并在業內首推個性化語音合成和情感遷移的技術。用戶上傳少量音頻，即可合成高質量的個性化音色，并且能快速遷移成多種講話風格（相聲貫口、唱歌、繞口令等）。

未來，搜狗會在虛擬主播情感表達上做更深入的研究，讓虛擬主播的真實感得到提升。結合搜狗語音交互系統知音 OS 能力，我們可以讓虛擬主播具備交互能力。例如用在帶屏幕的智能音箱，虛擬主播就可以發展成為虛擬私人助理，用戶可以從單純與聲音交互變成與一個逼真的虛擬人物交互。

這么多很牛的技術，具體會應用在哪里？

搜狗希望可以讓人和機器的交互更自然。接下來我們會推出更完整的虛擬主播，它能跟你在互動時開始具有自己的表情，甚至模仿具體的人的聲音跟你去互動，跟用戶的交互更自然親切。

自然交互方面，搜狗涉及的技術包括語音識別與合成、圖像識別與合成等。其中，搜狗中文語音識別準確率已經做到 98%。

目前，搜狗輸入法已經是中國最大的語音輸入引擎，為我們的語音交互研究積累了大量語料和用戶行為基礎。接下來，我們會把更多的工作聚焦到語種、方言、麥克風矩陣，以及語音的糾錯修改等。

除了語音識別以外，我們開始嘗試對于表情做更多的理解，其中包括：

唇語識別，即機器通過圖像識別捕捉人嘴唇運動，并建立識別模型。搜狗中文唇語識別技術在垂直應用領域中的準確率超過 90%。

情感遷移技術，即生成相同音色，實現個性化語音合成。這一技術對聲音結構，主要在風格、音色等方面，有更深層次的理解。

基于以上幾項技術聯合建模，接下來我們會推出更完整的虛擬主播，它能跟你在互動時具備自己的表情，甚至模仿具體的人的聲音跟你去互動，從而跟用戶的交互變得更自然親切。

這么多很牛的技術，怎么賺錢？

我們認為，靠技術創新，可以獲得巨大的市場份額。

過去，搜狗主要依靠搜索廣告盈利，提供的是人和信息的服務。伴隨 AI 技術的應用，用戶能夠與機器進行更自然的語言交互。另外，機器通過計算，對語言邏輯進行處理，能給用戶提供更精準的答案。

在 AI 技術的幫助下，這一模式會獲得更大的增值。這一競爭力的直接體現就在于收入的提升。我們認為，靠技術創新，可以獲得巨大的市場份額。

概括來講，我們的盈利現在分成三大部分：

搜索引擎：搜狗在國內占有 18% 的市場份額，一年收入規模達到 60 億。
搜狗輸入法：幫助中國人更好的用中文表達自己的想法，目前，搜狗輸入法在中國 PC 和手機上都處于相對壟斷的位置。
翻譯：今年我們推出了新的智能硬件，搜狗旅行翻譯寶和搜狗錄音翻譯筆，兩款以 AI 翻譯為核心，能夠幫大家解決語言問題的產品。這些產品和搜狗的輸入法是一脈相承的，也是幫大家表達和獲取信息，而范圍從表達中文，獲取中文信息，擴展到了獲取全世界的信息，和全世界對話。

另外，在電商和客服等垂直行業，我們會尋求更大的突破。例如通過人機結合，幫助電商人員更好的表達他們的想法，從而更方便的提供電商咨詢等服務。