Uploads%2farticles%2f14897%2f%e6%80%9d%e5%bf%85%e9%a9%b0dui%e6%a0%87%e6%b3%a8%e8%ae%ad%e7%bb%83%e4%b8%80%e4%bd%93%e5%8c%96%e5%b9%b3%e5%8f%b01

語音識別的「三大考驗」

噪聲環境。目前對語音識別效果影響最大的就是環境雜音或噪音，在公共場所中，來自四面八方的聲音會讓識別系統不知所措，實驗室環境下的優異表現可能在實際應用場景中被「吊打」。例如在高鐵、地鐵、公交等交通場景下，多種混合噪聲降低了識別效果，進而影響用戶在詢路、購票、換乘過程中的交互體驗。

專業術語。大多數垂直應用場景都有自身的專業術語和指代用詞，例如醫療場景中病癥、醫藥名，門店銷售場景中的奢侈品牌名稱、型號，公安審訊場景中的敏感詞匯，會議場景中的人名、地名等等，要求語音系統適應各種領域，還能準確識別特殊用詞不是件容易事。

多語言混合識別?！?/strong>你好小馳，hu （福）建今天天氣怎么樣？那fu（湖）南呢？」識別方言口音在生活中隨處可見，伴隨著 AI 技術拓展到了三、四線城市，智慧門店、地產售樓、汽車 4S 店等場景的應用都重在「入鄉隨俗」。此外，中英混雜、多語種等語言習慣也影響著識別效果。

場景驅動，定制模型提升識別率

思必馳推出 DUI 標注訓練一體化平臺是集成語音標注、模型自訓練、識別測試、服務部署和團隊管理于一體的一站式產品，提供數據標注-模型優化-測試評估-服務部署完整鏈路語音識別自主優化能力，支持私有化部署，協助企業在短期內實現識別效果“不可用->可用”的提升，實現快速更新響應，持續提升場景識別效果。

目前，思必馳 DUI 標注訓練一體化平臺，已在醫療、政務、航空等多個行業領域得到應用。平臺支持私有云一鍵化部署，未來也將以公有云的形式對外開放，用于語音識別優化。注冊用戶可全流程自主掌握，后續規模化的拓展也將觸類旁通。

%E6%80%9D%E5%BF%85%E9%A9%B0DUI%E6%A0%87%E6%B3%A8%E8%AE%AD%E7%BB%83%E4%B8%80%E4%BD%93%E5%8C%96%E5%B9%B3%E5%8F%B0

會議場景：會議記錄更細致

會議發言的實時轉寫、糾錯與記錄是現代辦公的強需求。會議場景下的需求可以歸納為兩方面：

1. 準確度高，即識別結果要準。行業領域常用語、專有名詞、中英文混雜、人名職位等各種詞匯篇章表述需要盡可能準確。借助平臺進行語言和熱詞模型的訓練，訓練后的模型在會議真實場景下的識別率提升至 95% 以上。另外，使用語言模型增量訓練模式，通過反復迭代，可以增強在某一個細分場景或領域下的識別效果。除此以外，大會場景下，可以針對領導發言人的用語習慣進行聲學定制，系統持續自我「進化」，模型將越用越智能。

2. 閱讀性強，即識別出的文本易于閱讀，可懂度高。會議轉寫結果通常會是篇章段落，且多含有口語化表達，因此識別結果要通俗易懂，尤其在標點斷句上要「通人性」。通過平臺的標點、順滑、斷句模型訓練可以輸出符合眾人閱讀習慣的文本。

航空通訊場景：語音質檢更安全

航空通訊比通用場景復雜，除存在諸多 QNH（海平面氣壓）類似的縮寫詞匯、專業術語外，斷句、發音方式 1 (幺)、2 (兩)、7 (拐)、0 (洞)等，也比較特殊。只有精準識別座艙內飛行員之間、或與地面塔臺間的溝通話術，才可有效確保飛行安全。用戶通過 DUI 標注訓練一體化平臺可進行「語言 + 聲學 + 標點」的自訓練，實現標點斷句自動化全量質檢，降低了人工成本，提升溝通效率，保障飛行安全。在已有落地案例中，實現了識別準確率相對提升 40%。

醫療場景：專業術語更精準

醫療場景的應用不僅面臨器械噪聲、候診人群說話聲等背景噪聲，還面臨著專業科室、專家名、病癥等專業術語，例如，「血壓 150 毫米汞柱」、「推 XX Mg 液體」。語音識別的準確性關乎診斷結果的正確輸出。DUI 標注訓練一體化平臺模型在對詞匯、語句、發音優化后，實現識別準確率相對提升 40%，在醫療垂直領域下的效果更佳。平臺的私有化部署，可將患者隱私存儲在醫院自建機房中，確保數據安全。

城市交通：風暴降噪更清晰

風噪、路噪、發動機噪聲等多重環境噪音是城市交通場景應用的一大難題。DUI 標注訓練一體化平臺通過思必馳 VDCNN 自研算法降噪，針對交通場景深度學習，在嘈雜環境下也能耳聽八方。同時，支持普通話/中英混合/英語/粵川滬等多語種及方言的識別，「入鄉隨俗」準確識別「??(lei)崗站」、「東涌(chong)站」等冷門、多音字的站名，讓乘客通過咨詢機進行語音問詢、購票更自由。

數字化門店：消費者服務更個性

在各類門店中，服務人員可佩戴著藍牙耳麥、智能錄音工牌與客戶交談，AI輔助服務行業數字化轉型。

例如在地產售樓場景中，精細化語音識別效果，強化對方言口音、「預算」、「產權」等行業關鍵詞的識別。餐飲店內，記錄下最受歡迎的「菜品名」。汽車 4S 店中，通過對「排放量」、「品牌名」等高頻詞匯識別，進行用戶畫像分析。不僅可以規范員工的服務話術，更能基于大數據洞察用戶需求，給出針對性方案提升簽單轉化率。

語音識別優化是一個漫長的過程，伴隨海量數據不斷更新，語音識別準確率將持續提升。

智能經濟形態下，以 AI 為技術手段，賦能產業形態轉型升級是思必馳所愿。將自主定制的主動權交給用戶，讓智能語音交互技術持續下沉，賦予各行業投入智能化浪潮的自由權利，或許智能化故事才剛剛開始。

資訊來源：思必馳

思必馳

語音

深圳灣（微信公眾號 ID：shenzhenware）是最早也是最活躍的硬件創新社區和媒體，關注「軟件+硬件」帶來的場景和交互創新，以及與平臺和應用相連的產業鏈升級。

上一篇：小米11 青春版，靚麗五色、史上最輕薄的小米手機

下一篇：全系標配滿級防水，OPPO A5 系列新品正式發布

全系標配滿級防水，OPPO A5 系列新品正式發布

陳述
|
19 小時前

江波龍嵌入式存儲新品亮相 MemoryS 2025，深度布局 AI 可穿戴市場

陳述
|
2025-03-12

2024 年消費級 AR 眼鏡市場火熱，星紀魅族穩坐銷量與技術雙冠

陳述
|
2025-03-12

登錄回復