全系標配滿級防水,OPPO A5 系列新品正式發布

DUI 標注訓練一體化平臺全場景應用,識別體驗持續提升!
場景驅動,識別效果快速提升
「07---讀 洞拐」
「什么是皰疹---什么是PORT」
「導航去fu南電視臺---導航去湖南電視臺」
「介個東西是我的---這個東西是我的」
人機自由交流的前景是漫長而漸進的,語音識別技術在細分場景持續落地,需要「因地制宜」提升識別效果。
語音識別的「三大考驗」
噪聲環境。目前對語音識別效果影響最大的就是環境雜音或噪音,在公共場所中,來自四面八方的聲音會讓識別系統不知所措,實驗室環境下的優異表現可能在實際應用場景中被「吊打」。例如在高鐵、地鐵、公交等交通場景下,多種混合噪聲降低了識別效果,進而影響用戶在詢路、購票、換乘過程中的交互體驗。
專業術語。大多數垂直應用場景都有自身的專業術語和指代用詞,例如醫療場景中病癥、醫藥名,門店銷售場景中的奢侈品牌名稱、型號,公安審訊場景中的敏感詞匯,會議場景中的人名、地名等等,要求語音系統適應各種領域,還能準確識別特殊用詞不是件容易事。
多語言混合識別?!?/strong>你好小馳,hu (福)建今天天氣怎么樣?那fu(湖)南呢?」識別方言口音在生活中隨處可見,伴隨著 AI 技術拓展到了三、四線城市,智慧門店、地產售樓、汽車 4S 店等場景的應用都重在「入鄉隨俗」。此外,中英混雜、多語種等語言習慣也影響著識別效果。
場景驅動,定制模型提升識別率
思必馳推出 DUI 標注訓練一體化平臺是集成語音標注、模型自訓練、識別測試、服務部署和團隊管理于一體的一站式產品,提供數據標注-模型優化-測試評估-服務部署完整鏈路語音識別自主優化能力,支持私有化部署,協助企業在短期內實現識別效果“不可用->可用”的提升,實現快速更新響應,持續提升場景識別效果。
目前,思必馳 DUI 標注訓練一體化平臺,已在醫療、政務、航空等多個行業領域得到應用。平臺支持私有云一鍵化部署,未來也將以公有云的形式對外開放,用于語音識別優化。注冊用戶可全流程自主掌握,后續規模化的拓展也將觸類旁通。

會議場景:會議記錄更細致
會議發言的實時轉寫、糾錯與記錄是現代辦公的強需求。會議場景下的需求可以歸納為兩方面:
1. 準確度高,即識別結果要準。行業領域常用語、專有名詞、中英文混雜、人名職位等各種詞匯篇章表述需要盡可能準確。借助平臺進行語言和熱詞模型的訓練,訓練后的模型在會議真實場景下的識別率提升至 95% 以上。另外,使用語言模型增量訓練模式,通過反復迭代,可以增強在某一個細分場景或領域下的識別效果。除此以外,大會場景下,可以針對領導發言人的用語習慣進行聲學定制,系統持續自我「進化」,模型將越用越智能。
2. 閱讀性強,即識別出的文本易于閱讀,可懂度高。會議轉寫結果通常會是篇章段落,且多含有口語化表達,因此識別結果要通俗易懂,尤其在標點斷句上要「通人性」。通過平臺的標點、順滑、斷句模型訓練可以輸出符合眾人閱讀習慣的文本。
航空通訊場景:語音質檢更安全
航空通訊比通用場景復雜,除存在諸多 QNH(海平面氣壓)類似的縮寫詞匯、專業術語外,斷句、發音方式 1 (幺)、2 (兩)、7 (拐)、0 (洞)等,也比較特殊。只有精準識別座艙內飛行員之間、或與地面塔臺間的溝通話術,才可有效確保飛行安全。用戶通過 DUI 標注訓練一體化平臺可進行「語言 + 聲學 + 標點」的自訓練,實現標點斷句自動化全量質檢,降低了人工成本,提升溝通效率,保障飛行安全。在已有落地案例中,實現了識別準確率相對提升 40%。
醫療場景:專業術語更精準
醫療場景的應用不僅面臨器械噪聲、候診人群說話聲等背景噪聲,還面臨著專業科室、專家名、病癥等專業術語,例如,「血壓 150 毫米汞柱」、「推 XX Mg 液體」。語音識別的準確性關乎診斷結果的正確輸出。DUI 標注訓練一體化平臺模型在對詞匯、語句、發音優化后,實現識別準確率相對提升 40%,在醫療垂直領域下的效果更佳。平臺的私有化部署,可將患者隱私存儲在醫院自建機房中,確保數據安全。
城市交通:風暴降噪更清晰
風噪、路噪、發動機噪聲等多重環境噪音是城市交通場景應用的一大難題。DUI 標注訓練一體化平臺通過思必馳 VDCNN 自研算法降噪,針對交通場景深度學習,在嘈雜環境下也能耳聽八方。同時,支持普通話/中英混合/英語/粵川滬等多語種及方言的識別,「入鄉隨俗」準確識別「??(lei)崗站」、「東涌(chong)站」等冷門、多音字的站名,讓乘客通過咨詢機進行語音問詢、購票更自由。
數字化門店:消費者服務更個性
在各類門店中,服務人員可佩戴著藍牙耳麥、智能錄音工牌與客戶交談,AI輔助服務行業數字化轉型。
例如在地產售樓場景中,精細化語音識別效果,強化對方言口音、「預算」、「產權」等行業關鍵詞的識別。餐飲店內,記錄下最受歡迎的「菜品名」。汽車 4S 店中,通過對「排放量」、「品牌名」等高頻詞匯識別,進行用戶畫像分析。不僅可以規范員工的服務話術,更能基于大數據洞察用戶需求,給出針對性方案提升簽單轉化率。
語音識別優化是一個漫長的過程,伴隨海量數據不斷更新,語音識別準確率將持續提升。
智能經濟形態下,以 AI 為技術手段,賦能產業形態轉型升級是思必馳所愿。將自主定制的主動權交給用戶,讓智能語音交互技術持續下沉,賦予各行業投入智能化浪潮的自由權利,或許智能化故事才剛剛開始。
資訊來源:思必馳