阿里「殺手锏」級語音識別模型來了！推理效率較傳統模型提升10倍

發布時間：2023-01-17 文章來源：本站瀏覽次數：2132

阿里達摩院，又搞事兒了。

這兩天，它們發布了一個全新的語音辨認模型：

Paraformer。

開發人員直抒己見：這是咱們“殺手锏”級的作品。

——不只辨認精確率“屠榜”幾大威望數據集，一路SOTA，推理功率上比較傳統模型，也高可提高10倍。

值得一提的是，Paraformer剛宣布就現已開源了。

語音輸入法、智能客服、車載導航、會議紀要等場景，它都能夠hold住。

怎么做到的？

Paraformer：從自回歸到非自回歸

咱們知道語音一直是人機交互重要研究領域。

而當時語音辨認根底結構已從初雜亂的混合語音辨認系統，演變為高效便捷的端到端語音辨認系統。

其中具代表性的模型當屬自回歸端到端模型Transformer，它能夠在辨認過程中需逐一生成方針文字，實現了較高精確率。

不過Transformer核算并行度低，無法高效結合GPU進行推理。

針對該問題，學術界近年曾提出并行輸出方針文字的非自回歸模型。

可是這種模型也存在著建模難度和核算雜亂度高，精確率有待提高的問題。

達摩院本次推出的Paraformer，初次在工業級運用層面解決了端到端辨認作用與功率統籌的難題。

它歸于單輪非自回歸模型。

對于這一類模型，現有作業往往聚焦于如何愈加精確地猜測方針文字個數，如較為典型的Mask CTC，選用CTC猜測輸出文字個數。

但考慮到現實運用中，語速、口音、靜音以及噪聲等因素的影響，如何精確的猜測方針文字個數以及抽取方針文字對應的聲學隱變量仍然是一個比較大的應戰。

另外一方面，經過比照自回歸模型與單輪非自回歸模型在工業大數據上的過錯類型（如下圖所示，AR與vanilla NAR），我們發現比較于自回歸模型，非自回歸模型在猜測方針文字個數（插入過錯+刪除過錯）方面差距較小，可是替換過錯顯著的添加。

阿里達摩院以為這是因為單輪非自回歸模型中條件獨立假設導致的語義信息丟掉。與此一起，現在非自回歸模型主要停留在學術驗證階段，還沒有工業大數據上的相關實驗與定論。

Paraformer是如何做的呢？

針對第一個問題，阿里達摩院選用一個猜測器（Predictor）來猜測文字個數并經過Continuous integrate-and-fire (CIF)機制來抽取文字對應的聲學隱變量。

針對第二個問題，受啟發于機器翻譯領域中的Glancing language model（GLM），他們規劃了一個根據GLM的 Sampler模塊來增強模型對上下文語義的建模。

除此之外，團隊還規劃了一種生成負樣本策略來引進MWER區分性練習。

終究，Paraformer由Encoder、Predictor、Sampler、Decoder與Loss function五部分組成。

核心點主要包含以下幾點：

終究，在學術界常用的中文辨認評測使命AISHELL-1、AISHELL-2及WenetSpeech等測驗集上， Paraformer-large模型均獲得了優作用。

在AISHELL-1上，Paraformer在現在揭露宣布論文中，為功能（辨認作用&核算雜亂度）優的非自回歸模型，且Paraformer-large模型的辨認精確率遠遠超于現在揭露宣布論文中的結果（dev/test：1.75/1.95）。

在專業的第三方全網公共云中文語音辨認評測SpeechIO TIOBE白盒測驗中，Paraformer-large辨認精確率超越98%，是現在揭露測評中精確率高的中文語音辨認模型。

合作GPU推理，不同版本的Paraformer可將推理功率提高5～10倍。

一起，Paraformer運用了6倍下采樣的低幀率建模計劃，可將核算量下降近6倍，支持大模型的高效推理。

終的終，歡迎各位開發者下載Paraformer并留言反應模型運用感受~

量子位將贈送3張阿里研發的會議紀要產品“聽悟”特邀用戶年度權益卡，每天可運用離線語音/視頻轉寫10小時+實時轉寫8小時，高價值超萬元！

上一條：騰訊提早退租朗科大廈是因...

下一條：支付寶現已支撐綁定境外銀...