本文摘要:摘 要:資源匱乏語言語音信息檢索研究比漢語、英語等大語言進展緩慢,需要大量預處理工作。神經網絡模型在低資源環境下的高效建模能力給低資源語言信息處理工作帶來便利。文中以維哈等低資源語言為基礎,通過一系列預處理過程獲得了這些語言的語音及文本資源,再利用高
摘 要:資源匱乏語言語音信息檢索研究比漢語、英語等大語言進展緩慢,需要大量預處理工作。神經網絡模型在低資源環境下的高效建模能力給低資源語言信息處理工作帶來便利。文中以維⁃哈等低資源語言為基礎,通過一系列預處理過程獲得了這些語言的語音及文本資源,再利用高斯混合隱馬爾可夫模型GMM⁃HMM、深度神經網絡隱馬爾可夫模型DNN⁃HMM等完成了關鍵詞檢索實驗。實驗結果表明,三音素下的 DNN ⁃HMM 模型比 GMM ⁃HMM 模型檢索性能要好。維吾爾語的ATWV達到了0.368,MTWV達到了0.491,檢索結果準確率達到了89.36%;哈薩克語的ATWV達到了0.382,MTWV達到了0.421,檢索結果準確率達到了 82.15%。
關鍵詞:語音關鍵詞檢索;維吾爾語;哈薩克語;深度神經網絡;檢索流程;聲學模型
0 引 言
資源匱乏的語言語音信息檢索研究進展緩慢,缺乏資源,需要大量的預處理工作以及相關的細致研究。雖然維⁃哈(維吾爾⁃哈薩克)語言的 ASR 系統研究有了一些成果[1⁃2],但是在關鍵詞檢索方面缺乏深入研究工作。在移動終端以及多媒體信息爆炸性增長的年代,多語言語音信息的檢索研究在社會發展、網絡安全、輿情分析等多個領域有很重要的現實意義,將進一步推進低資源語言語音檢索的研究。本文主要在大詞匯量語音識別(Large VocabularyContinuous Speech Recognition,LVCSR)系統的基礎上進行維⁃哈語言語音關鍵詞檢索,首先對維⁃哈語語音各種聲學單元分別建模,在此基礎上進行維⁃哈語音關鍵詞檢索。
大詞匯量語音關鍵詞檢索是在語音識別產生的網格 lattice 上進行關鍵詞捕捉。由識別和索引兩部分組成[3],關鍵詞檢索的方法通常都是用關鍵詞的模板在連續語音流中進行匹配查找,比如 DTW(DynamicTime Warping)方法和 DTW 的不同變體等。表示關鍵詞模板的方法有 GMM 模型[4⁃5]、HMM 模型[6]、神經網絡等,它們對各種特征進行匹配,這些特征包括語音的頻譜、MFCC(Mel Frequency Cepstrum Coefficient)、線性預測系數(Linear Prediction Coefficient,LPC)[7]等。但是這種用關鍵詞模板匹配的方法適用于較小的數據量進行關鍵詞檢索,并且關鍵詞的不同模板在表示上有很大的差別。
影響檢索的因素有噪聲、信道不匹配、標記有誤等因素[8]。隨著大詞匯量連續語音識別準確率和效率的不斷提高,可以在連續語音識別的基礎上進行語音關鍵詞檢索,通常比 DTW 模板匹配的結果好,所以連續語音關鍵詞檢索具有很好的應用價值[9]。關 鍵 詞 檢 索 系 統 性 能 的 評 價 指 標 是 加 權 項 值(Term ⁃weighted Value,TWV),衡量系統對偽命中和誤報的代價的分配[10⁃11]。本文使用兩種不同的評價指標:ATWV(Actual Term⁃weighted Value,實際項加權值),即通過預先指定的決策閾值獲得的TWV;MTWV(MaximumTerm⁃weighted Value,最大項加權值),它是在判決閾值的最佳設置下獲得的 TWV[12]。漢語、英語等大語言相關研究很多,如漢語語音關鍵詞檢索,在文獻[13]里通過神經網絡模型研究語音檢索達到的準確率是80.76%。由于在實際環境中,噪聲、個性化、情緒等眾多因素的影響,檢測正確率還會大幅降低。
1 系統總體框架
本文的關鍵詞檢索是在 LVCSR 基礎上實現的。為了提高可靠性,在 LVCSR 輸出端捕捉 lattice 輸出,并在此基礎上進行檢索。維⁃哈語音關鍵詞檢索的總體流程是:首先對維⁃哈語音分別進行識別,產生相應的 lattice,再進行語音關鍵詞檢索。其實 lattice 只是在語音識別的過程中產生的中間結果,是由每條測試集句子解碼并聯起來的一個龐大的網格,網格里面包含測試集每條句子的每個候選詞,網格以加權有限狀態轉換器形式存在,檢索時也需要將檢索的關鍵詞轉換成加權有限狀態轉換器的形式在網格上進行索引,進而在 lattice 進行語音關鍵詞檢索。
本文建立 GMM,DNN,HMM 等各種 LVCSR 系統模型,選擇各種聲學模型進行比較,使用的模型。GMM 和 DNN 都在擬合同一個觀測序列的概率分布,然后作為 HMM 的觀測狀態概率矩陣,從 HMM指向 GMM 或 DNN 的箭頭是指 HMM 的某個狀態的觀測概率由某一個 GMM 或 DNN 的某一個輸出節點決定;兩者最主要的區別是利用 DNN 代替了 GMM 實現了狀態概率的輸出;后驗概率可以看作是有監督學習,根據觀測值求狀態值,而 DNN 是根據觀測值逆向傳播的過程,屬于有監督學習;另外,經過 softmax 輸出就能得到后驗概率。
HMM 的觀測概率由 GMM 生成。一個狀態 X 由一個 GMM 表征,同時相鄰的 GMM 之間沒有很強的相關性;GMM 模型輸出的似然概率為 P ( Y | X ),這個似然概率就是 HMM 所需要的觀測概率。在圖 3 中,HMM 的觀測概率由 DNN 生成的后驗概率 P ( X |Y )經貝葉斯公式轉換得到。DNN 一個輸出節點對應一個狀態,為了考慮上下文相關信息,通常送入DNN 的是 2n + 1 幀;DNN 作為判別模型,是直接對給定的觀測序列 Y 后狀態的分布進行建模,也是監督學習,輸 出 的 后 驗 概 率 P ( X |Y ) 需 要 轉 換 為 似 然 概 率P ( Y | X )。相同點,HMM 的狀態初始概率和狀態轉移概率都不變,HMM 仍然是對時序進行建模。
2 實驗數據
準備實驗中,維吾爾語語音關鍵詞檢索使用的語音語料包括:訓練集有 7 600 條音頻和文本句子,驗證集有400 條音頻和文本句子,測試集有 1 468 條音頻和文本句子。哈語語音關鍵詞檢索使用的語音語料包括:訓練集有 34 000 條音頻和文本句子,驗證集有 1 000 條音頻和文本句子,測試集有 2 000 條音頻和文本句子。
3 實驗結果及分析
維吾爾語語音識別詞錯誤率,哈薩克語語音識別詞錯誤率分別。在錄哈語語音數據時,里面存在的一些年份、數字等在字典里沒有對應的發音音素串,都映射成了集外詞。維語使用了公開的語料庫 thuyg20,字典基本覆蓋了數據集所有的單詞、年份、數字等發音。所以維語數據集不但小,而且識別的效果較好;哈語的數據集大,反而識別效果較差些。為了更直觀地表示維⁃哈語語音在不同的聲學模型中識別詞錯率的情況,本文采用折線圖表示。通過折線圖,觀察不同的聲學模型,發現維吾爾語 DNN ⁃HMM 比 mono識別率提升了 28.54%;哈薩克語 DNN⁃HMM 比 mono 識別率提升了 27.99%。
3.1 基于 GMM⁃HMM 聲學模型
維語實際總的關鍵詞詞數為 1 602,使用 F4DE 獲得。分別使用單音素(mono)模型、三音素(tri1)模型、LDA +MLLT 的三音素模型(tri2b)、SAT 的三音素模型(tri3b)、quick 訓練(tri4b)的 GMM⁃HMM 模型,做語音關鍵詞檢索,檢索出正確關鍵詞數、總的關鍵詞數、虛警關鍵詞詞數,根據關鍵詞檢出系統性能評價指標可得準確率、召回率、虛警率。
哈語實際總的關鍵詞詞數為 1 303,使用 F4DE 獲得。分別使用單音素(mono)模型、三音素(tri1)模型、LDA +MLLT 的三音素模型(tri2b)、SAT 的三音素模型(tri3b)、quick 訓練(tri4b)的 GMM⁃HMM 模型,做語音關鍵詞檢索,檢索出正確關鍵詞數、總的關鍵詞數、虛警關鍵詞詞數,根據關鍵詞檢出系統性能評價指標可得準確率、召回率、虛警率。
3.2 基于 DNN⁃HMM 聲學模型
使用三音素的 DNN⁃HMM 模型做語音關鍵詞檢索。維吾爾語實際總的關鍵詞詞數為 1 602,用 F4DE 獲得,檢出 正 確 的 關 鍵 詞 數 為 1 444,檢 索 到 的 關 鍵 詞 數為 1 616,虛警數為 103,由關鍵詞檢索的評價公式可得 ,準 確 率 為 89.36%,召 回 率 為 90.14%,虛 警 率 為6.43%;哈 語 實 際 總 的 關 鍵 詞 總 數 為 1 303,用 F4DE獲得,正確識別的關鍵詞數為 1 118,檢出的關鍵詞數為 1 361,虛警數為 192,根據關鍵詞檢出系統性能評價指標可得,準確率為 82.15%,召回率為 85.80%,虛警率為 14.74%。
通過實驗對比發現,在不同的聲學模型上,維語和哈語的關鍵詞檢出的查準率、召回率、虛警率都有所不同,但是在 DNN⁃HMM 模型上的性能最佳,維吾爾語達到了 89.36%,相比單音素而言提升 33.11%,哈語達到82.15%,相比單音素而言提升 52.06%。相比于高斯混合模型而言,深度神經網絡更能擬合數據的分布,進而提高關鍵詞檢出的準確率。
4 結 語
本文雖然在 kaldi中搭建了完整的語音關鍵詞檢索系統,也做了多次實驗,但是,哈薩克語的語音識別詞錯誤率較高,對關鍵詞檢出的準確率有較大的影響,維吾爾語的語音識別的詞錯誤率相對于哈薩克語來說較低。通過實驗數據也可以看出,維吾爾語的關鍵詞檢出的準確率較高,下一步的工作就是嘗試一些不同的方法完善發音字典和聲學模型,提高哈薩克語識別的準確率,進而提高哈薩克語的語音關鍵詞檢出的準確率。
參 考 文 獻:
[1] 沙爾旦爾·帕爾哈提,米吉提·阿不里米提,艾斯卡爾·艾木都拉 . 基于詞干單元的維⁃哈語文本關鍵詞提取研究[J]. 計算機工程與科學,2020,42(1):131⁃137.
[2] 孫曉杰 .基于 N⁃gram 模型的哈薩克語語音識別及處理技術研究[J].信息記錄材料,2018,19(9):97⁃99.
[3] 李娜,葛萬成 . 語音關鍵詞識別系統的模型訓練及性能評價[J].信息通信,2020(3):8⁃10.
[4] GUPTA M,BHARTI S S,AGARWAL S. Gender⁃based speakerrecognition from speech signals using GMM model [J]. Modernphysics letters B,2019,33(35):1⁃23.
[5] LANNE M,LUOTO J. GMM estimation of non⁃Gaussian struc⁃tural vector autoregression [J]. Journal of business & economicstatistics,2021,39(1):69⁃81.
作者:張偉濤,米吉提·阿不里米提,鄭 方,艾斯卡爾·艾木都拉
轉載請注明來自發表學術論文網:http://www.zpfmc.com/wslw/30259.html