本文摘要:摘 要 針對使用卷積神經網絡結構結合循環神經網絡結構的模型在手語翻譯任務中難以關注到手語視頻序列中關鍵幀的問題,提出了一種結合全局注意力機制的手語翻譯模型.該模型在長短時記憶網絡中嵌入全局注意力機制,通過計算當前隱藏狀態和源隱藏狀態之間的相似度并得出對
摘 要 針對使用卷積神經網絡結構結合循環神經網絡結構的模型在手語翻譯任務中難以關注到手語視頻序列中關鍵幀的問題,提出了一種結合全局注意力機制的手語翻譯模型.該模型在長短時記憶網絡中嵌入全局注意力機制,通過計算當前隱藏狀態和源隱藏狀態之間的相似度并得出對齊向量,讓模型學習對齊權重,使模型關注到長手語視頻序列中的關鍵幀,從而提升模型翻譯的準確率 . 實驗結果表明:加入全局注意力機制的模型在DEVISIGN_D數據集上的準確率優于3DCNN、CNN+LSTM等主流模型,并且在100分類的短手語詞和長手語詞數據集上,分別與未使用注意力機制的模型進行了對比,其準確率提升 0.87%和 1.60%,證明該注意力機制可以有效地提升模型翻譯的準確率.
關鍵詞 手語翻譯;全局注意力機制;長短時記憶網絡
據統計,截止到 2020 年我國聽力殘疾人數約2780 萬人,占全國殘疾人總數的 30% 以上 . 而聾啞人之間的相互交流以及其同非聾啞人的相互交流主要依靠手語進行 .因此高精度的手語翻譯算法對于解決聾啞人的交流問題有著重大意義 .手語又可以細分為手指語和手勢語,其中前者用手指的指示變化代表字母數字,通過字母拼寫出詞,常常作為聾啞人教育的交流工具;而后者則以手部動作結合上肢動作進行表達,平時所說的手語大多指手勢語,手勢語也是聾啞人溝通的主要方式 .
本文的研究重點主要放在手勢語的孤立詞翻譯.在手勢語翻譯的早期研究中,研究人員大多采用人工設置特征輔以分類器的傳統方法,如 ZHOU等[1]提出了一種基于全局模板的動態時間規整算法,該算法通過統計方法,將定義的手勢樣本離散化形成全局模板,并在180個手勢識別上取得了95.6%的準確率 .ZHANG 等[2]提出了一種自適應的隱馬爾可夫模型,該模型從形狀上下文的軌跡特征中獲取時空特征,通過融合軌跡和手形概率的組合方法進行漢語手語識別,并在自建數據集上獲得了86%的準確率 .
YE等[3]將隱馬爾科夫模型與支持向量機結合構建了一個多層體系結構的分類器,并根據結果動態更新易混淆集來優化,取得了89.4%的準確率.雖然傳統的手語翻譯方法取得了一定成果,但其翻譯的準確率依賴于人工設置特征的有效性 .漢語手語詞種類較多,且部分手語詞手勢動作較為復雜,給人工設置特征造成了一定困難,同時人工設置特征是一個非常耗時的工作,這也導致了傳統的手語翻譯方法很難拓展到更大的手語數據集上.近年來隨著計算機算力的提升和基于深度學習的計算機視覺的發展,在手語翻譯領域越來越多的學者開始進行基于深度學習的手語翻譯方法研究 .KOLLER 等[4]提出的混合卷積神經網絡和隱馬爾可夫模型,結合了卷積神經網絡的識別能力和隱馬爾可夫模型的序列建模能力,在 PHOENIX-2014數據集上取得了較好的結果.
HUANG等[5]提出了一種新的三維卷積神經網絡,它可以自動從原始視頻流中提取出具有鑒別性的時空特征,從而避免特征設計 . 作者通過使用多通道視頻流作為輸入,整合顏色、深度、軌跡信息,并在微軟 Kinect 收集的數據集上驗證了該方法的有效性.YANG等[6]將卷積神經網絡與長短時記憶網絡結合,構建了一個可用于連續手語翻譯的模型,其借助卷積神經網絡將手語視頻中抓取的圖像信息轉換為矢量,然后使用長短時記憶網絡完成序列學習任務,并在自建數據集上取得了較高的準確率 .2014 年注意力機制[7]在自然語言處理領域被提出之后便成為國內外學者的研究熱點,也有部分學者將注意力機制應用到手語翻譯的研究中 .
如 ZHOU 等[8]使用自注意力網絡作為全局特征提取器結合CTC(連接時序分類)進行手語翻譯 ,并 在 RWTH-PHOENIX-Weather 2014 取 得 了31.3% 的詞錯率 .SLIMANE 等[9]提出了一種用于連續手語的注意力網絡,該網絡通過注意力機制將手部特征與時空上下文進行聚合以更好地識別,并在RWTH-PHOENIX-Weather 2014 數據集上驗證了該方法的有效性.為進一步提升手語詞翻譯的準確率,并克服上述方法由于手語動作視頻較長導致模型不能有效地關注到復雜手語詞動作的上下文信息的問題,本文在傳統卷積神經網絡結合長短時記憶網絡的翻譯模型中添加了一個全局注意力機制以解決上述問題,并與其他算法的翻譯準確率進行了比較.
1 基于注意力機制的手語翻譯方法
1.1 整體網絡結構以 RGB 手語視頻作為輸入的手語翻譯任務可以轉換為一個視頻多分類任務 .在漢語手語詞的翻譯中需要關注時間特征與空間特征,將視頻中手語動作的時空特征結合才能提取出手語動作的語義 .故對于手語視頻需先將其逐幀分割成圖像,通過對圖像的卷積操作來提取單幀圖像的空間特征,按照視頻中的時間順序將所提取的單幀圖像的空間特征組成特征序列之后,再提取特征序列的時間特征,由此通過時空特征信息對手語視頻進行翻譯.手語翻譯的模型由用于提取空間特征的卷積神經網絡、用于提取時間特征的長短時記憶網絡、用于幫助模型關注序列中關鍵部分的全局注意力機 制 組 成 ,其 中 對 于 卷 積 神 經 網 絡 本 文 選 用ResNet34. 數據經預處理之后輸入到模型中,由ResNet34對單幀手語圖像特征進行提取,并以固定的幀數將所提取出的空間特征組成特征序列,經由一個線性層送入LSTM中對空間特征序列的時間特征進行提取,然后將時空特征送入注意力層 . 注意力層中所使用的全局注意力機制可以通過一個可訓練的參數來計算對齊向量,最終得出上下文向量(1.4節),由此可以使模型關注到手語視頻中的關鍵幀.最后通過softmax層進行分類輸出.
1.2 基于ResNet的空間特征提取若要完成手語詞的高精度翻譯,則需對于單幀圖像中手語動作的空間特征提取盡可能得充分,從而保證能夠完整地獲取到手勢特征 .為滿足這點需求,用于提取空間特征的網絡層數勢必會增加,而傳統的卷積神經網絡如 VGG[10]和 GoogleNet[11]隨著層數的增加有可能出現過擬合、梯度消失和梯度爆炸等問題;另一方面隨著網絡層數的加深,計算資源消耗也會大量增加 . 而 HE 等[12]提出的深度殘差網絡可以有效地避免以上問題,ResNet由殘差塊堆疊而成,核心思想就是通過跳轉連接的方式來解決隨著層數加深網絡退化的問題,其中殘差塊結構如圖 2 所示 . 其中 x 為輸入,F ( x) 為映射函數,期望的最終映射輸出H ( x) = F ( x) + x,其結果就是映射函數與輸入之和 . 若 F ( x) = 0,則構成了一個恒等映射 .該方法可以有效地解決深度網絡的梯度消失或爆炸等問題.
1.3 基于LSTM的時序特征
提取對于 ResNet34所提取的空間特征序列,需要提取時序特征從而獲取手語視頻動作的時空特征,再進行翻譯,而循環神經網絡結構可以很好地處理時序信息,其中長短時記憶網絡[13]在RNN結構的網絡中表現較為優秀[14],尤其是其能夠學習長期的依賴關系,用于處理手語翻譯這類在前后時序關系上存在依賴的問題尤為合適。
1.4 基于全局注意力機制的計算網絡本文為解決ResNet-LSTM模型在處理長手語視頻時由于特征序列較長從而導致手語翻譯的準確率下降的問題,在模型中嵌入了一種全局注意力機制[15],如圖5中虛線所框,注意力模塊幫助模型關注到特征序列中對于翻譯結果更為有用的部分,提升模型的翻譯準確率.
2 實驗分析
2.1 數據集與數據
預處理本實驗采用的數據集為中國科學技術大學所采集的DEVISIGN_D數據集[16].該數據集是DEVISIGN數據集的子集,包含了500個漢語手語的常用詞,其中每個詞語由RGB視頻和深度骨架信息構成.數據集由8名不同的手語表演者演示.對于其中4名表演者每個手語詞匯錄制兩遍,另外 4 名表演者每個手語詞匯錄制一遍,總共6000組數據.首先將手語視頻數據逐幀分割成圖像,通過觀察分割成幀后的圖像可知其中包含部分無關的背景信息,而數據集中手語表演者均處在中間位置,故對圖片進行粗略裁剪,僅保留圖像中間包含手語表演者的矩形部分.
通過觀察裁剪后的圖像發現存在大量的無用幀,即手語表演者開始錄制視頻時的靜止畫面和抬手動作.此類無用幀對于整個手語序列無任何實際意義,而且大量的無用幀也會影響模型的訓練速度.對于此類無用幀的剔除,本實驗選取每個手語視頻分割后的第一幀圖像作為基準圖像,用其余圖像與基準圖像計算兩張圖像的余弦相似度,若大于某閾值則剔除 .在確定閾值時根據經驗選定閾值范圍,并通過多組實驗確定閾值設定為 0.997 時效果最好 . 對于剔除無用幀之后的 6000 組圖像采用翻轉、旋轉的方法增強數據集,使數據集擴大到原來的4倍.
2.2 實驗配置與訓練
實驗中使用Pytorch 1.8框架實現本文所提出的模型,并進行訓練和測試.操作系統為Ubuntu18.04,GPU為NVIDIARTX 3090,處理器為Intel(R)Xeon(R)Glod 5218 R,內存為64 G.由于本文研究的是漢語連續手語詞的翻譯,故使用連續視頻幀作為輸入,設置連續的16幀圖像為一個輸入序列 . 為減少訓練時間,實驗中加載了Pytorch提供的ResNet34預訓練模型。
2.3 實驗結果分析
本文提出的在 LSTM 中嵌入全局注意力機制的模型與其他手語翻譯模型在DEVISIGN_D數據集上準確率的對比.本文模型的準確率高于其他模型 .對于 HMM-DTW 這樣使用傳統方法的模型,由于缺乏深度學習方法的特征提取能力,受限于人工特征設置,導致該模型在使用了RGB 視頻和深度骨架信息兩種數據作為輸入的情況下準確率雖優于DNN,但仍低于大多數深度學習模型 .3DCNN 模型在傳統 2DCNN 基礎上增加了一個維度,可以用于處理時間維度 . 但其對時間維度的處理依賴于連續圖像的卷積計算,所以也沒有取得較好的結果 .CNN 與 LSTM 相結合的模型使用CNN 提取圖像特征、LSTM 提取時序特征達到手語視頻翻譯的目的.由于傳統CNN隨著網絡層數的加深會出現退化,導致 CNN 對圖像特征的提取有限 .通過將 CNN 換成 ResNet34 可以解決網絡退化的問題,并加深網絡深度進一步提取圖像特征.
本文所提出的基于全局注意力機制模型準確率較 ResNet34+LSTM 提升 1.91% 達到 86.24%. 通過分析,本文模型在空間特征提取方面采用 ResNet34加深網絡層數,能更好地提取空間特征信息 . 在時序特征提取時加入了全局注意力機制,使模型可以關注到整個手語動作序列中對翻譯出手語語義更為重要的部分,從而獲得了更高的準確率.
2.4 注意力機制分析
為進一步研究在模型中嵌入的全局注意力機制對模型的影響,證明其對長手語視頻翻譯的有效性,本文從DEVISIGN_D中劃分出了兩個子集:一個子集為視頻長度較短的 100 類手語視頻,稱其為DEVISIGN_DS;另一個為視頻長度較長的 100 類手語視頻,稱其為DEVISIGN_DL.
使用這兩個100分類的數據集和DEVISIGN_D,分別在添加注意力機制和未添加注意力機制的情況下對模型進行訓練,并且兩者參數設置相同。結果表明:添加了注意力機制的模型在 3 個數據集中的準確率均高于未添加注意力機制的模型 .通過對比模型添加注意力機制前后在 DEVISIGN_DS 和 DEVISIGN_DL 上的準確率,可知模型對長序列手語視頻翻譯準確率的提升更大,證明了該注意力機制可以有效地關注到長手語視頻序列中的關鍵幀,同時也證明了該注意力機制添加到模型中的有效性.
3 結論
為使手語翻譯模型更好地關注到手語序列中的關鍵部分,本文在 ResNet 和 LSTM 組合的模型中嵌入全局注意力機制,對手語詞進行翻譯 . 該模型首先通過殘差網絡來提取單幀手語圖像的空間特征;然后將多個連續幀的空間特征組成特征序列輸入到長短時記憶網絡提取時序特征;最后通過模型中所嵌入的全局注意力機制計算出序列中哪些部分對手語視頻翻譯的影響更大,進而達到使模型能自己關注手語視頻中關鍵幀的目的 . 結果表明:加入注意力機制的模型對比未加入注意力機制的模型翻譯準確率有所提升,加入注意力機制之后的模型優于其他模型 .在下一步工作中將嘗試將此方法由手語詞的翻譯擴展到手語句的翻譯,并優化注意力機制帶來的計算開銷.
參 考 文 獻:
[1] ZHOU Z,DAI Y,LI W. Gesture recognition based onglobal template DTW for Chinese sign language[J].Journal of Intelligent & Fuzzy Systems,2018,35(2):1969-1978.
[2] ZHANG J,ZHOU W,XIE C,et al. Chinese signlanguage recognition with adaptive HMM[C]//IEEE.2016 IEEE International Conference on Multimedia andExpo. Seattle:IEEE,2016:1-6.
[3] YE J,YAO H,JIANG F. Based on HMM and SVMmultilayer architecture classifier for Chinese signlanguage recognition with large vocabulary[C]//IEEE.3rd International Conference on Image and Graphics.Hong Kong:IEEE,2004:377-380.
[4] KOLLER O,ZARGARAN S,NEY H,et al. Deep sign:Enabling robust statistical continuous sign languagerecognition via hybrid CNN-HMMs[J]. InternationalJournal of Computer Vision,2018,126(12):1311-1325.
[5] HUANG J,ZHOU W,LI H,et al. Sign languagerecognition using 3d convolutional neural networks[C]//IEEE. 2015 IEEE International Conference onMultimedia and Expo. Turin:IEEE,2015:1-6.
[6] YANG S,ZHU Q. Continuous Chinese sign languagerecognition with CNN-LSTM [C]//IACSIT. 9th International Conference on Digital Image Processing.International Society for Optics and Photonics. HongKong:IACSIT,2017,10420:104200F.
選自期刊《中南民族大學學報(自然科學版)》第 41 卷第 4 期
作者信息:朱連淼,楊波*,郭佳君,陳曉燚(中南民族大學 計算機科學學院,武漢 430074)
轉載請注明來自發表學術論文網:http://www.zpfmc.com/dzlw/30406.html