本文摘要:摘要:在材料領域文獻中準確識別命名實體有助于構建專業知識圖譜、問答系統等。基于深度學習的命名實體識別(NER)技術已廣泛應用于多種專業領域,然而面向材料領域的命名實體識別研究相對較少。針對材料領域命名實體識別中,可用于監督學習的數據規模小,實體
摘要:在材料領域文獻中準確識別命名實體有助于構建專業知識圖譜、問答系統等。基于深度學習的命名實體識別(NER)技術已廣泛應用于多種專業領域,然而面向材料領域的命名實體識別研究相對較少。針對材料領域命名實體識別中,可用于監督學習的數據規模小,實體詞復雜度高等問題,提出使用大規模非結構化的材料領域文獻數據,訓練基于一元語言模型(ULM)的子詞嵌入分詞模型,充分利用單詞結構蘊含的信息,增強模型魯棒性。并提出以BiLSTM-CRF為基本模型,結合能夠感知方向和距離的相對多頭注意力機制(RMHA)的實體識別模型,以提高對關鍵詞的敏感程度。BiLSTM-RMHA-CRF模型結合ULM子詞嵌入方法,相比于BiLSTM-CNNs-CRF和SciBERT等模型,在固體氧化物燃料電池(SOFC)命名實體識別數據集上的MacroF1值提高了2-4個百分點,SOFC細粒度實體識別數據集的MacroF1值提高了3-8個百分點。實驗結果表明,基于子詞嵌入和相對注意力的識別模型能夠有效提高材料領域實體的識別準度。
關鍵詞:命名實體識別;子詞嵌入;相對注意力;深度學習;材料領域
0引言
命名實體識別(namedentityrecognition,NER)的目標是在非結構化的文本中按照預先定義的類別信息,提取并分類出具有特定意義的命名實體信息,如人名、機構、地點等。命名實體識別技術可以用于如知識圖譜構建,問答系統,機器翻譯等自然語言處理任務。專業領域的命名實體識別對于機器閱讀理解專業領域文獻和構建專業知識圖譜具有重要作用,精準的進行專業領域的命名實體識別有助于減少科研工作量,提高查閱效率,并能夠輔助提高專業領域機器翻譯,自動問答等上游自然語言處理系統的水平。
近幾年對于命名實體識別的研究大多基于深度學習,目前適用于命名實體識別的常用深度學習模型與方法有條件隨機場(ConditionalRandomFields,CRF)[1],卷積神經網絡(ConvolutionalNeuralNetwork,CNN)[2],長短期記憶神經網絡(Long-ShortTermMemory,LSTM)[3],門控循環網絡(GateRecurrentUnit,GRU)[4]以及自注意力機制[5]等。
Ma等[6]人結合雙向長短期記憶神經網絡(Bi-directionalLong-ShortTermMemory,BiLSTM)、CNN與CRF提出了端到端的序列標注模型,在CoNLL-2003數據集上達到91.21%的F1值;Chiu等[7]人提出使用雙向LSTM和CNN編碼層進行命名實體識別,并分別在CoNLL-2003和OntoNotes數據集上的F1值達到91.62%和86.28%;Liu等[8]人提出使用LM-LSTM-CRF(LanguageModelLong-ShortTermMemoryConditionalRandomFields)模型方法將CoNLL-2003數據集的F1值提高到91.71%;Dhrisya等[9]使用雙向GRU結合自注意力機制在OntoNotes細粒度實體識別任務上達到較高水平。
通用領域命名實體識別,其精準度已達到較高水準,目前命名實體識別方向的研究大多基于專業領域。楊維等[10]提出基于條件隨機場的命名實體識別算法,在電力服務數據集上具有較高準確率;李博、張華麗等[11-12]分別采用TransformerCRF和BiLSTM-CRF模型對中文電子病歷進行實體識別,能夠準確識別癥狀、治療等五類實體;張心怡等[13]提出了聯合深度注意力網絡,在煤礦領域命名實體識別精準度和識別效率都有較大的提升;許力等[14]結合CNN、BiLSTM、圖卷積神經網絡,并融合詞向量和依存句法分析特征進行生物醫學實體識別,在多個數據集上表現出色。
材料領域的自然語言處理研究相對貧乏,其中與本文研究相關的有:Mysore等[15-16]人提出了自動提取材料科學文獻結構化信息的系統,并且發布了大規模材料領域語料庫;Mrdjenovich等[17]構建了材料科學領域的知識圖譜propnet;Friedrich等[18]發布了固體氧化物燃料電池(solidoxidefuelcell,SOFC)命名實體識別數據集,并使用SciBERT模型達到81.5%的MacroF1值。
識別未登錄詞是命名實體識別任務的關鍵,字符嵌入一般用于解決傳統詞嵌入,如word2vec,存在的未登錄詞(out-ofvocabulary,OOV)問題,同時還能反映出單詞字符序列蘊含的形態學信息。Gajendran等[19]將詞表示和字符表示作為輸入,使用三重BiLSTM-DRNN模型進行命名實體識別。Cho等[20]同時使用BiLSTM和CNN對單詞字符進行編碼,得到字符嵌入并與詞嵌入向量結合作為模型輸入,在生物醫學命名實體識別中達到較高水平。
字符嵌入能夠有效提高命名實體識別模型的識別準度,但其缺點也較為明顯:1)需要額外的字符級編碼層;2)使用CNN作為編碼層,其對于相鄰字符的感受野相對固定,而使用BiLSTM編碼層,又不能充分挖掘單詞詞綴之間的關聯信息。本文采用子詞嵌入代替字符嵌入,同時使用大規模材料領域數據,對子詞劃分模型進行預訓練,將得到的子詞分詞結果再進行詞向量訓練,同word2vec結合作為命名實體識別模型的輸入。
自注意力機制常用語多種自然語言處理任務,命名實體識別中加入自注意力機制能夠提高模型的特征提取能力和上下文信息的關注程度。但Transformer結構由于其在注意力計算時使用了歸一化處理,且其位置編碼不具備方向性,在命名實體識別任務上的表現不佳[21]。
本文采用相對多頭自注意力機制代替傳統的自注意力機制,作為命名實體識別模型的編碼層。本文的主要內容有:1)使用大量非結構化材料領域文獻數據,訓練基于一元語言模型(UnigramLanguageModel,ULM)的分詞模型,并進一步訓練出適用于材料領域數據的子詞嵌入,并將其用于材料領域命名實體識別任務。
2)在BiLSTM-CRF模型的基礎上,使用能夠感知單詞方向和距離的相對注意力機制(relativemulti-headattention,RMHA),用以增強模型對關鍵詞的感知能力。3)在SOFC數據集的命名實體識別和細粒度實體識別任務中,使用常用模型與BiLSTM-RMHA-CRF模型進行多組對比實驗,表明ULM子詞嵌入和基于RMHA的深度學習模型有助于提高材料領域命名實體識別的精準度。
1子詞嵌入和RMHA實體識別網絡
使用BiLSTM-CRF模型結合相對多頭注意力機制對材料領域數據進行命名實體識別,同時使用預訓練詞嵌入和子詞嵌入提高模型對于未登錄詞問題的辨識能力。
1.1BiLSTM-CRF模型
BiLSTM后接CRF解碼層是序列標注任務的常用模型。BiLSTM通過整合前向和后向傳遞的信息,保證每個隱層都接收到來自其他隱層的信息。CRF解碼層可以通過狀態轉移矩陣來實現相鄰標簽的約束。本文使用BiLSTM-CRF模型為基本實驗模型,在其基礎上加入ULM子詞嵌入作為輸入,并進一步使用基于相對位置編碼的相對注意力機制作為材料領域命名實體識別模型的編碼層,用以改進模型對于關鍵詞和相關實體的關注程度。
1.2基于概率模型的子詞嵌入
1.2.1字符嵌入和子詞嵌入
材料領域數據集中存在大量單頻詞和低頻詞,傳統的詞向量表示方法,如word2vec[22],無法很好地處理專業名詞,化學式等未知或者罕見詞匯,導致其命名實體識別難度較高。目前常用CNN編碼層獲得單詞的字符級表示,后將其與預訓練好的詞嵌入進行組合參與訓練。子詞嵌入把單詞劃分為長度不一的字符串后對其向量表示,相較于字符表示蘊含更加豐富的形態信息,并可以使用大規模數據集進行預訓練詞向量。BPEmb[23]利用字節對編碼(BytePairEncoding,BPE)數據壓縮算法構建子詞詞表,使分詞粒度在單詞和字符之間,從而更高效率的解決未登錄問題。BPEmb劃分的子詞只能是單一結果,而且對于子詞序列的劃分結果沒有量化的評判標準[24]。
2實驗設置
2.1數據集
ULM子詞嵌入概率分詞模型和預訓練子詞向量使用網絡采集的14萬條原始材料領域文獻數據。命名實體識別實驗采用SOFC命名實體識別數據集和SOFC細粒度實體識別數據集[18]。SOFC命名實體識別數據集該數據集包含MATERIAL,VALUE,DEVICE,EXPERIMENT四種類型的標簽,采用BIO標注方式。其中MATERIAL類除了材料名外還包括諸如“La0.75Sr0.25Cr0.5Mn0.5O3”的化學式;VALUE類包括實驗參數的數值和范圍符號,另外還包含描述程度的副詞,如“above750℃”,進一步提高了識別命名實體的復雜度;EXPERIMENT類為標志實驗行為的動詞。
SOFC細粒度實體識別數據將四類實體進一步細分為19個子類別。該數據集相較于通用領域數據集,未登錄詞、單頻詞和低頻詞較多,實體形態復雜多樣。且不同于通用領域命名實體識別數據集中,人名、地名、組織名等本身蘊含的形態學信息較少,實體詞之間的關系模糊,材料領域數據集中的實體間存在較大的形態學關聯性,如化學式之間的關聯信息。
2.2數據預處理
本文使用基于正則模板的數據增強[25],將大量正則模板應用于模型訓練,旨在讓模型學習到更多上下文信息,模糊實體對于特定上下文的依賴關系,達到提高識別未登錄詞和低頻詞的精準度的目的。本文涉及的所有實驗均采用正則模板的數據增強方法對訓練集數據進行預處理后作為輸入。正則模板數據增強見圖5。
3實驗結果與分析
3.1綜合實驗結果
實驗使用加入ULM子詞嵌入的BiLSTM-RMHA-CRF模型與現有模型在SOFC命名實體識別數據集上進行對比,對比模型包括BiLSTM-CNNs-CRF模型[6]、LM-LSTM-CRF模型[8]、BiGRU-SelfAttn模型[9]、SciBERT模型[18]、Char-LevelCNN-LSTM模型[20]。
SOFC命名實體識別數據集上的設備(device,DEV)、實驗(experiment,EXP)、材料(material,MAT)、參數(value,VAL)四種實體的F1值和平均MicroF1值、MacroF1值結果以及SOFC細粒度實體識別數據集的平均MicroF1值、MacroF1值結果。結果表明相較于其他模型,基于相對注意力機制和ULM子詞嵌入的模型能夠提高對命名實體的辨別能力。
BiLSTM-CNNs-CRF模型使用字符級CNN對輸入進行編碼,得到字符嵌入,再將其輸入BiLSTM-CRF模型進行序列標注,其卷積操作,在一定程度上相當于能夠提取固定寬度的子詞信息。LM-LSTM-CRF模型使用字符級LSTM作為字符嵌入模型,將字符序列編碼為詞向量用以命名實體識別訓練。
Char-LevelCNN-LSTM模型結合了上述兩個模型的字符嵌入方法;谧址度氲脑~嵌入算法在SOFC命名實體識別和細粒度實體識別數據集標簽尚佳,但由于字符嵌入詞表規模過小且蘊含信息有限,無法進行預訓練,對于不同的單詞輸入,即使擁有相同的子詞特征也不能保證得到相近的向量表示;而預訓練子詞嵌入可以確保具有相同子詞特征的單詞,其詞嵌入獲得的信息量相同。
BiGRU-SelfAttn模型使用了結構更加簡單的GRU作為特征編碼層,并結合自注意力機制作為命名實體識別模型,并直接將單詞作為輸入進行訓練,其效果相對于其他模型表現有限。SciBERT模型使用了大規?茖W領域文獻預訓練的BERT模型作為編碼層,并結合BPEmb子詞嵌入作為輸入,但使用預訓練模型進行微調,并不能充分利用子詞嵌入提供的輔助信息。模型對比實驗結果表明,基于ULM預訓練子詞嵌入和相對注意力的命名實體識別模型相較于其他模型,在材料領域命名實體識別任務中表現更加出色。
3.2消融實驗
本文針對BiLSTM-RMHA-CRF模型中的RMHA特征編碼層以及ULM詞嵌入特征進行消融實驗,以度量ULM詞嵌入方法以及相對注意力機制對于材料領域命名實體識別準度的提升作用。結果表明提出的BiLSTM-RMHACRF模型中,相對注意力機制和ULM子詞嵌入對材料領域命名實體識別都有不同程度的提升作用。
在僅使用BiLSTM-CRF模型時,由于其模型特征編碼性能有限,且從詞嵌入獲取到的信息較少,而材料領域文獻中的未登錄詞較多,導致模型的識別性能不佳。加入相對注意力機制后,提高了模型對于關鍵詞的關注度,命名實體識別性能有一定程度的提升。加入ULM子詞嵌入,使模型能夠獲取到單詞的形態學信息,并能夠辨別單詞之間的關聯作用,其性能有較大提升,表明基于概率模型的子詞嵌入確實能夠有效解決未登錄詞問題,并能提高模型對于材料領域詞匯間關聯關系的辨識性能。
材料科學評職知識:新型材料研發論文發表期刊
4結語
本文針對材料領域命名實體識別數據規模小,識別難度高等問題,提出了BiLSTM-RMHA-CRF模型方法,同時使用基于概率模型的ULM子詞嵌入作為模型輸入,以提高模型對于材料領域命名實體的辨別能力。通過在多種適用于命名實體識別的模型上進行對比實驗,證明該方法可以有效提高模型的普適性和魯棒性,在MicroF1、MacroF1兩種評價指標上都有較大的提高。
并設置了特征編碼層對照和詞嵌入對照實驗,驗證了相對注意力機制和預訓練ULM子詞嵌入對于命名實體識別模型的提高效用,表明相對注意力機制和ULM子詞嵌入對于材料領域命名實體識別確有較大的提升作用。但此算法的一處不足是沒有解決樣本分布不均帶來的模型偏側性問題,不同類別的實體,其識別準度差異較大,檢測能力也有待提升,可以將其作為進一步的研究方向。
參考文獻(References)
[1]LaffertyJ,MccallumA,PereiraFCN.Conditionalrandomfields:probabilisticmodelsforsegmentingandlabelingsequencedata[C]//Proceedingsofthe2001InternationalConferenceonMachineLearning.NewYork:ACM,2001:282-289.
[2]KimY.Convolutionalneuralnetworksforsentenceclassification[C]//Proceedingsofthe2014ConferenceonEmpiricalMethodsinNaturalLanguageProcessing,Stroudsburg,PA:AssociationforComputationalLinguistics,2014:1746-1751.
[3]HochreiterS,SchmidhuberJ.Longshort-termmemory[J].NeuralComputation,1997,9(8):1735-1780.
作者:韓玉民,郝曉燕*
轉載請注明來自發表學術論文網:http://www.zpfmc.com/jjlw/27545.html