<abbr id="8ggge"></abbr>
<kbd id="8ggge"><code id="8ggge"></code></kbd>
<pre id="8ggge"></pre>
  • <s id="8ggge"><dd id="8ggge"></dd></s>
    <s id="8ggge"><dd id="8ggge"></dd></s><cite id="8ggge"><tbody id="8ggge"></tbody></cite>
    <kbd id="8ggge"><code id="8ggge"></code></kbd>

    國內或國外 期刊或論文

    您當前的位置:發表學術論文網經濟論文》 基于混合注意力機制的中文機器閱讀理解> 正文

    基于混合注意力機制的中文機器閱讀理解

    所屬分類:經濟論文 閱讀次 時間:2021-12-21 10:52

    本文摘要:摘要:預訓練語言模型在機器閱讀理解領域表現出色。相比于英文機器閱讀理解,基于預訓練語言模型的閱讀理解模型處理中文文本時的表現稍差,只能學習文本的淺層語義匹配。為此,提出一種基于混合注意力機制的中文機器閱讀理解模型。該模型在編碼層使用預訓練模型得到序

      摘要:預訓練語言模型在機器閱讀理解領域表現出色。相比于英文機器閱讀理解,基于預訓練語言模型的閱讀理解模型處理中文文本時的表現稍差,只能學習文本的淺層語義匹配。為此,提出一種基于混合注意力機制的中文機器閱讀理解模型。該模型在編碼層使用預訓練模型得到序列表示,并經過BiLSTM處理進一步加深上下文交互;再經過由兩種變體自注意力組成的混合注意力層處理,旨在學習深層語義表示,而融合層結合多重融合機制獲取多層次的表示;最終使用雙層BiLSTM處理輸入輸出層得到答案位置。在CMRC2018數據集上的實驗結果表明,該模型與復現的基線模型相比EM值和F1值分別提升了2.05和0.465。

      關鍵詞:中文機器閱讀理解;注意力機制;融合機制;預訓練模型;RoBERTa模型

    機器閱讀理解

      0概述

      機器閱讀理解是自然語言處理領域的一個極具挑戰性的任務,一直深受研究人員的關注。深度學習技術的成熟以及數據多樣化推動機器閱讀理解領域快速發展,基于深度學習建立閱讀理解模型已成為目前普遍采用的方法。機器閱讀理解是指讓機器通過閱讀文本,回答相應的問題。機器閱讀理解技術通過訓練模型幫助用戶從大量的文本中快速、準確地找到答案。根據答案類型的不同,機器閱讀理解任務可分為四類[1]:

      1)完形填空式,該類任務要求模型從候選答案集合中選擇一個正確的詞進行填至問題句,使文章變得完整。2)抽取式,這類任務要求模型能根據提出的問題在文章中抽取一個連續片段作為答案,輸出答案在上下文中的起始位置和結束位置。3)多項選擇式,這種形式需要從候選答案集合中挑選正確答案。

      4)自由作答式,在該類任務中,答案的類型不受限制。其中,抽取式閱讀理解任務的形式相對靈活,能夠適用于現實中大部分場景,如搜索引擎、智能問答等。本文針對抽取式機器閱讀理解任務進行深入研究。 預訓練語言模型BERT[2]的出現使得一些模型在閱讀理解任務上的表現接近甚至超過了人類,推動機器閱讀理解的研究進入新的階段。BERT模型優秀的表現受到了眾多專家、學者的高度關注,近兩年涌現出了很多基于BERT改進的模型,如ALBERT[3]、RoBERTa[4]等,使用預訓練模型已成為機器閱讀理解的發展趨勢。

      由于預訓練模型只能學習到文本的淺層語義匹配信息,目前大多數模型都采取了預訓練語言模型與注意力機制結合的方式,即通過預訓練模型獲取相應表示,再使用注意力機制進行推理,從而捕捉文本的深層語義信息,預測出更加準確的答案。但原始的預訓練模型是針對英文語言設計的,無法有效處理中文文本。本文提出了一種基于混合注意力機制的中文機器閱讀理解模型。該模型使用混合注意力機制進行推理,并結合多重融合機制豐富序列信息。在CMRC2018中文閱讀理解數據集上的實驗結果表明,本文模型最終得到的EM值和F1值與復現的基線模型相比分別提高了2.05和0.465。

      1相關工作

      1.1結合注意力機制的機器閱讀理解

      Bahdanau等人將注意力機制用于機器翻譯任務,這是注意力機制第一次應用于自然語言處理領域。引入注意力機制后,不同形式的注意力機制成為基于神經網絡模型在閱讀理解任務上取得好成績的一個關鍵因素。

      2015年,Hermann等人提出了兩個基于神經網絡的模型TheAttentiveReader和TheImpatientReader,首次將注意力機制應用于機器閱讀理解的任務中,通過注意力機制得到問題和文章之間的交互信息。后來提出的AttentionSumReader模型,以及TheStanfordAttentiveReader模型均著重于提升注意力模型中對問題和文章的相似度計算能力。前期模型中使用的注意力機制大多較為簡單,對文本理解能力不足,無法對文章和問題進行有效交互。針對這一問題,研究人員開始在深層注意力機制方面做了大量的研究。BiDAF模型同時計算文章到問題和問題到文章兩個方向的注意力信息,捕獲問題和文章更深層的交互信息。DocumentReader模型10]將詞性等語法特征融入詞嵌入層,經過模型處理得到答案。

      Net模型[1在計算問題和文章的注意力之后加入自匹配注意力層,對文章進行自匹配,從而實現文章的有效編碼。FusionNet模型12]融合多個層次的特征向量作為輸入。2017年,谷歌的研究人員提出了Transformer模型[1,該模型僅僅依靠自注意力機制就在多個任務上取得了最好結果,證明注意力機制擁有較強的提取文本信息的能力。2018年,谷歌團隊提出了基于雙向Transformer的預訓練語言模型BERT。這種雙向的結構能夠結合上下文語境進行文本表征,增強了模型的學習能力。BERT的出現刷新了11個自然語言處理任務的最好結果,使得預訓練語言模型成為近幾年的研究熱點。

      1.2中文機器閱讀理解

      中文機器閱讀理解領域起步較晚,由于缺少優質中文數據集,發展相對緩慢。在近幾年發布的各種中文機器閱讀理解數據集的影響下,越來越多的研究人員致力于中文領域的探索。

      2016年,Cui等人[1發布了第一個大規模填空型中文機器閱讀理解數據集PeopleDailyandChildren’sFairyTale,填補了大規模中文閱讀理解數據集的空白。2017年,Cui等人[1在此數據集的基礎上提出了CMRC2017數據集,作為第一屆“訊飛杯”中文機器閱讀理解評測比賽的數據集。2018年,Cui等人16發布抽取型中文機器閱讀理解數據集CMRC2018,該數據集作為第二屆“訊飛杯”中文機器閱讀理解評測比賽使用的數據集,也是本文實驗使用的數據集。

      該數據集由近兩萬個人工標注的問題構成,同時發布了一個需要多句推理答案的挑戰集。He等人17同樣在2018年提出DuReader數據集,該數據集共包含20萬個問題、100萬篇文章和超過42萬個人工總結的答案,數據來源更貼近實際,問題類型豐富,是目前最大的中文機器閱讀理解數據集。

      徐麗麗等人[1搜集全國各省近10年高考題以及高考模擬題中的981篇科技文語料,構建了4905個問題,同時搜集萬篇新聞語料,構造10萬個補寫句子類選擇題語料。Shao等人[1提出了繁體中文機器閱讀理解數據集DRCD,該數據集包含從2108篇維基百科文章中摘取的10014篇段落以及超過萬個問題。中文機器閱讀理解領域受到研究人員越來越多的關注,不斷有優秀的方法與模型出現,呈現繁榮發展的趨勢。

      2模型結構

      為了提高模型對中文文本的理解能力,本文提出了一種基于混合注意力機制的中文機器閱讀理解模型。首先經過編碼層得到序列表示,再使用混合注意力機制提取文本中可能與答案有關的關鍵信息,然后結合多重融合機制融合多層次的序列信息,經過雙層BiLSTM建模后傳入輸出層,最終輸出正確答案所在位置。

      2.1編碼層

      編碼層使用中文預訓練語言模型RoBERTa[18]對問題和文章進行編碼。RoBERTa模型仍使用BERT的基本結構,在模型訓練時有如下幾個方面的差異:

      1)使用動態掩碼機制。2)移除BERT中采用的下一句預測訓練任務。3)使用更大Byte級別的文本編碼方式。4)使用更大批次以及更大規模的數據進行訓練。實驗結果表明,RoBERTa在多個任務上的表現優于BERT。本層將問題和文章拼接后的文本輸入RoBERTa模型中,經過分詞器處理后的每一個詞稱為token,最終RoBERTa模型輸入的編碼向量為token嵌入、位置特征嵌入以及用以區分問題和文章的分割特征嵌入之和。本文使用的RoBERTa模型由12層Transformer編碼器組成,本模型取最后一層編碼輸出作為文本嵌入表示。

      2.混合注意力層

      混合注意力層基于混合注意力機制處理編碼層得到的上下文向量,進而學習文本中更深層次的語義信息,該層是模型的核心部分。本層的混合注意力機制由Synthesizer20中提出的兩種自注意力機制的變體注意力RandomSynthesizer和DenseSynthesizer組成。傳統的自注意力機制通過計算序列中每一個token與序列中其他token的相關度得到權重矩陣,再將歸一化后的權重和相應的鍵值進行加權求和,得到最終的注意力表示。這里的相關度一般通過點積得分矩陣體現,點積自注意力的主要作用是學習自對齊信息,即token對的交互信息。自注意力機制通過比較序列本身捕捉序列和全局的聯系,獲取文本特征的內部相關性。

      這種從tokentoken交互中學習到的注意力權重有一定的作用,但也存在缺點。傳統自注意力機制中的權重包含實例中token對的交互信息,通過計算點積的方式得到每個token與序列其他token的相對重要度。這種方式過度依賴特定實例,僅通過token對之間的相關度決定答案的概率是不穩定的,缺乏一致的上下文聯系,很大程度上會受不同實例影響,不能學習到更多的泛化特征。

      在Synthesizer[19]一文中的實驗表明,與傳統自注意力機制相比,Synthesizer注意力機制得到的權重曲線更加平滑。受其啟發,本文認為這種合成權重矩陣的自注意力機制不會從特定的token中獲益,可以在提取序列關鍵信息的同時減小因不同實例產生的影響,因此本層使用這種合成注意力來提取文本深層信息。這種合成矩陣的注意力與點積注意力或考慮上下文的注意力不同,它不依賴于tokentoken交互的方式生成權重矩陣,受特定樣本的影響較小,能夠學習到較為穩定的權重值。

      3實驗與分析

      3.1數據集

      本文使用CMRC2018評測任務數據集以及DRCD數據集進行實驗。兩個數據集的格式相同,均用于抽取式閱讀理解任務。其中,CMRC2018數據集為簡體中文數據集,DRCD數據集為繁體中文數據集。除對比實驗外,其余幾組實驗均使用CMRC2018數據集。以CMRC2018數據集為例。[Document]白蕩湖位于中國安徽樅陽縣境內,緊鄰長江北岸,系由長江古河床擺動廢棄的洼地積水而成。湖盆位置介于北緯30度47分~30度51分、東經117度19分~117度27分。

      白蕩湖原有面積近100平方公里,經過近五十年的圍墾,目前面積縮小為39.67平方公里,平均水深3.06米,蓄水量1.21億立方米。通過白蕩閘與長江連通,是長江重要的蓄洪湖之一。湖水補給主要依賴降水與長江倒灌,入流的羅昌河、錢橋河等均為季節性溪流,入水量較小。白蕩湖是重要的水產養殖基地,盛產各種淡水魚類與水禽,其中以大閘蟹產量最大。每年冬季開啟白蕩閘排干湖水捕魚,次年月左右再引長江水倒灌,水位至、月份達到最高。

      3.2實驗配置

      本文實驗采用GPU進行訓練,開發語言為Python,深度學習框架為Pytorch。由于本文模型加入注意力層以及BiLSTM,增加了序列之間的交互過程,因此相比基線模型,本文模型的訓練速度更加緩慢。

      3.3評價指標

      本文采用EM值和F1值作為評價指標。EM值為精確匹配度,計算預測答案與真實答案是否完全匹配。F1值為模糊匹配度,計算預測答案與標準答案之間的匹配程度。這兩個指標通常作為抽取式機器閱讀理解的評價指標。

      3.4結果與分析

      3.4.1對比實驗

      為驗證本文提出的模型在中文機器閱讀理解任務的有效性,將本文模型與以下幾個模型進行實驗對比。BERTbase(Chinese)和BERTbase(Multilingual)為CMRC2018評測任務選用的基線模型。RoBERTawwmext21為本文選取的基線模型,該模型針對中文改進預訓練模型中的全詞掩碼訓練方法。MacBERTbase為文獻[2提出的預訓練模型,該模型主要針對mask策略對RoBERTa進行改進.

      本文模型在CMRC2018數據集的EM值和F1值分別達到69.835和88.037,相比復現的基線模型分別提高了2.05和0.465,在DRCD數據集的EM值和F1相比基線模型分別提高了0.256和0.113,在兩個數據集上的表現均優于其他對比模型。實驗結果表明本文模型在性能上有顯著提升,能夠學習到文本的深層語義信息,有效改進了預訓練語言模型。

      3.4.2消融實驗

      為研究混合注意力以及多重融合機制對模型的貢獻,設計消融實驗進一步分析。由于多重融合機制需要混合注意力的輸出信息,因此本節實驗考慮兩部分共同作用的影響。

      4結束語

      本文針對抽取式中文機器閱讀理解任務展開研究,提出了一種基于混合注意力機制的閱讀理解模型。該模型主要從以下兩個方面來改進中文機器閱讀理解模型對文本的理解能力,首先使用兩種自注意力機制的變體模型對序列進行處理,加深對文本語義信息的理解,其次對輸出的注意力進行多層次的融合,使得輸出的序列攜帶更加豐富的信息。大量實驗表明,以上措施提升了模型的理解能力,改進了模型對語義的獲取方法,同時保留了原序列的信息特征,提高了預測答案的準確率。

      分析發現,目前中文機器閱讀理解模型存在答案邊界不準確的問題,因此在下一階段的工作中,考慮將使用分詞器優化模型輸入,將分詞結果作為輸入特征加入序列中,從而優化答案邊界。此外,結合雙向注意力機制,融合文章到問題以及問題到文章雙向的注意力,優化模型結構,加深對文本的理解。

      參考文獻

      [1]HENanqi.Neuralreadingcomprehensionandbeyond[D].PaloAlto:StanfordUniversity,2018.

      [2]DevlinJ,ChangMW,LeeK,etal.Bert:Pretrainingofdeepbidirectionaltransformersforlanguageunderstanding[EB/OL].(20181011)[202107].

      [3]LanZ,ChenM,GoodmanS,etal.Albert:Alitebertforselfsupervisedlearningoflanguagerepresentations[EB/OL].(20190926)[202107].

      [4]LiuY,OttM,GoyalN,etal.Roberta:Arobustlyoptimizedbertpretrainingapproach[EB/OL].(201907)[202107].https://arxiv.org/abs/1907.11692.BahdanauD,ChoK,BengioY.NeuralMachineTranslationbyJointlyLearningtoAlignandTranslate[EB/OL].(20140901)[202107].

      作者:劉高軍,李亞欣,段建勇

    轉載請注明來自發表學術論文網:http://www.zpfmc.com/jjlw/29156.html

    主站蜘蛛池模板: 又黄又爽又色的视频| 伊人久久精品无码麻豆一区| 四虎在线视频免费观看| 久久国产精品无码一区二区三区| 两个人日本免费完整版在线观看1| 青娱乐手机在线视频| 日韩精品卡二卡3卡四卡| 女的张开腿让男人桶爽30分钟| 啊灬啊灬啊快日出水了| 三年片在线观看免费观看大全中国| 美妇岳的疯狂迎合| 成人毛片免费看| 女性扒开双腿让男人猛进猛出| 君子温如玉po| 一本一本久久a久久综合精品蜜桃 一本一本久久a久久综合精品蜜桃 | 99视频都是精品热在线播放| 国产成人综合日韩精品无码| 天天做日日做天天添天天欢公交车| 又黄又爽又色的视频| 中文乱码人妻系列一区二区 | 亚裔玉videoshd和黑人| 精品一区精品二区制服| 尤物yw午夜国产精品视频| 免费少妇a级毛片| 99热在线免费播放| 欧美日韩一区二区三区四区在线观看| 国产精品日韩欧美一区二区| 亚洲伊人久久大香线蕉结合 | 高清无码视频直接看| 欧美精品久久天天躁| 国产精品观看在线亚洲人成网| 亚洲人成网男女大片在线播放| 色噜噜视频影院| 日本欧美视频在线观看| 啊~用力cao我cao烂我小婷| swag在线播放| 欧美精品亚洲精品日韩1818 | 午夜人屠h精品全集| 中文字幕一二三区| 男人和女人爽爽爽视频| 无限看片在线版免费视频大全 |