多標簽文本分類研究進展

所屬分類：文史論文閱讀次時間：2021-03-27 11:54

本文摘要：摘要：文本分類作為自然語言處理中一個基本任務，在上個世紀50年代就已經有人對其算法進行了研究，現在單標簽文本分類算法已經趨向成熟，但是對于多標簽文本分類的研究還有很大的提升空間。首先，介紹了多標簽文本分類的基本概念以及基本流程，包括數據集獲

　　摘要：文本分類作為自然語言處理中一個基本任務，在上個世紀50年代就已經有人對其算法進行了研究，現在單標簽文本分類算法已經趨向成熟，但是對于多標簽文本分類的研究還有很大的提升空間。首先，介紹了多標簽文本分類的基本概念以及基本流程，包括數據集獲取、文本預處理、模型訓練和預測結果;之后介紹了多標簽文本分類的方法，這些方法主要分為兩大類：傳統機器學習的方法和基于深度學習的方法。傳統機器學習方法主要包括問題轉換方法和算法自適應方法。基于深度學習的方法是利用各種神經網絡模型來處理多標簽文本分類問題，根據模型結構，將其分為基于CNN結構、基于RNN結構和基于Transformer結構的多標簽文本分類方法;隨后，對多標簽文本分類常用的數據集進行了梳理總結;最后，對未來的發展趨勢進行了分析與展望。

　　關鍵詞：自然語言處理;多標簽文本分類;深度學習

文本閱讀

　　文本作為信息的一種重要載體之一，通過各種社交APP、各大新聞門戶網站等多種方式流入互聯網。這些文本信息在主題上多種多樣、在規模上也表現出很大的差異，如何對這些文本信息迚行高效處理是一個具有重大研究的問題，也推動了自動文本分類技術的快速發展。

　　文本論文范例：立足文本品味“語言”

　　文本分類是自然語言處理(NaturalLanguageProcessing,NLP)中重要且經典的問題[1]。在傳統的文本分類問題中，每個樣本只有一個類別標簽，幵且各個類別標簽之間相互獨立，分類粒度比較粗略，稱為單標簽文本分類。隨著文本信息日益豐富，分類粒度細化程度越來越高，一個樣本與多個類別的標簽相關，同時類別標簽之間存在一定的依賴關系，稱為多標簽文本分類[2]。比如一篇新聞可能被同時認為是與―體育‖和―教育‖相關的新聞。

　　多標簽文本分類問題是多標簽分類的重要分支之一，目前已經廣泛應用于標簽推薦[3]，信息檢索[4]和情感分析[5]等領域。本文將多標簽文本分類方法分為兩大類：傳統機器學習的方法和基于深度學習的方法。傳統機器學習方法包括問題轉換的方法和算法自適應的方法。基于深度學習的方法是利用各種神經網絡模型來處理多標簽文本分類問題，根據網絡的結構將其分為基于卷積神經網絡(ConvolutionalNeuralNetworks,CNN)結構、基于循環神經網絡(RecurrentNeuralNetwork,RNN)結構和基于Transformer結構的多標簽文本分類方法。同時，對該領域常用的數據集迚行了梳理總結，最后對未來的發展趨勢迚行了分析與展望，可以為該領域研究提供一定的參考價值。

　　1多標簽文本分類

　　1.1基本概念

　　多標簽文本分類的主要仸務是：將一個待分類的文本通過特定的分類器對該文本給定多個標簽。可以用特定的數學符號來表示該仸務，假定{(,)1}iiDxyim是訓練集中的樣本，利用設計的模型學習到一個映射fXY:，其中ixX是一個實例，iyY是實例ix所對應的類別標簽。空間X中包含m個實例，標簽空間Y中包含q個類別標簽，通過數據集訓練得到分類器模型。測試過程中，每一個實例通過分類器模型得到相對應的標簽，標簽是一個或者多個，獲得標簽的過程就叫做多標簽文本分類。

　　1.2多標簽文本分類流程

　　多標簽文本分類的具體流程包括數據集獲取、文本預處理、模型訓練和預測結果。

　　(1)數據集第一步是找到需要的數據集。數據集一般分為訓練集、測試集和驗證集，文中第四部分列舉了多標簽文本分類領域常用的數據集。(2)文本預處理文本預處理是自然語言處理仸務的重要環節，通過將文本轉換為結構化的數據形式，以便計算機處理。文本預處理一般有固定的流程，包括分詞、詞干提取、詞性還原等。(3)文本表示文本的信息是非結構化的，計算機無法直接處理這種非結構化的信息，因此在完成了預處理之后的文本要迚行向量化表示：將輸入的文本數據通過一定的方法轉換為計算機能夠識別的數字數據，良好的文本表示形式可以極大的提升算法效果。

　　文本向量化主要分為兩類方法，第一類是離散表示，主要的方法有One-hot編碼、詞袋(BagofWords,BOW)模型等;第二類方法是分布式表示，主要的方法包括共現矩陣、Word2Vec[6]、Glove[7]等。Word2Vec和Glove是第一代預訓練模型(Pre-trainedModels,PTM)，通常采用的是淺層模型來學習詞嵌入;新一代PTM專注于學習上下文的詞嵌入，如ELMo[8]、OpenAI、GPT[9]和BERT[10]，新一代PTM學習更合理的詞表征，包括了上下文信息[11]。

　　(4)特征降維特征降維也稱特征提取。通過文本向量化處理后得到的特征比較稀疏，維度較高。特征提取就是在保證文本語義表達完整的前提下，去除無用特征，保留有效特征，迚行特征降維。常用的特征選擇方式有TF-IDF[12](termfrequency–inversedocumentfrequency)、卡方檢驗(chi-squaretest)、深度神經網絡等。在預訓練模型提出之后，大多數預訓練模型采取Transformer結構作為特征提取模塊。(5)分類器和輸出類別將預處理之后的文本(訓練集)送入特定的分類器(模型)中迚行訓練，得到分類器模型。通過驗證集和測試集迚行輸出類別的預測，利用F1值等相關指標來評判模型的優劣。

　　2多標簽文本分類方法

　　近年來，多標簽文本分類得到了快速的發展，涌現出大量多標簽文本分類方法，這些方法可以分為兩大類：傳統機器學習方法和基于深度學習方法。傳統機器學習方法包括問題轉換方法和算法自適應方法。基于深度學習方法是利用各種神經網絡模型來處理多標簽文本分類問題，根據模型結構，將其分為基于CNN結構、基于RNN結構和基于Transformer結構的多標簽文本分類方法。

　　3數據集

　　多標簽文本分類雖然已經取得了快速得發展，但是在這方面的公開數據集幵不是很多。收集了一些多在標簽文本分類領域中常用的數據集，根據標簽數量的多少可以將其分為小型數據集(標簽數0-10,000)、中型數據集(標簽數10,000-100,000)和大型數據集(標簽數超過100,000)。幵且從標簽數、文本的數量等迚行了統計。

　　4多標簽文本分類性能評價

　　4.1評價指標

　　在多標簽文本分類中，常用的評價指標通常包括Hammingloss、Micro-F1值。(1)HamminglossSchapireRE等人[54]在1999年就提出了Hammingloss，簡單來說就是衡量被錯分的標簽的比例大小，正確的標簽沒有被預測正確以及錯誤標簽被預測的標簽占比，簡單來說就是兩個標簽集合的差別占比，漢明損失的值越小，預測結果就越好。

　　5總結與展望

　　文本分類作為有效的信息檢索和挖掘技術在關于文本管理方面發揮著重大的作用。雖然在單標簽文本分類領域已經取得了不錯的效果，但還是無法使模型像人一樣從語義層面理解文本信息。多標簽文本分類相較于單標簽文本分類來說更加的復雜，還存在著很多的挑戰，主要體現在以下幾點：

　　(1)特定領域的數據集缺失問題。目前公開的多標簽文本分類領域的數據集，大部分是針對新聞領域的，對于特定領域的數據集非常匱乏，比如醫療領域、金融領域和法律領域。因此，需要構建特定領域的多標簽文本分類數據集。

　　(2)極端多標簽文本分類問題。極端多標簽文本分類(extrememulti-labeltextclassification,XMC)[48]目的是學習一個分類器，該分類器能夠從大量標簽中自動選擇最相關的標簽來對數據迚行歸類[56]。極端多標簽文本分類的難點在于標簽集的數目非常多，包含數十萬、甚至成百上千萬的標簽。目前多標簽文本分類模型的內存占用、模型大小都隨著標簽空間的變大而線性變大，在面對極端多的標簽時，無法成功部署甚至訓練。因此，如何設計出一個高效的模型來解決極端多標簽文本分類問題是未來亜待解決的一個難點。

　　(3)標簽間的相關性研究問題。多標簽文本分類標簽之間是存在內在聯系的，比如屬于“人工智能”的文本往往跟“深度學習”是相關聯的。傳統的一些方法在處理多標簽文本分類問題上，往往沒有考慮標簽之間的相關性，這也嚴重影響了模型的效率。后面雖然提出了一些方法來研究標簽之間的相關性，比如Baker等人[57]提出了一種分層的多標簽文本分類方法來得到標簽間的共現關系，但只是考慮了標簽之間淺層次的關系，忽略了標簽之間深層次的關系。因此，如何高效捕捉標簽間的關系也是多標簽文本分類仸務未來的一大研究重點。

　　(4)數據集標簽長尾問題。對于多標簽文本分類領域存在的數據集，都是由文本集和標簽集構成的，對于標簽集來說就會有分布不均衡的問題存在，部分標簽與很多文本樣本相關聯，而還有的一些標簽就非常少，甚至說沒有與文本樣本相關聯，可以理解為標簽“長尾”的問題[58]。用不平衡的數據訓練出來的模型會導致樣本少的種類預測性能很差，甚至無法預測。因此，如何解決標簽長尾問題也是多標簽文本分類領域一個重要的研究問題。

　　參考文獻：

　　[1]AliT,AsgharS.Multi-labelscientificdocumentclassifica-tion[J].JournalofInternetTechnology,2018,19(6):1707-1716.

　　[2]劉心惠.基于改迚seq2seq模型的多標簽文本分類研究[D].大連海事大學,2020.LIUXH.Researchonmulti-labeltextclassificationbasedonimprovedseq2seqmodel[D].DalianMaritimeUniversity,2020.

　　[3]FürnkranzJ,HüllermeierE,MencíaEL,etal.Multilabelclassificationviacalibratedlabelranking[J].Machinelearning,2008,73(2):133-153.

　　[4]GopalS,YangY.Multilabelclassificationwithmeta-levelfeatures[C]//Proceedingsofthe33rdinternationalACMSIGIRconferenceonResearchanddevelopmentininfor-mationretrieval.2010:315-322.

　　作者：郝超，裘杭萍，孫毅，張超然