本文摘要:摘 要:[目的/意義]關鍵詞是描述科技文獻內容特征的最小知識單元,在文獻檢索工作中發揮著重要作用。針對關鍵詞語義關系缺乏限制檢索效果的問題,挖掘了關鍵詞層次關系,以優化檢索結果。[方法/過程]通過分析層次結構整體特征、關鍵詞涉及的研究主題與關鍵詞間的概念重
摘 要:[目的/意義]關鍵詞是描述科技文獻內容特征的最小知識單元,在文獻檢索工作中發揮著重要作用。針對關鍵詞語義關系缺乏限制檢索效果的問題,挖掘了關鍵詞層次關系,以優化檢索結果。[方法/過程]通過分析層次結構整體特征、關鍵詞涉及的研究主題與關鍵詞間的概念重合關系,歸納了概念范圍、概念距離與概念距離指數等概念以規范、指導層次結構建立工作,并借助層次結構實現了科技文獻檢索。[結果/結論]以實證數據為例,演示了關鍵詞層次結構構建步驟,探討了層次結構在科技文獻檢索中的作用,從結果來看層次結構具有明確檢索目標、擴大檢索范圍、拓展檢索知識的作用。
關鍵詞:科技文獻檢索;層次結構;共詞分析;文本語義挖掘
引言
科技文獻檢索是科研工作的重要一環,具有啟迪思路、開拓視野的作用。然而,學科大數據時代的來臨,在豐富科研資源的同時,也為科技文獻檢索工作帶來一定困難。近年來,期刊論文、會議論文、學位論文、專利文本等類型的科技文獻數量不斷激增。據中信所統計,僅就卓越科技論文而言,2020 年中國卓越科技論文數量為 46.38 萬篇相較于 2019 年的 38.73萬篇增長近 20%[1-2]。
科研工作者正面臨科技文獻數量持續增長,知識檢索難度日益增加的困境,如何對科技文獻檢索工作進行優化以滿足廣大科研工作者的需求已成為亟待解決的問題。目前,學者在探索科技文獻檢索問題時,常用的思路是從文獻內部挖掘細粒度知識并對其進行組織以實現標引[3-4]。
科技文獻中的知識,其表現形式通常又以標題、作者、摘要、關鍵詞等文獻元數據與大量的文本內容為主,在其中關鍵詞是表征文獻內容的最小知識單元,因其便利性已被廣泛應用于文獻組織與檢索工作[5-6]。在基于關鍵詞挖掘文獻間知識關聯并提供檢索服務時,關鍵詞之間的共現關系常被用于實現知識挖掘,但存在同類詞間關系難挖掘[7]、詞間邏輯關聯較缺乏[8]、整體語義挖掘不全面等問題[9]。
為解決上述問題,更好地發揮關鍵詞在科技文獻檢索中的作用,本文在共詞分析的基礎上,進一步挖掘了關鍵詞所關聯的研究范圍以及不同關鍵詞間研究范圍的重合度,以確定關鍵詞在研究范圍中的上下位關系,厘清關鍵詞間的邏輯關聯與語義脈絡,從而建立關鍵詞層次結構,并將關鍵詞層次結構應用于科技文獻檢索中,提高檢索工作的效率與質量。
1 研究現狀及述評
1.1 基于關鍵詞的科技文獻檢索
目前在基于關鍵詞的科技文獻檢索工作中,基于檢索目的有兩種常見研究思路,一是通過挖掘關鍵詞之間的關系,對查詢關鍵詞進行擴展以擴大檢索范圍,例如,H.Rakhshani 等基于 BabelNet 對關鍵詞進行消歧與同義擴展,并將處理后的關鍵詞用于訓練機器學習模型實現相關文獻檢索[10];Yang 在建立語言模型的基礎上。
計算了法律領域內關鍵詞間概念相似度,并進一步通過詞共現關系挖掘相似詞實現了檢索擴展[11];趙蓉英等通過共詞分析方法得到關鍵詞共現矩陣,并利用層次聚類方法來進行關鍵詞聚類,通過詞聚類結果來檢索文獻[12];張孝飛等基于 WordNet 計算查詢詞與其他詞的相似度進行查詢詞概念擴展,擴展出同義詞、上下位詞來實現查詢擴展[13]。另外一種是通過計算查詢關鍵詞與文獻的相似度,對檢索結果進行篩選。
例如,Liao 等在用 TF-IDF 方法分配關鍵詞權重的基礎上,構建了文獻-關鍵詞網絡,并通過隨機游走算法對網絡權重進行調整以揭示關鍵詞與文獻的關系從而實現最相關文獻檢索[14];Li 等從用戶日志中提取關鍵詞數據用于訓練具有文獻標題分類與檢索功能的 DNN 與 CNN 模型,從結果來看將關鍵詞用于模型訓練能找到與用戶需求關聯較強的文獻[15];阮光冊等通過主題模型與關聯規則方法來對用于共詞分析的關鍵詞進行篩選以提高文獻檢索效果[16];吳漢卿等在對關鍵詞進行共詞分析的基礎上通過度中心性確定重要關鍵詞來進行文獻檢索[17]。
1.2 關鍵詞層次關系
挖掘關鍵詞層次關系挖掘其目的旨在使得詞間關系實現從扁平化向層次化的轉變,即對關鍵詞之間的同義、上下義等關系進行抽取并建立等級結構。目前,在挖掘關鍵詞間層次關系時,常見的思路是從共現關系著手,先尋找相關詞再進一步挖掘詞間上下位關系。
例如,G.Tibély等以復雜網絡理論為基礎,依靠加權網絡與共現關系從網絡中提取關鍵詞的層次關系,并在后續研究中將其應用于在線新聞門戶的關鍵詞層次關系挖掘,證明其在關鍵詞語義挖掘上的價值[18-19];Li 等依據關鍵詞的共現關系、詞對關系及 TF-IDF 方法建立了關鍵詞層次結構并驗證了其在查詢擴展上的有效性[20];N.Akhtar 等將形式概念分析與關鍵詞共現關系相結合,探索了從文獻集合中抽取關鍵詞層級的可行性[21];熊回香等依據關鍵詞的抽象化程度及共現關系對關鍵詞層次關系進行挖掘[22-23];房小可等進一步將熊回香所提方法應用到個性化推薦中,驗證了關鍵詞層次關系挖掘的必要性[24]。
1.3 現狀述評
通過對相關文獻的回顧,可以發現在基于關鍵詞進行文獻檢索時,要挖掘關鍵詞之間及關鍵詞與文獻間關系主要有詞典挖掘、深度學習模型挖掘、詞共現挖掘三種方法。其中,詞典挖掘因為詞典建立需要消耗大量人力成本而難以滿足當前需求,深度學習模型挖掘在檢索關聯較高文獻時具有不錯效果但難以實現較好擴展,詞共現挖掘可以檢索出相關文獻但相較于基于詞典的方法其在語義理解及可擴展性上存在一定不足。
在共詞分析的基礎上進一步挖掘詞間層次關系是解決現存問題的有效思路,層次關系基于共詞分析又兼具部分詞典功能,將其應用于文獻檢索具有不錯前景。但是,現有研究在挖掘關鍵詞間層次關系時,主要聚焦于如何從兩個詞之間的共現關系出發延展得到上下位關系,而忽略了詞與層次結構中其他詞的聯系,也尚未探討整個層次結構應該具有哪些特征,構建關鍵詞層次結構應依照何種標準等問題。總體而言,關鍵詞層次結構的建立體系還有待完善,需要結合相應理論并從應用角度出發對其進行系統性的探討與改進,才能更好的構建關鍵詞層次結構,并將其應用于科技文獻檢索等工作。
2 研究思路與框架
2.1 層次結構相關概念
為清晰地論述本文思路,首先對文中所用有關層次結構概念進行界定。
1)關鍵詞概念范圍。在本文中,概念范圍是指與關鍵詞相關的研究的范圍大小,若與關鍵詞相關的研究主題越多,則關鍵詞概念范圍越大,一般的概念范圍可用關鍵詞涉及的文檔數表示,即關鍵詞出現在越多的科技文獻中則其概念范圍越大。
2)關鍵詞詞頻。因本文所選擇的關鍵詞僅為科技文獻作者直接標注的詞,不包括從題目、摘要或全文中通過文本內容挖掘方法提取出的詞,故關鍵詞在一篇科技文獻中出現的次數只有 0 或 1 兩種可能,進而可用關鍵詞在文獻集中的詞頻來表示關鍵詞涉及的文檔數,即用關鍵詞詞頻來表示關鍵詞概念范圍。3)關鍵詞概念距離。若兩個關鍵詞的概念范圍存在重合,且概念范圍不完全一致,則可以說兩個關鍵詞之間存在概念距離。對于關鍵詞 j 來說,關鍵詞 i 相對于關鍵詞 j 的概念距離可通過公式(1)計算。
2.2 層次結構構建基礎
如前文所述,在為關鍵詞建立層次結構時應從系統、整體、全面的角度出發,既應考慮到關鍵詞間的上下層級相關性,又應對層次結構的整體特性進行考量。
1)關鍵詞間相關性。關鍵詞間相關性在本文中主要指關鍵詞間的父子關系,該關系的確立大致可以分為三個步驟:首先,比較兩個關鍵詞概念范圍,概念范圍較大的關鍵詞屬于上一層級,概念范圍較小的關鍵詞屬于下一層級;隨后,計算關鍵詞之間的概念距離,并依據概念距離設定一閾值判斷關鍵詞之間是否具有足夠強的相關性;最后,綜合關鍵詞的概念范圍及關鍵詞之間的概念距離確立父子關系,形成父子關系的關鍵詞之間應具有較強的相關性,父節點概念范圍大于子節點概念范圍,且父子節點之間的概念范圍差值應大于一定閾值。
2)層次結構整體特性。層次結構的整體特征主要是指在建立層次結構時應考慮到層次結構整體的概念范圍、層次結構的穩定性以及不同層級之間的概念范圍差。
其中,層次結構的概念范圍大小主要由組成結構的各節點概念范圍決定,首先,所選的根節點概念范圍越大,則層次結構整體可達到的概念范圍上限越大,其次,加入層次結構的子節點概念范圍越大,則能使得層次結構整體概念范圍越接近其上限;層次結構的穩定性即是前文所提的層級穩定性,用以判斷關鍵詞是否能繼續分化;不同層級之間的概念范圍差則是前文所提的層級概念差,用以判斷層級的概念范圍是否隨著層級的遞進而濃縮。
2.3 層次結構構建框架
在前文論述的基礎上,本文從層級間相關性出發對關鍵詞之間的父子關系進行挖掘,從層次結構整體特性出發對關鍵詞之間的層次結構進行規范與完善,建立了相對系統、完整的關鍵詞層次結構構建框架。
1)數據收集與處理層。從文獻數據庫中采集科技文獻數據,進行數據的篩選與統計工作,對關鍵詞出現的文檔數及關鍵詞共現情況進行統計分別得到關鍵詞詞頻與關鍵詞共現關系。
2)關鍵詞父子關系挖掘層。依據關鍵詞詞頻得到關鍵詞概念范圍,結合關鍵詞概念范圍以及關鍵詞共現關系計算關鍵詞概念距離,綜合關鍵詞概念范圍與關鍵詞概念距離挖掘關鍵詞父子關系,并計算關鍵詞概念范圍指數,為關鍵詞層次結構構建奠定基礎。
3)層次結構構建層。以關鍵詞概念范圍判斷其自身關聯的研究范圍大小,以關鍵詞概念范圍指數判斷其依據父子關系可延伸擴展的概念范圍大小,結合自身及可擴展的概念大小確定根節點,并依次為其加入具有較大概念范圍及概念范圍指數的子節點,子節點全部加入層級后再將子節點作為新的父節點并重復上述過程完成關鍵詞層次結構的初步構建。
4)層次結構優化層。在初步建立關鍵詞層次結構后,統計每一層及的節點數,并進行上下層級節點數的比較從而分析層級穩定性;計算層級的平均概念范圍,并得到上下層級之間的層級概念差從而分析層級在概念范圍上的遞進關系;綜合層級穩定性與層級概念差對關鍵詞層級進行優化與修改,完成關鍵詞層次結構的構建。
2.4 文獻檢索及評價方法在完成層次結構構建后,下一步是將層次結構應用于科技文獻檢索中,以科研工作者為服務對象,探究檢索效果。本文從兩方面探討基于關鍵詞層次結構的文獻檢索效率,其一是考察通過層次結構是否能檢索到更多相關文獻,其二是探究通過層次結構是否能找到一些具有拓展性的文獻。對于第一點。
本文分別選取位于不同層級的關鍵詞來進行文獻檢索,以期發現通過哪一層級的關鍵詞進行檢索能找到更多文獻,其效果通過文獻查全率判斷;對于第二點,本文在通過不同層級關鍵詞進行文獻檢索的基礎上,對相鄰層級檢索結果進行對比,分析通過不同關鍵詞找到的文獻是否具有一定的區別,其效果通過文獻重合率判斷。下面分別對文獻查全率與文獻重合率的計算方法進行說明。
3 層次結構構建實證
本文選擇情報學領域為研究對象,通過從中國知網上采集情報學期刊論文數據進行研究實證,情報學是一門具有交叉學科特點的應用型學科,該學科中的論文具有較強的學科交叉性,會應用到多學科的理論與方法,以其作為研究對象具有較強的普適性,相關成果能較為容易地遷移到其他學科。在本章中首先基于 2.3 節所提框架進行層次結構構建實證。
3.1 數據收集與處理
我們對《中國圖書館學報》《情報學報》《情報科學》《情報理論與實踐》《情報雜志》《情報資料工作》《數據分析與知識發現》《圖書情報工作》《圖書情報知識》《圖書與情報》《現代情報》與《信息資源管理學報》共 12 種情報學核心期刊 2020 年度發表的科技文獻進行采集,隨后對文獻進行篩選,去除“本刊訊”、“人物訪談”等類型的文獻,僅保留解決實際問題的文獻,最后共收集到相關文獻 4667 篇。
3.2 層次結構
初步構建完成數據處理后,層次結構的初步構建可分為預選根節點、確立根節點、加入子節點以及層級遞進 4 個步驟。
1)預選根節點。在選擇根節點時,首先按詞頻排序選擇靠前的 10 個具有較大概念范圍的關鍵詞作為預選根節點。
2)確立根節點。對于預選根節點,計算其與其他詞間概念距離,并計算概念距離閾值從而確定子節點,而后計算子節點概念范圍與概念范圍指數 μ。通過比較詞間概念距離本文將概念距離閾值設為 0.25。
“大數據”“影響因素”與“網絡輿情”具有較高的概念范圍指數與子節點數,分別計算三個詞概念范圍達到指數 μ 的子節點與其的平均距離,以衡量詞間緊密程度。其中,“大數據”的平均概念距離為 0.271,“影響因素”的平均概念距離為 0.331,“網絡輿情”的平均概念距離為 0.290。進行綜合考慮后,選擇關鍵詞“影響因素”作為根節點。
3)加入子節點。首先,選擇與“影響因素”概念距離 λ 達到 0.25 且概念范圍達到 7 的 9個關鍵詞作為候選子節點。隨后,為控制節點數,設置父節點最多具有 5 個子節點,計算候選子節點的概念范圍與概念范圍指數 μ。最后,若候選子節點數大于 5,則依次比較其概念范圍指數 μ,概念范圍達到 μ 的子節點數以及概念范圍(詞頻),按大小先后加入層次結構。子節點數據如表 5 所示。
4)層級遞進。按照先后順序加入子節點后,將子節點作為新的父節點,重復步驟 3)逐步向層次結構中加入新的節點。初步構造了以“影響因素”為第一層級的,具有 5 層結構的關鍵詞層次結構。
3.3 層次結構優化
在初步建立層次結構之后,需按照層級穩定性與層級概念差對其優化。1)層級穩定性。如表 6 中的數據,從第一層級至第四層級,每層節點數呈現穩定增長趨勢,而從第四層級至第五層級,節點數僅增加 8 個,第四層中關鍵詞難以繼續分化概念,即層次結構在第四層時達到穩定。2)層級概念差。依據表 6 中的數據比較每一層級的概念范圍均值,可以發現從第一層級至第四層級,層級之間均存在一定差值,而從第四層級至第五層級,差值接近于 0,即第四層級與第五層級間概念遞進性較差。綜合層級穩定性及層級概念差,對層次結構進行優化調整,僅保留前四層級。
4 科技文獻檢索實證
在構建層次結構后,本章將進行科技文獻檢索實證,以探討基于層次結構的文獻檢索效果。
4.1 測試數據的選擇
因本文是對不同層級中關鍵詞的檢索效果進行對比,故以構建的“影響因素”層次結構為參照,設置第一層-第二層、第二層-第三層、第三層-第四層共三組比對組,對于每組從采集的 4667 篇科技文獻中篩選出十篇同時含有相鄰層級關鍵詞的文獻,最后共篩選出測試文獻30 篇。
4.2 檢索結果探析
依據文獻查全率結果,對于一篇科技文獻中的關鍵詞,其所處層級越深,則通過該關鍵詞可檢索到的參考文獻越多,且隨著層級的增長,處于較深層級的關鍵詞相較于處于較淺層級的關鍵詞在查全率上的優勢也會逐漸遞增。
基于文獻重合率結果,通過不同層級關鍵詞檢索到的文獻具有一定的重合,但重合率會隨著層級的遞進而逐漸縮小,即可說明具有上下級關系的關鍵詞查找的文獻范圍具有較大差異,且差異程度隨著層級的遞進而增強,通過層次結構可以發現一些拓展性較強的知識。此外,通過層次結構也可以對科研工作者的檢索意圖進行明確,例如,若同時以關鍵詞“科研人員”與“科學數據素養”作為檢索詞,借助層次結構,可以推測其有較大可能要進行與“影響因素”有關的研究。
5 結束語
關鍵詞是科技文獻特征的直觀體現,已被廣泛應用于科技文獻檢索工作中。為了提高基于關鍵詞的科技文獻檢索效果,本文在共詞分析的基礎上,通過梳理相關文獻,提出了一個系統、完整的關鍵詞層次結構構建框架,并驗證了層次結構在科技文獻檢索工作中的具體效果。從結果來看,層次結構具有明確科研工作者檢索目標,擴展檢索結果,引申相關知識的作用。在今后的研究中可以進一步探討層次結構構建思路,嘗試將其與實體識別、關系抽取等工作相結合,或是對其應用進行拓展與深化從而達到更好的科研輔助效果。
參考文獻:
[1] 中 國 科 學 技 術 信 息 研 究 所 .2020 中 國 卓 越 科 技 論 文 報 告 [EB/OL].[2022-03-19].
[2] 中 國 科 學 技 術 信 息 研 究 所 .2021 中 國 卓 越 科 技 論 文 報 告 [EB/OL].[2022-03-19].
[3]XU Mingying, DU Junping, XUE Zhe, et al. A semi-supervised semantic-enhanced frameworkfor scientific literature retrieval[J]. Neurocomputing, 2021, 461(2): 450-461.
[4]張敏,丁良萍,劉歡.面向科技文獻的多維語義索引構建思路及實現[J].情報理論與實踐,2021,44(8):139-145
.[5]柴慶鳳,史霖炎,梅珊,等.基于人工特征和機器特征融合的科技文獻知識元抽取[J].數據分析與知識發現,2021,5(8):132-143.
[6]趙京勝,朱巧明,周國棟,等.自動關鍵詞抽取研究綜述[J].軟件學報,2017,28(9):2431-2449.
[7]胡昌平,陳果.科技論文關鍵詞特征及其對共詞分析的影響[J].情報學報,2014,33(1):23-32.
[8]胡昌平,林鑫. 科技文獻檢索中基于主題詞表分面化改造的分面構建 [J].情報學報,2015,34(8):875-884.
作者:熊回香,葉佳鑫(華中師范大學信息管理學院,湖北 武漢 430079)
轉載請注明來自發表學術論文網:http://www.zpfmc.com/wslw/29985.html