<abbr id="8ggge"></abbr>
<kbd id="8ggge"><code id="8ggge"></code></kbd>
<pre id="8ggge"></pre>
  • <s id="8ggge"><dd id="8ggge"></dd></s>
    <s id="8ggge"><dd id="8ggge"></dd></s><cite id="8ggge"><tbody id="8ggge"></tbody></cite>
    <kbd id="8ggge"><code id="8ggge"></code></kbd>

    國內或國外 期刊或論文

    您當前的位置:發表學術論文網經濟論文》 基于被引逆文檔權重的專家專長識別與分析> 正文

    基于被引逆文檔權重的專家專長識別與分析

    所屬分類:經濟論文 閱讀次 時間:2021-08-20 10:20

    本文摘要:摘要:[目的/意義]識別專家專長有助于發現具有相同或相近研究方向的研究者,對開展細粒度的專家評價與分析具有重要意義。[方法/過程]基于學術論文關鍵詞構建專長種子詞典,采用語義相似度計算對詞典進行擴展與對齊;融合專長術語被引頻次、作者貢獻率與專長術

      摘要:[目的/意義]識別專家專長有助于發現具有相同或相近研究方向的研究者,對開展細粒度的專家評價與分析具有重要意義。[方法/過程]基于學術論文關鍵詞構建專長種子詞典,采用語義相似度計算對詞典進行擴展與對齊;融合專長術語被引頻次、作者貢獻率與專長術語逆文檔頻率,提出專家專長術語的被引-逆文檔權重計算方法;結合專長權重得分及排名,識別專家的代表性研究專長,并進行專家評價與分析。[結果/結論]經實驗驗證,本研究提出的專家專長識別方法能夠客觀地反映專家專長的影響力,同時在細粒度專家評估、專家推薦以及學科熱點分析等相關領域具有一定的實踐參考價值。

      關鍵詞:信息計量語義挖掘專長識別專家評價

    圖書管理信息

      1引言

      2020年10月,中共中央國務院出臺《深化新時代教育評價改革總體方案》,強調高校教師科研評價的重要性,并提出要根據不同學科、不同崗位特點,堅持分類評價,推行代表性成果評價,探索長周期評價,完善同行專家評議機制,注重個人評價與團隊評價相結合[1]。然而,隨著新興學科、交叉學科的不斷涌現,多樣化的信息資源與科研成果數量大、種類多、更新快等特點,使得傳統信息計量學方法無法滿足新時代的科技人才評價需求。

      因此,如何應對融合態的哲學社會科學發展趨勢,制定細粒度的科學人才評價管理體系,提升多元化的科技人才隊伍建設水平,進而優化學科資源的利用效果,促進新時代學術科研創新發展,成為了當前亟待解決的問題。隨著“小同行”概念的提出,研究者開始對學科領域內相同或相近研究方向的專家開展細粒度評價與分析。識別專家專長可以發現“小同行”專家群體,并支持專家遴選、開展多維專家評價與分析工作。

      統計法是最常見的專家專長識別方法,李剛等基于詞頻提取專家專長,并對我國圖書情報與檔案管理領域的相似研究專家進行聚類及可視化分析[2];在考慮文檔位置的基礎上,唐曉波等通過統計醫生學術成果的關鍵詞,構建醫生畫像的成果特征[3];劉曉豫等將關鍵詞作為候選專長術語,抽取作者-關鍵詞矩陣,并結合TFIDF加權構建專家專長[4]。

      部分研究者基于網絡分析方法進行專長識別,朱偉珠等在詞頻分析的基礎上構建了概念知識網絡,并采用Kcore層次理論劃分學科領域的層次結構及其研究子群[5];劉萍與周夢歡提出了基于共詞網絡的專家專長識別方法[6]。陳罛等則將TextRank和概念鏈接技術相結合識別表示專家專長的候選專長術語,并基于署名位序與被引數等信息,使用層次分析法為專長術語分配權重[7]。此外,部分研究者基于主題分析識別專家專長,張曉娟等利用PLSA對每位專家的論文產出進行主題建模,并分析圖情領域專家的研究領域[8],陳紅伶等將Word2vec詞向量模型與LDA主題模型相結合,構建專家特征并識別學術共同體[9]。

      目前專家專長識別方法較為局限,大部分研究者采用統計術語詞頻的方法構建專家專長標簽,且在術語權重的計算中引入了一定的主觀因素。基于領域知識庫識別專家專長需要集合專家知識進行領域本體構建,而基于主題分析等方法抽取的專家專長識別方法則又存在可解釋性較差等問題。當前專家專長識別相關研究大多以專家研究成果的相關文本或網絡關系來抽取代表性專長,忽略了成果對學科領域所產生的影響以及專家在成果中的貢獻大小等因素。

      因此,本研究提出了基于被引-逆文檔權重的專家專長識別方法。將論文關鍵詞與詞向量模型相結合,自動構建專家專長術語詞典。融合作者貢獻率、被引頻次與專長術語逆文檔頻率,提出專長術語權重計算方法。通過計算專家的專長權重得分進行排序,最終提取專家的代表性專長標簽。本研究提出的專家專長識別方法能夠結合相關領域研究者規模、專家在相關領域中的影響力等因素,客觀地提取出專家的代表性專長,對專家評估、專家推薦與學科熱點分析等方面而言具有重要實踐意義。

      2相關研究

      2.1專家學術評價研究

      學界針對專家評價開展了多方面的探索,傳統研究者主要通過篇目分析法、引文分析法對科技人才進行評價[10]。較為經典的專家評價方法包含h指數[11]與p指數[12],其主要通過一定時期內發表論文數及被引數等構建專家評價指標。同時部分研究者從論文數、署名位序及發表時間等方面優化評價指標并構建了衍生專家評價指數[13-15]。但劉中興與楊建林指出,我國圖情領域專家的個人學術評價指標使用仍處于發展階段,學者們主要針對h類指數的指標開展研究,而對個人學術綜合評價的多元指標融合途徑研究較少,包括個人學術評價在內的學術評價研究仍需要進一步完善[16]。

      近年來,社會網絡分析[17-18]、主題分析[8]與專家知識地圖[19-20]等也逐漸成為了學科領域開展專家評價與分析的常見方法;此外,部分研究者還構建了專家知識圖譜進行專家評估與分析,常見的專家知識圖譜包括了基于合作關系的專家知識圖譜、基于文檔內容分析的專家知識圖譜、基于鏈接分析的專家知識地圖的圖譜、綜合內容分析和鏈接分析的專家知識圖譜等[21]。但是,目前專家的細粒度評價與分析研究還相對較少,由于學科或研究方向存在差異性等因素,僅以分數來評價專家的影響力是存在局限性的。同時,在專家評價相關研究中,學者通常選擇特定領域的部分專家開展分析,其研究方法不能對海量專家學者進行細粒度的影響力評價。

      2.2關鍵詞抽取與專長詞典構建

      基于領域知識庫的專家專長表示方法能夠對專家專長進行準確的描述,為構建能夠反映領域知識的專長詞典,需要從研究成果中抽取出能夠反映和區分研究主題的術語。常見的專長詞典構建方法是利用作者給出的論文關鍵詞,如范曉玉等采用科研人員發表的文獻關鍵詞,構建專家的研究主題及興趣標簽[22]。部分研究者通過統計從論文摘要中挖掘的關鍵詞構建專長詞典,如毛進等選擇專家研究成果中的高頻名詞代表專家的研究專長[23]。同時,陳罛等則將詞共現網絡與TextRank相結合來形成學術專長候選詞[7]。

      隨著自然語言處理領域的發展,一部分研究者對于如何從學術論文摘要及正文中識別關鍵詞開展了研究,并將詞向量模型[24]與深度學習模型[25]引入論文關鍵詞抽取任務中。此外,領域知識庫也受到了學者的關注,陸偉等將中國圖書館分類法與管理科學主題詞表相結合,構建圖情領域專家專長詞典,將不同專家的研究成果進行映射[26];胡月紅和劉萍通過抽取學術論文領域術語,并基于關聯規則、形式概念分析,挖掘術語間的關系,構建情報學領域本體[27]。基于專家知識與領域本體構建術語詞典的方法,不僅需要海量的專家領域知識,同時在應對新興研究熱點時往往會有遲滯性。而通過TextRank等算法或自然語言處理方法自動構建術語詞典,雖然能夠減少專長本體的人工標注成本,但也帶來了可解釋性較低、不能有效表示詞與詞之間關系等問題。

      2.3署名位序與作者貢獻研究

      在學科融合、學科交叉的背景下,越來越多的專家傾向于采用合作的方式開展研究,不同的署名位序能夠直接體現專家的貢獻大小。本研究對圖書館、情報與文獻學領域發表的5萬余篇論文的作者進行統計分析后發現,獨立作者發表的文章數量呈遞減的趨勢。署名位序往往和專家在研究中的貢獻大小相關[28],也帶來了科研成果的專家貢獻比例分配問題[29]。

      丁敬達等基于其構建的作者貢獻率測度方法,提出通過計算專家按研究貢獻率得分的總被引頻次[30],評價該專家在該領域的學術影響力。本研究采用N.T.Hagen提出的作者貢獻率等級分配公式[31]計算專家在論文中的貢獻度,將專家署名位序及貢獻率計算方法應用于專家專長詞權重計算,從而將表示論文影響力的被引頻次按照貢獻率進行分配,凸顯文章的重要貢獻者,體現重要作者在該研究領域的科研影響力。

      3基于被引-逆文檔權重的專家專長識別模型框架

      從研究成果中提取專家被研究領域所認可的研究專長是開展細粒度專家評價與分析工作的前提,本文通過對海量論文數據進行分析,將專長術語被引頻次、作者貢獻率與專長術語逆文檔頻率相結合,構建基于被引-逆文檔權重的專家專長識別模型。該框架主要包括數據預處理、專長術語詞典構建以及專家專長表示3個部分。

      3.1數據預處理

      為保證數據的完備性,在數據預處理階段將采集自多平臺的中文期刊論文數據進行整合,并提取規范的學術論文數據以開展進一步分析。本文的數據預處理流程主要包括:(1)數據獲取。基于知網、萬方數據庫導出目標期刊論文的元數據,采用selenium構建爬蟲,爬取論文被引數據。(2)數據清洗及篩選。數據清洗主要將不同數據庫論文數據進行規范化,合并數據后篩選過濾標題摘要過短、作者字段為空以及重復的樣本,并定義規則去除其中的通知、收稿資訊等相關記錄。

      3.2專長術語詞典構建

      關鍵詞是對論文內容進行高度凝練和概括的詞[22],能夠較好地反映專家的研究方向及研究能力。本研究采用領域近10年發表論文數據為研究對象,以文本中的關鍵詞構建專長種子詞典,將種子詞典作為外部詞典引入分詞工具中,經過對摘要和標題進行分詞、去停用詞等預處理,構建Word2vec詞向量模型。從論文標題、摘要中提取高頻詞作為擴展候選詞,基于詞向量模型進行語義相似度比較。采用與種子詞典中具有高相似度的擴展候選詞,建立關鍵詞-擴展候選詞同義詞表。

      在后續的自然語言處理過程中,以同義詞表將文本中異形同義的擴展候選詞轉化為規范化的關鍵詞。同時,采用與種子詞典中關鍵詞相似程度均較低的候選詞構建專長擴展詞典,識別出與種子詞典中關鍵詞含義均不同的高頻詞,并通過人工過濾該詞典中不能有效反映專家研究方向及研究能力的詞。最后,將種子詞典與專長擴展詞典進行整合,得到基于語義擴展的專長詞典。

      3.3專家專長表示

      專家專長表示包括專長詞提取及專長詞權重計算兩部分。在專長詞提取部分,采用同義詞表將原文中的高頻詞轉化為標準化表達的專長術語,并將專長種子詞典與專長擴展詞典相融合,然后利用該詞典標注論文數據集中的專長術語。最后,提取出各專家的的專長詞與相關論文信息。在專長權重計算部分,本研究采用專長術語所在論文被引數作為主要因素之一,以專家在相關領域所產生的影響力大小客觀衡量專長的權重得分。

      由于詞向量模型的訓練語料規模存在局限性,部分在語義擴展階段引入的詞匯不能有效反映專家專長,與此同時,逆文檔頻率能夠反映字詞是否有較好的類別區分能力[32],因此本文將逆文檔頻率引入專長詞權重,如公式(2)所示。通過計算專長詞在論文數據集中的逆文檔頻率,一方面能夠過濾不能表征論文研究內容的常用詞,另一方面能夠將相關研究領域的規模作為考量因素,避免領域專家研究內容的趨同性,從而促進多研究方向共同發展。此外,在權重得分計算中引入基于專家署名位序的作者貢獻率因素,能夠有效凸顯相關領域的重要研究者。

      4實驗與結果分析

      4.1數據采集

      本研究以南大核心CSSCI來源中文期刊目錄(2019-2020)中圖書館、情報與文獻學領域的20個期刊為研究對象,通過知網采集學術論文元數據,同時以萬方進行數據補充。采集2010年1月1日至2020年4月25日期間發表的論文相關信息共54698篇。采集字段包括來源庫、題名、作者、單位、文獻來源、關鍵詞、摘要、發表時間、第一責任人、基金、年、卷、期、頁碼、分類號以及被引次數,元數據主要通過知網及萬方提供的數據服務導出,被引次數基于Selenium構建爬蟲采集。在數據預處理階段,將萬方、CNKI數據庫來源的論文數據進行整合,去除標題摘要過短、作者字段為空的樣本,并去除其中的通知、收稿資訊等相關記錄,合并重復記錄,最終獲得文章共49399篇。

      4.2實驗過程

      為挖掘能夠描述專家專長的術語,本文以論文數據集中詞頻大于3的關鍵詞構建專長種子詞典,共計7990個詞。將專長種子詞典導入jieba分詞工具的外部詞典,經對論文數據集的標題和摘要進行分詞、去停用詞等預處理,設定參數維度為100,上下文窗口大小為5,最低詞頻3次訓練Word2Vec詞向量模型。

      從標題與摘要中提取詞頻大于100的高頻詞作為擴展候選詞,基于詞向量模型對高頻詞與專長種子詞典中的關鍵詞進行語義相似度比較。若高頻詞能夠從專長種子詞典中發現相似度大于0.9的關鍵詞,則選擇最相似的關鍵詞構建關鍵詞-擴展候選詞同義詞表,共建立關鍵詞-擴展候選詞映射關系94對。若高頻詞與專長種子詞典中的關鍵詞相似度均低于0.6,則將該高頻詞納入專長擴展詞典,刪除沒有意義的詞如“在內”“兩種”等,最終構建包含37個詞的專長擴展詞典如“核心”“背景”和“新穎”等。最終,通過關鍵詞-擴展候選詞同義詞表將論文中的高頻詞進行規范性表達,同時融合專長種子詞典與專長擴展詞典,構建基于語義擴展的專長詞典,詞典共包含8027個詞。

      首先,將論文的標題與摘要進行分詞、去停用詞處理,其次,通過關鍵詞-擴展候選詞同義詞表將其中部分的高頻詞替換為標準化表達的關鍵詞,并將處理后的標題、摘要與文章的關鍵詞進行拼接,構建該論文的詞表。通過基于語義擴展的專長詞典保留論文文本中選擇能夠較好反映專家專長的詞。最后,在經過預處理的論文數據集中計算專長術語的逆文檔頻率。同時,提取各專家相關的署名序位、論文被引次數等信息,并基于專家署名位序計算專家在論文中的貢獻率。 其中,基于被引-逆文檔權重方法識別結果顯示,邱均平在計量分析可視化和計量工具研究(CiteSpaceII)專長方面的得分最高,而基于TFIDF的實驗結果得出“五計學”是其具有代表性的研究專長。

      通過分析相關研究成果可知,邱均平在“五計學”相關領域共發表4篇論文,主要集中于2019年,且該概念的相關研究專家僅有18人。而基于被引-逆文檔權重的方法選取了邱均平專家高被引的研究成果構建其代表性專長標簽,并綜合了不同專長詞研究者規模因素選擇專長術語,如在“CiteSpaceII”的相關研究內容中,最高被引249次,“學科知識擴散”相關研究分別被引48和54次。

      為驗證基于被引-逆文檔權重方法的有效性,本研究在發文量大于3的專家中隨機選擇了100位專家,分別使用兩種方法提取專家得分最高的專長,并對該專長的相關論文進行可視化分析。其中,被引-逆文檔權重方法用以提取專家專長的論文采用公式3計算專家專長術語權重得分,將專家專長按照權重得分進行排序,得到專家的代表性研究專長。

      4.3結果分析

      為驗證本研究提出的基于被引-逆文檔權重的專家專長識別方法的有效性,本文進行三部分的實證分析:首先,對本研究提出的識別方法和TFIDF方法的專家專長識別效果進行對比;其次,抽取多位專家的代表性專長,并開展特定研究專長的權威研究者分析以及針對不同研究階段專家學者的專長影響力評價;最后,選取研究領域高h指數專家抽取其代表性專長,進行科研團隊熱門研究主題分析。

      4.3.1專家專長識別對比分析

      TFIDF算法是較為常用的專家專長識別方法之一,分為詞頻與逆文檔頻率兩部分,該算法考慮了關鍵詞對文檔的重要性及類別區分能力。本研究利用TFIDF方法與本研究提出方法進行專家專長識別效果的對比。將每一位專家相關的論文信息進行整合,利用基于語義擴展的專長詞典構建專家關鍵詞的TFIDF矩陣。以邱均平為例,兩種方法提取出的權重得分前10的專家專長對比:共132篇,篇均被引數為17.72次,而TFIDF方法用以提取專家專長的論文共155篇,篇均被引數為8.66次。

      TFIDF方法用以抽取專長的論文被引數普遍較低,說明該方法在抽取專長時僅考慮了相關研究內容的數量及研究者規模,易于在研究者規模較小的研究內容中選擇專長詞。而本研究提出的方法所采用論文的平均被引數遠高于TFIDF方法。因此,本文認為基于被引-逆文檔權重方法抽取的專長能夠反映專家被同行所認可的代表性研究方向,并且能夠挖掘出研究領域較新且認可度較高的研究主題,對于促進學科多研究方向共同發展具有重要意義。

      4.3.2專家專長評價

      本文提出的專家專長識別方法,能夠從多維度開展專家評價與分析。計算領域研究者的專長權重得分并排序,能夠挖掘研究領域的權威專家,或評價專家在該領域的研究影響力。以“大數據”相關研究為例,將 題名、關鍵詞或摘要中包含“大數據”的論文作為研究對象,統計領域內的專家論文信息并計算其專長權重得分。

      此外,對專家的代表性專長及其專長權重進行分析,能夠有效評價專家的學術影響力。本研究基于國內“十二五”期間CSSCI情報學領域高產作者與高被引作者排名、高產青年作者與高被引青年作者排名[33],按權重得分提取專家的代表性研究專長并構建雷達圖,同時展示其在該專長上的影響力排名。

      通過對不同研究階段的專家進行對比分析發現,學科高產與高被引研究專家往往在多個研究方向上均有較為深厚的學術積淀,與此同時,青年研究專家也能夠通過其研究積累,在主要的部分研究方向上取得較為優秀的成績。本研究所提出的專家專長識別方法綜合考慮了專家在專長領域的貢獻大小,并基于專長術語研究領域規模為專家選擇了代表性專長,能夠直觀反映出專家研究在學科領域中的影響力,并有利于促進專家的個人成果建設,支持開展多維度的專家評價工作。

      圖書館評職知識: 圖書情報副研究館員職稱評選條件

      5結語

      本文基于詞向量模型構建了描述專家專長的詞典,并將專長術語被引頻次、作者貢獻率與專長術語逆文檔頻率計算公式相融合,提出了基于被引-逆文檔權重的專家專長識別方法。該方法能夠基于專家的代表性研究成果提取專家專長,同時考慮研究者規模和論文影響力等因素,從學科領域影響力維度豐富了現有的專家專長識別方法。同時,該方法能夠挖掘特定專長的權威專家、開展細粒度的專家評價以及分析學科領域熱點等。實驗結果初步驗證了本研究所提出的專家專長識別方法的有效性,為專家評價與學科分析提供了新視角。但本文所構建的專家專長識別方法仍存在一定不足,例如數據集僅采用了南大核心CSSCI來源中文期刊目錄相關論文,且在數據選擇過程中未對綜述、實證研究等不同類型的論文加以區分。

      此外,通過論文關鍵詞與詞向量模型語義擴展構建專長詞典,不能有效地揭示學科與術語的關系,不能有效區分描述研究主題和研究方法的術語,以及存在部分細粒度專長術語仍然需要專家知識進行解析才能夠較好地描述專家專長。因此,如何融合學科領域知識本體,進一步優化專家專長識別方法,構建更加全面系統的細粒度專家評價模型,還有待進一步的研究探索。

      參考文獻:

      [1]國務院辦公廳.深化新時代教育評價改革總體方案[EB/OL].[2021-01-15].http://www.gov.cn/zhengce/202010/13/content_5551032.htm.

      [2]李剛,余益飛,杜雯.高校LIS教師群體中的“小同行”研究(2001-2010年)[J].圖書情報知識,2011(6):78-85.

      [3]唐曉波,高和璇.基于特征分析和標簽提取的醫生畫像構建研究[J].情報科學,2020,38(5):3-10.

      [4]劉曉豫,朱東華,汪雪鋒,等.多專長專家識別方法研究———以大數據領域為例[J].圖書情報工作,2018,62(3):55-63.

      [5]朱偉珠,李春發.基于概念知識網絡的“小同行”評議專家遴選方法實證研究[J].情報雜志,2017,36(7):78-83,88.

      [6]劉萍,周夢歡.基于共詞網絡的專家專長挖掘[J].情報科學,2012,30(12):1815-1819.

      [7]陳罛,李楠,梁冰,等.基于成果特征的學者學術專長識別方法[J].圖書情報工作,2019,63(20):96-103.

      [8]張曉娟,陸偉,程齊凱.PLSA在圖情領域專家專長識別中的應用[J].現代圖書情報技術,2012(2):76-81.

      [9]陳紅伶,楊佳穎,許鑫.基于題錄摘要語義建模的學術共同體識別———以國內圖情領域學者為例[J].情報理論與實踐,2020,43(5):170-176.

      作者:唐曉波1,2周禾深1李詩軒3牟昊4

    轉載請注明來自發表學術論文網:http://www.zpfmc.com/jjlw/27858.html

    主站蜘蛛池模板: 里番acg全彩本子同人视频| 日本一线a视频免费观看| 欧美亚洲人成网站在线观看刚交| 日本伊人色综合网| 国产视频福利在线| 可以看污的网站| 久在线精品视频| 久久99精品国产麻豆宅宅| 2019天天做天天拍天天夜| 绝世名器np嗯嗯哦哦粗| 日韩欧美亚洲国产精品字幕久久久| 国内精品人妻无码久久久影院导航| 午夜dj在线观看免费高清在线| 久久精品亚洲日本波多野结衣| eeuss影院在线观看| 色视频www在线播放国产人成| 欧美一区二区三区久久综合| 在线日韩理论午夜中文电影| 可播放的欧美男男videos| 一级一级特黄女人精品毛片| 青青青青啪视频在线观看| 欧美yw精品日本国产精品| 国产手机在线αⅴ片无码观看| 兽皇videos极品另类| 久久99蜜桃精品久久久久小说| 色婷婷综合久久久久中文字幕| 日韩a级片在线观看| 国产精品亚洲w码日韩中文| 亚洲色成人www永久网站| 一级毛片一级毛片免费毛片| 艹逼视频免费看| 性xxxxfeixxxxx欧美| 国产三级精品三级男人的天堂| 久久精品亚洲一区二区| 色综合久久88色综合天天| 性色AV无码中文AV有码VR| 免费a级毛片无码专区| yellow字幕网在线播放不了| 精品视频一区二区三区四区| 无套内射无矿码免费看黄| 国产一级特黄高清免费下载|