本文摘要:摘要:[研究目的]引文內(nèi)容分析是圖書情報學科經(jīng)典的定性研究方法,對引文內(nèi)容分析的研究與應(yīng)用現(xiàn)狀進行梳理與總結(jié),為未來的研究提供參考。[研究方法]在Scopus數(shù)據(jù)庫中,以citationcontentanalysis、contentbasedcitationanalysis、contentcitationanalysis、in-textcitati
摘要:[研究目的]引文內(nèi)容分析是圖書情報學科經(jīng)典的定性研究方法,對引文內(nèi)容分析的研究與應(yīng)用現(xiàn)狀進行梳理與總結(jié),為未來的研究提供參考。[研究方法]在Scopus數(shù)據(jù)庫中,以citationcontentanalysis、contentbasedcitationanalysis、contentcitationanalysis、in-textcitationanalysis等關(guān)鍵詞進行檢索,在CNKI數(shù)據(jù)庫中以引文內(nèi)容分析、引文語境分析、文內(nèi)引文分析等關(guān)鍵詞檢索,采用人工篩選的方式獲得文獻87篇文獻,從引文文內(nèi)特征、引文語義關(guān)系、引文內(nèi)容本體、應(yīng)用和研究框架等5個方面對當前研究進行了總結(jié)和評述。[研究結(jié)論]引文內(nèi)容分析能夠揭示引文之間深層次的語義關(guān)系,并作出客觀、科學的學術(shù)評價結(jié)論,但引文關(guān)系非常復雜,涉及引用目的、引用動機、引用情感、引用功能等多個因素。對于引文間語義關(guān)系的研究,在生物醫(yī)學領(lǐng)域缺乏具有統(tǒng)一的規(guī)范化的界定和框架。從應(yīng)用角度來看,利用自然語言處理和深度學習技術(shù)實現(xiàn)自動引文情感分類,以識別出具有可重復價值的臨床研究文獻進行推薦,區(qū)分出不可重復的臨床實驗,從而避免醫(yī)學資源浪費是非常有意義的。基于知識實體的引文內(nèi)容分析給學術(shù)評價和科研管理帶來了新的活力,將知識圖譜和引文內(nèi)容分析的有機結(jié)合能夠?qū)崿F(xiàn)智能化知識發(fā)現(xiàn),是值得進一步探索的方向。
關(guān)鍵詞:引文內(nèi)容分析;引文語義關(guān)系;引文內(nèi)容本體;引文分類;學術(shù)評價
在科學研究評價中,引文分析是最為重要的一種評價方法,在期刊評價、世界高校排名中引文數(shù)據(jù)都是重要的參考依據(jù)。在文獻計量分析中,對研究論文影響力的測度通常是通過引文進行的,例如文獻被引頻次、期刊影響因子[1]、H指數(shù)[2]、g指數(shù)[3]等定量計算方法。
引文分析方向投稿知識: 引用率高的論文水平就高嗎
傳統(tǒng)的引文分析方法,只能揭示兩篇文獻之間的引用和被引關(guān)系,所有引文均等同視之,沒有根據(jù)引文的重要性進行區(qū)分,不能說明被引文獻對于施引文獻的具體作用和價值,也沒有考慮到作者在引文文獻時的情感態(tài)度,這種評價難以真實反應(yīng)被引文獻的內(nèi)容和質(zhì)量水平。Metron曾提出引文規(guī)范性理論[4],他認為引文是用于償還智力債務(wù)的一種形式,是對前人智力成果的褒獎或信譽加分,然而隨后有研究發(fā)現(xiàn),存在大量的引文行為并沒有遵循這種規(guī)范,其意圖甚至與之相悖[5],Gilbert也質(zhì)疑莫頓的規(guī)范性假說過于理想化,他認為作者引用某篇權(quán)威文獻是為了支持自己的觀點和結(jié)論[6]。
其實作者在引用文獻時經(jīng)歷了一個復雜的過程,涉及到引用動機、引用目的和引用情感等多個方面[7],作者往往有多種理由去引用文獻,而不同引文在學術(shù)交流的過程中也會發(fā)揮不同的功能。引用行為讓施引文獻和被引文獻之間產(chǎn)生了緊密的聯(lián)系,但這種關(guān)系不僅限于引用和被引,還存在更加復雜的語義關(guān)聯(lián),例如Catalini等[8]利用自然語義處理技術(shù)對JournalofImmunology期刊中的負面引文進行實證研究,發(fā)現(xiàn)了負面引用與高質(zhì)量論文之間存在聯(lián)系。
隨著對引文內(nèi)容分析研究的深入,研究者正在積極探索將引文內(nèi)容在學術(shù)評價中的作用。引文內(nèi)容分析能夠深入的挖掘施引文獻和被引文獻之間的語義關(guān)聯(lián),因為引文文本是作者在引用文獻時做出的評價和解釋,承載了作者引用該文獻的目的和情感偏向,通過對引用語境或引用內(nèi)容進行分類分析能夠揭示文獻引用的深層次語義內(nèi)涵,從而更好地對論文質(zhì)量進行評價。引文分析是圖書情報學科的經(jīng)典研究方法之一,因此本文對已有的基于內(nèi)容的引文分析研究進行梳理總結(jié),重點介紹目前引文內(nèi)容分析領(lǐng)域的研究進展和研究框架,追蹤新的研究熱點,并分析其存在的問題,以期為學術(shù)評價和知識關(guān)聯(lián)領(lǐng)域提供新的視角。
1數(shù)據(jù)收集
我們在Scopus數(shù)據(jù)庫中利用“題名-摘要-關(guān)鍵詞冶途徑進行文獻檢索,采用的檢索式如下:TITLEABS-KEY(“citationcontentanalysis冶)ORTITLE-ABS-KEY(“contentbasedcitationanalysis冶)ORTI鄄TLE-ABS-KEY(“contentcitationanalysis冶)ORTI鄄TLE-ABS-KEY(“in-textcitationanalysis冶)ORTI鄄TLE-ABS-KEY(“citationrelation冶),不限定年代,共獲得文獻205篇。
在CNKI數(shù)據(jù)庫中利用“篇關(guān)摘冶途徑進行檢索,檢索式如下:TKA=引文內(nèi)容分析ORTKA=引文語境分析ORTKA=引文上下文分析ORTKA=文內(nèi)引文分析ORTKA=引文語義關(guān)系ORTKA=引文分類ORTKA=引文本體,不限定年代,共獲得文獻50篇。然后通過人工閱讀題名和摘要,排除引文網(wǎng)絡(luò)分析、文獻計量分析等具體應(yīng)用案例文獻,最終獲得87文獻供進一步分析。
2傳統(tǒng)的引文分析
科學是一個包含研究者、項目和成果的巨大網(wǎng)絡(luò),而引文則是將這些節(jié)點聯(lián)系起來的連線。為了及時追蹤科學前沿,了解文獻及科學發(fā)展動態(tài),1955年,Eu鄄geneGarfield提出了科學引文索引(CitationIndexesforScience)[9],隨后在1963年開始編制和出版科學引文索引,該索引建立之初是用于檢索和追蹤科學文獻信息,但隨后發(fā)現(xiàn)引文數(shù)據(jù)對于文獻和期刊層面的評價起到了重要的促進作用,因此有學者利用文獻獲得的引用次數(shù)來評價該文獻的影響力和質(zhì)量,利用學術(shù)期刊的影響因子來評價期刊的重要性。隨著WebofScience、PubMed、Scopus、GoogleScholar、MicrosoftAcademic等電子文獻數(shù)據(jù)庫的出現(xiàn),文獻的引用和傳播路徑得到了極大的擴展。
對于個人研究者而言,利用引文分析可以發(fā)現(xiàn)更多的相關(guān)文獻,提高檢索效率。而對于學科層面,利用引文分析能夠?qū)茖W活動和行為進行評價。近些年,替代計量學的出現(xiàn)為彌補了傳統(tǒng)文獻計量的不足,為引文分析提供了更多的統(tǒng)計指標,例如讀者閱讀數(shù)量、微博評論數(shù)量等。引文分析在科學地圖繪制、識別研究前沿和熱點、學術(shù)評價、影響因子、論文質(zhì)量評價等領(lǐng)域取得了重要的理論和實踐成果,但傳統(tǒng)的引文分析大多依賴于引文數(shù)據(jù)庫的構(gòu)建,這種模式存在諸多問題:(1)將所有引用等同視之;(2)僅考慮引文頻次或參考文獻數(shù)量;(3)難以揭示施引文獻和被引文獻之間的深層次的語義關(guān)系。
3引文文內(nèi)特征研究
傳統(tǒng)的引文分析從數(shù)量上考察引文的影響力,并不把引文文本信息作為研究對象,而引文文本分析則同時考慮定性和定量因素[10]。
引文文本一般是指引文標識所在的句子或與其上下文句子的集合[11],它能提供施引文獻與被引文獻之間關(guān)系的重要信息。在引文文本分析中有兩個重要的相似概念:引用語境(cita鄄tioncontext)和引用內(nèi)容(citationcontent),根據(jù)Al鄄jaber[12]的觀點,引用語境是指在施引文獻對被引文獻的描述性和評論性文字,而引用內(nèi)容則是指對被引文獻內(nèi)容的描述。ZhuXD[13]也曾提出,當施引文獻中提及一篇參考文獻時,出現(xiàn)在該文獻引文標識附近的文本可當作引用語境。
引文標識是構(gòu)建引用內(nèi)容的基礎(chǔ),引文標識周圍的詞語、語義內(nèi)容、甚至是隱含內(nèi)容都是引用內(nèi)容的一部分[14]。引用內(nèi)容分析和引用語境分析的目的也是不同的,前者是通過引文標識周圍的語義含義了解和評價被引文獻的內(nèi)容特征,而后者旨在研究作者的引用過程,包括引用動機和原因[15]。為了在評估學術(shù)成果時找到更加準確的文獻計量學方法,越來越多的學者開始關(guān)注基于內(nèi)容的引文分析。從20世紀50年代開始,基于內(nèi)容的引文分析主要從引文窗、引文分布兩個方面開展。
3.1引文窗的研究
引文內(nèi)容包含了施引文獻和被引文獻之間關(guān)系的重要信息,關(guān)于引文內(nèi)容的范圍界定雖然沒有統(tǒng)一定論,但有很多學者提出了重要的觀點。2008年Ritchie[16]認為位于引文標識附近的詞語是能夠反映被引文獻內(nèi)容的,并定義了9種引文內(nèi)容,分別是淤不包含任何引用內(nèi)容,于僅包含施引句子,盂包含下一句引文之前的1個句子,榆包含施引句子以及該句子的前后兩句,虞包含下一句引文之前的3個句子,愚包含引文標識左右共50個單詞,輿包含引文標識左右共70個單詞,余包含引文標識左右共100個單詞,俞包含完整的施引文獻。后來的研究者發(fā)現(xiàn)基于句子的方法比基于單詞數(shù)量的方法能更好地識別引文內(nèi)容。2012年,Athar[17]建議使用四句話作為合適的引文窗,即引用的句子、引用句子前面的1個句子、引用句子后面的2個句子。
較長的引用內(nèi)容包含了更多的描述性詞語,因此能夠更好地揭示被引文獻的內(nèi)容。很多學者也將四句話的引文窗作為引文內(nèi)容分析的金標準[18]。2017年,國內(nèi)學者章成志等[19]通過對Morgan&Calypool出版的39本學術(shù)專著的引文內(nèi)容進行標注,發(fā)現(xiàn)專著中引文及其上下文的平均長度(單詞數(shù))在20-30之間,與學術(shù)文獻的結(jié)果比較接近。隨著機器學習在文本分析中的應(yīng)用,引文內(nèi)容的自動分析有了新的進展,雷聲偉等[20]發(fā)現(xiàn)在進行引文上下文識別任務(wù)中,用于文本分類的支持向量機(SupportVectorMachine,SVM)比序列標注的條件隨機場(ConditionalRandomField,CRF)方法更加有效。
4引文的語義關(guān)系研究
引文內(nèi)容的語義關(guān)系分析主要在引用語境和引用內(nèi)容的分析的基礎(chǔ)上,從引文的動機、引文的功能、引文的重要性三個方面開展。
4.1引用動機研究
引文動機是作者在引文文獻時的內(nèi)在心理活動,反應(yīng)了引用文獻的原因和目的,即為什么要引用文獻。有學者認為引用文獻的主要動機是說服讀者[6],或者通過引用已有成果來增加說服力和提高權(quán)威性[27]。學者們希望通過分析和確定文獻被引用的具體原因,從而判斷作者的引用動機和目的。
1964年,EugeneGarfield[28]列舉出了15項作者引用文獻的理由,但是他并沒有深入分析各項理由的出現(xiàn)頻率。該分類體系廣泛而抽象,適用于不同領(lǐng)域,但是分類目之間存在重疊性,如“向先驅(qū)者致敬冶和“確認該出版物討論過某種理念或者概念冶,也沒有關(guān)于“使用前人研究數(shù)據(jù)、方法或成果冶的類目,但是該分類標準為后續(xù)研究奠定了基礎(chǔ)。
5引文內(nèi)容本體研究
5.1將引文作為實體類的本體
很多信息學相關(guān)的本體都將引文(citation)當作一個重要的實體,通過在Ontobee數(shù)據(jù)庫檢索,發(fā)現(xiàn)有18個本體包含了cita鄄tion實體,并共用一個IRI(http://purl.obolibrary.org/obo/IAO_0000301)。在LinY等[53]發(fā)布的InformedConsentOntology本體中,實體citation的定義是“一種用于標識特定出版物的文本實體冶,沒有下位實體,且通過對象屬性isabout與文檔實體(document)產(chǎn)生關(guān)聯(lián),同位類還有文檔題目(documenttitle)、表格(ta鄄ble)、書寫名字(writtenname)等,其父類為文本實體(textualentity)。
在SemanticscienceIntegratedOntolo鄄gy本體中,引文類的定義為一種文本實體,它表示在參考文數(shù)目或者參考文獻部分中描述的文獻來源。同樣沒有子類,其父類是文檔部分(documentcompo鄄nent)。還有一些本體考慮到了引文的特殊功能,例如在NCIThesaurusOBOEdition本體中,將引文說明(cita鄄tiondescription)定義為一種可接受格式的參考書目。
其子類包括臨床研究引文(ClinicalStudyCitation)、研究結(jié)果引用說明(ReferenceToStudyResultsCitationDescription)、研究參考引用說明(StudyReferenceCita鄄tionDescription)。而在Eagle-iresourceontology本體中,定義了引文管理對象(citationmanagementobjec鄄tive)和引文總頻次(globalcitationcount)兩個實體。此外,書目參考文獻本體(BibliographicReferenceOn鄄tology,BiRo)[54]能夠描述單個參考文獻以及它與被引文獻之間的關(guān)系,BiRo種定義了“isreferencedby冶和“reference冶兩個對象屬性,但是沒有涉及引用動機或者理由。在以上本體的結(jié)構(gòu)中,雖然涉及到了引文實體,但是沒有進一步深入引文本身,調(diào)研中我們還發(fā)現(xiàn)了部分本體的構(gòu)建中,考慮到引文間語義關(guān)系、引用行為或引用過程。
6引文內(nèi)容分析對臨床試驗評價的意義
在生物醫(yī)學領(lǐng)域,引文內(nèi)容分析和情感分析對于臨床試驗價值的判斷具有重要的意義。可重復性和可預測性是科學研究的兩大特質(zhì),在過去的十年內(nèi),隨著學術(shù)文獻的爆發(fā)式增長,科學研究的可復現(xiàn)性成為了重要的議題,在很多醫(yī)學科學出版物發(fā)現(xiàn)存在大量不可重復的研究(Non-reproducibleStudy),美國生物醫(yī)藥巨頭安進公司Amgen曾指出,在頂級腫瘤學期刊發(fā)表的論文中,有88%的研究結(jié)果是不可復現(xiàn)的[59],Io鄄annidis等人估計在生物醫(yī)學領(lǐng)域不可重復研究可能占到80%[60,61],而研究中出現(xiàn)的錯誤、行為不當或者欺詐是導致臨床試驗結(jié)果不可再現(xiàn)的主要原因,目前有越來越多的研究論文由于實驗不可重復性而被雜志撤回。
FavresseJ等[62]曾警示臨床醫(yī)生和醫(yī)學實驗人員,參考這些不可重復的研究結(jié)果可能會誤導臨床決策。因此,盡可能早地發(fā)現(xiàn)和識別更多的可重復性低或者存在缺陷的論文,防止科研資源浪費是非常重要的。引文文本中包含了作者引用該文獻的目的和情感偏向,因此科學研究的可重復性可以通過施引文本中的總體情感來評估和判斷,引用內(nèi)容和引用情感分析是評價臨床實驗可重復性價值的重要步驟。
7引文內(nèi)容分析研究框架
從上述研究可以看出,隨著開放科學運動的興起以及自然語義處理技術(shù)的迅猛發(fā)展,引文內(nèi)容分析已從語法分析層面不斷地向語義分析層面深化。語法層面的引文內(nèi)容分析利用文獻的結(jié)構(gòu)和布局來確定引文的位置和數(shù)量,基于此對引文影響力進行評估;而語義層面的引文內(nèi)容分析需要通過解析文本內(nèi)容制定分類框架,以此對引用行為進行判定。根據(jù)已有的引文分析研究體系,并借鑒ZhangGuo[63]的理論框架,我們歸納出了引文內(nèi)容分析的研究框架。
語法層面的引文內(nèi)容分析通常關(guān)注單句引文,例如引文窗的研究涉及引文內(nèi)容和引文語境的界定、引文內(nèi)容的抽取,而在引文影響力的評估中,不同的引用方式反應(yīng)了作者對引用的重視程度,例如簡單提及、詳細解釋和直接引用這三種方式的引文重要性逐漸提高。但是引文內(nèi)容的語法分析往往并不涉及引文的具體內(nèi)容,難以挖掘深層次的語義關(guān)聯(lián)。事實上引用是一個由主觀因素觸發(fā)的內(nèi)在復雜行為,它是作者通過理性、權(quán)衡的形式做出的高性價比選擇。因此,通過預定義的引文分類體系,推斷出引用行為的動機、目的、情感和功能是非常有意義的研究方向。隨著線性判別分析、主題模型、詞向量等技術(shù)的應(yīng)用,文獻之間的語義相關(guān)性判別變得更加高效,產(chǎn)生了引文推薦預測、自動引文摘要等重要的研究方向。
8結(jié)語
本文對引文分析的發(fā)展歷程、引文文內(nèi)特征、引文語義關(guān)系和引文內(nèi)容本體的研究進行了梳理總結(jié)。此外,還提出了引文內(nèi)容分析的研究框架。傳統(tǒng)的引文內(nèi)容分析方法將所有引文等同視之,難以揭示引文之間的深層次語義關(guān)系并作出客觀、科學的學術(shù)評價結(jié)論,在二十世紀中葉,得益于數(shù)據(jù)挖掘和自然語言處理算法的進步,引文內(nèi)容分析逐步從人工化、小規(guī)模、少樣本的模式向半自動化、大規(guī)模、海量樣本的模式蛻變。而引文關(guān)系非常復雜,涉及引用目的、引用動機、引用情感、引用功能等多個因素,不同學科間存在差異性,單一體系很難詳盡闡釋引文關(guān)系的內(nèi)涵,隨著新媒體時代的發(fā)展,引文語義關(guān)系呈現(xiàn)出演進與變化趨勢。
對于引文間語義關(guān)系的研究,目前學界缺少系統(tǒng)性描述和定義,尤其是生物醫(yī)學領(lǐng)域,雖然有從修辭角度研究引用關(guān)系的,但尚無引文語義關(guān)系與文本分類相關(guān)本體,缺乏具有統(tǒng)一的規(guī)范化的界定和框架。從應(yīng)用角度來看,引文內(nèi)容分析以及廣泛應(yīng)用于科研行為評價、科研數(shù)據(jù)管理、信息檢索、自動摘要、引文推薦和預測、學術(shù)傳播和知識挖掘等研究方向。
具體來說,在臨床醫(yī)學領(lǐng)域,利用自然語言處理和深度學習技術(shù)實現(xiàn)自動引文情感分類,以識別出具有可重復價值的臨床研究文獻進行推薦,區(qū)分出不可重復的臨床實驗,從而避免醫(yī)學資源浪費是非常有意義;此外,文獻是知識的載體,在學術(shù)評價和管理過程中,應(yīng)該將評價對象進一步細粒度化為文獻中包含的知識實體,這些實體包括但不局限于數(shù)據(jù)集、知識元、方法、工具和理論等,因為這些知識實體是引文內(nèi)容中的核心,是作者具體的引用對象。
可以預見,基于知識實體的引文內(nèi)容分析和計量分析將賦予文獻計量分析范式轉(zhuǎn)移的巨大勢能,而EugeneGarfield的引文索引網(wǎng)絡(luò)可以進一步演化為知識實體引用關(guān)系網(wǎng)絡(luò),對于開展學術(shù)史研究的人員,能夠更細粒度地梳理學科發(fā)展歷程中的知識流動和演進;2012年Google提出知識圖譜這一新的知識表示模式,產(chǎn)生了大量的概念驅(qū)動或?qū)嶓w驅(qū)動的圖譜,而數(shù)據(jù)集、視頻、網(wǎng)頁、博客等非著作型的引文內(nèi)容由于具有數(shù)字資源可定位性、唯一性,更加適合利用知識圖譜的方式進行引文內(nèi)容分析,如何更好地將這些實體引文圖譜與其他開放資源產(chǎn)生關(guān)聯(lián),并實現(xiàn)智能化知識發(fā)現(xiàn)是未來值得進一步探索的方向。
參考文獻
[1]GarfieldE.Citationanalysisasatoolinjournalevaluation[J].Science,1972,178(4060):471-479.
[2]HirschJE.Anindextoquantifyanindividual'sscientificre鄄searchoutput[J].ProceedingsoftheNationalAcademyofSci鄄encesoftheUnitedStatesofAmerica(PNAS),2005,102(46):16569-16572.
[3]EggheL.Theoryandpractiseoftheg-index[J].Scientometrics,2006,69(1):131-152.
[4]MetronR.TheSociologyofScience:TheoreticalandEmpiricalInvestigations[M].UniversityofChicagoPress,1973.
[5]GerasA,SiudemG,GagolewskiM.Shouldweintroduceadis鄄likebuttonforacademicarticles?[J].JournaloftheAssociationforInformationScienceandTechnology,2020,71(2):221-229.
[6]GilbertGN.ReferencingasPersuasion[J].SocialStudiesofSci鄄ence,1977,7(1):113-122.
作者:周志超
轉(zhuǎn)載請注明來自發(fā)表學術(shù)論文網(wǎng):http://www.zpfmc.com/wslw/28821.html