<abbr id="8ggge"></abbr>
<kbd id="8ggge"><code id="8ggge"></code></kbd>
<pre id="8ggge"></pre>
  • <s id="8ggge"><dd id="8ggge"></dd></s>
    <s id="8ggge"><dd id="8ggge"></dd></s><cite id="8ggge"><tbody id="8ggge"></tbody></cite>
    <kbd id="8ggge"><code id="8ggge"></code></kbd>

    國內(nèi)或國外 期刊或論文

    您當(dāng)前的位置:發(fā)表學(xué)術(shù)論文網(wǎng)文史論文》 基于深度學(xué)習(xí)算法的學(xué)術(shù)查詢意圖分類器構(gòu)建> 正文

    基于深度學(xué)習(xí)算法的學(xué)術(shù)查詢意圖分類器構(gòu)建

    所屬分類:文史論文 閱讀次 時(shí)間:2021-03-24 10:34

    本文摘要:摘要:[目的/意義]實(shí)現(xiàn)學(xué)術(shù)查詢意圖的自動(dòng)識別,提高學(xué)術(shù)搜索引擎的效率。[方法/過程]結(jié)合已有查詢意圖特征和學(xué)術(shù)搜索特點(diǎn),從基本信息、特定關(guān)鍵詞、實(shí)體和出現(xiàn)頻率4個(gè)層面對查詢表達(dá)式進(jìn)行特征構(gòu)造,運(yùn)用NaiveBayes、Logistic回歸、SVM、RandomForest四

      摘要:[目的/意義]實(shí)現(xiàn)學(xué)術(shù)查詢意圖的自動(dòng)識別,提高學(xué)術(shù)搜索引擎的效率。[方法/過程]結(jié)合已有查詢意圖特征和學(xué)術(shù)搜索特點(diǎn),從基本信息、特定關(guān)鍵詞、實(shí)體和出現(xiàn)頻率4個(gè)層面對查詢表達(dá)式進(jìn)行特征構(gòu)造,運(yùn)用NaiveBayes、Logistic回歸、SVM、RandomForest四種分類算法進(jìn)行查詢意圖自動(dòng)識別的預(yù)實(shí)驗(yàn),計(jì)算不同方法的準(zhǔn)確率、召回率和F值。提出了一種將Logistic回歸算法所預(yù)測的識別結(jié)果擴(kuò)展到大規(guī)模數(shù)據(jù)集、提取“關(guān)鍵詞類”特征的方法構(gòu)建學(xué)術(shù)查詢意圖識別的深度學(xué)習(xí)兩層分類器。[結(jié)果/結(jié)論]兩層分類器的宏平均F1值為0.651,優(yōu)于其他算法,能夠有效平衡不同學(xué)術(shù)查詢意圖的類別準(zhǔn)確率與召回率效果。兩層分類器在學(xué)術(shù)探索類的效果最好,F(xiàn)1值為0.783。

      關(guān)鍵詞:學(xué)術(shù)查詢意圖自動(dòng)識別兩層分類器

    圖書館學(xué)研究

      1 引言

      隨著科學(xué)文獻(xiàn)等學(xué)術(shù)資源的爆炸增長[1],為快速獲取學(xué)術(shù)信息、方便學(xué)習(xí)生活、提高科研工作效率,專業(yè)學(xué)術(shù)搜索引擎從面對少量專業(yè)用戶發(fā)展為面向大量的、不同類型的用戶;從面對單一的科研需求發(fā)展為面向復(fù)雜的多樣性需求[2]。與此同時(shí),由于學(xué)術(shù)數(shù)據(jù)庫(WebofScience、CNKI等)的檢索系統(tǒng)的專業(yè)化,各數(shù)據(jù)庫間不能共享互聯(lián),“一站式”學(xué)術(shù)搜索引擎如百度學(xué)術(shù)、谷歌學(xué)術(shù)成為學(xué)術(shù)查詢的首選[3-4]。

      由于用戶的學(xué)術(shù)背景和學(xué)術(shù)能力不同,在進(jìn)行學(xué)術(shù)查詢時(shí)其需求往往不同。對于使用學(xué)術(shù)搜索引擎的科研用戶,其需要多樣化的學(xué)術(shù)信息,了解研究進(jìn)展、追蹤研究前沿,簡短的查詢表達(dá)式并不足以準(zhǔn)確表達(dá)其學(xué)術(shù)查詢意圖;對于學(xué)術(shù)新手或非科研用戶使用學(xué)術(shù)搜索引擎時(shí),因其對相關(guān)學(xué)術(shù)領(lǐng)域的了解較淺,進(jìn)行學(xué)術(shù)查詢時(shí)的關(guān)鍵詞并不準(zhǔn)確,從而不能獲取精準(zhǔn)的學(xué)術(shù)信息。

      學(xué)術(shù)查詢意圖為用戶進(jìn)行學(xué)術(shù)搜索時(shí)通過查詢表達(dá)式所表達(dá)的用戶信息需求。現(xiàn)有的學(xué)術(shù)搜索引擎多為基于關(guān)鍵詞匹配的搜索技術(shù),不能識別學(xué)術(shù)查詢語句的查詢意圖,而通過對學(xué)術(shù)查詢意圖的識別,可為進(jìn)一步優(yōu)化學(xué)術(shù)搜索結(jié)果、提高檢索效率、節(jié)約用戶時(shí)間,使得用戶的學(xué)術(shù)搜索體驗(yàn)得以提高、獲取更精準(zhǔn)的學(xué)術(shù)信息。  查詢意圖自動(dòng)識別多采用文本分類的算法,研究人員通常針對一個(gè)分類算法,通過組合不同的特征,試驗(yàn)查詢意圖識別的效果。實(shí)驗(yàn)的基礎(chǔ)是查詢意圖的類目體系,而針對學(xué)術(shù)查詢意圖的分類大多在普通查詢意圖的基礎(chǔ)上展開,缺乏學(xué)術(shù)查詢意圖的專門類目體系,在此基礎(chǔ)上,本文的前序基礎(chǔ)研究構(gòu)建了學(xué)術(shù)查詢意圖類目體系,共分為5類:

      (1)學(xué)術(shù)文獻(xiàn)類:指用戶通過查詢式獲取某篇特定的學(xué)術(shù)出版文獻(xiàn),如通過學(xué)術(shù)文獻(xiàn)的標(biāo)題構(gòu)造查詢式進(jìn)行查詢。  (2)學(xué)術(shù)實(shí)體類:指用戶通過查詢獲取學(xué)術(shù)實(shí)體的相關(guān)信息,如科研機(jī)構(gòu)實(shí)體“山東省農(nóng)業(yè)科學(xué)院作物研究所”。  (3)學(xué)術(shù)探索類:指用戶在某個(gè)領(lǐng)域進(jìn)行探索性查詢,需多次交互查詢才可獲取所需的學(xué)術(shù)資源,如對學(xué)術(shù)概念詞“神經(jīng)網(wǎng)絡(luò)算法”進(jìn)行查詢等。 (4)知識問答類:指用戶通過查詢獲取某個(gè)特定問題的答案,如“亞急性甲狀腺炎治愈后會(huì)復(fù)發(fā)嗎?”等問題。  (5)非學(xué)術(shù)文獻(xiàn)類:指用戶通過查詢希望獲取一些政策、行業(yè)報(bào)告等非學(xué)術(shù)文獻(xiàn),如查詢“汽車下鄉(xiāng)的政策”等。  為了適度提高學(xué)術(shù)查詢意圖分類的召回率,本研究構(gòu)建了基于Logistic回歸算法的兩層分類器來實(shí)現(xiàn)學(xué)術(shù)查詢意圖的自動(dòng)識別,提出了適用于學(xué)術(shù)查詢意圖識別的4個(gè)特征:基本信息、詞中信息、實(shí)體信息和出現(xiàn)頻率,并在百度學(xué)術(shù)查詢?nèi)罩緮?shù)據(jù)集進(jìn)行測試和評價(jià)。

      2 相關(guān)研究

      關(guān)于學(xué)術(shù)查詢意圖識別的研究較少,多為面向圖書查詢的意圖識別研究或應(yīng)用,如胡伶霞[5]將圖書檢索的查詢意圖分為單意圖與多意圖并利用詞典對檢索詞進(jìn)行分類,李兵[6]借鑒與完善胡伶霞[5]的圖書檢索的查詢意圖體系用以提高圖書分面檢索的效果。針對學(xué)術(shù)查詢意圖識別研究較少且多聚焦在圖書查詢意圖研究這一現(xiàn)狀,考慮到學(xué)術(shù)搜索是搜索的一個(gè)特定垂直搜索子領(lǐng)域,因此可借鑒綜合搜索引擎中的用戶查詢意圖識別研究。

      以綜合搜索引擎中的用戶查詢意圖為研究對象的查詢意圖識別分類方法可分為人工識別方法[7-8]和自 動(dòng)識別方法[9]。由于查詢意圖人工識別成本較大,多數(shù)研究采用自動(dòng)識別方法,涉及的分類特征以及分類算法歸納如下:

      2.1 查詢意圖自動(dòng)識別的分類特征來源

      查詢意圖自動(dòng)識別的分類特征來源包括“搜索引擎檢索結(jié)果的點(diǎn)擊行為、用戶查詢表達(dá)式”等。J.Brenes等[10]指出用戶的點(diǎn)擊行為是查詢意圖分類的最有效特征,但點(diǎn)擊行為數(shù)據(jù)涉及用戶隱私,存在獲取權(quán)限的問題,僅有Y.Liu等[11]的實(shí)驗(yàn)中利用了點(diǎn)擊分布作為特征進(jìn)行查詢意圖識別。研究人員大多通過對查詢表達(dá)式進(jìn)行分析以獲取綜合搜索中查詢意圖的分類特征,可歸納概括為“基本信息、詞中信息和實(shí)體信息”三類。

      (1)基本信息:指查詢表達(dá)式的長度、詞項(xiàng)個(gè)數(shù)、詞項(xiàng)長度等基本信息,比如N.Belkin[12]通過實(shí)驗(yàn)得出查詢表達(dá)式詞長為2以下的意圖大概率為導(dǎo)航類,詞長越長的查詢表達(dá)式為信息類查詢的概率越大。  (2)詞中信息:指查詢表達(dá)式中所含的詞匯信息。研究者們對該類特征的研究較多,比如B.Jansen[13]和M.Herrera[14]先后總結(jié)了英文綜合搜索中關(guān)鍵詞特征與查詢意圖的對應(yīng)情況;張曉娟[15]總結(jié)了中文綜合搜索查詢中不同意圖類別查詢的特征詞。針對學(xué)術(shù)搜索,M.Khabsa等[16]通過對學(xué)術(shù)搜索引擎CiteseerX的查詢意圖分析,總結(jié)了學(xué)術(shù)搜索中導(dǎo)航類查詢的特征詞,例如是否包含年份、是否包含標(biāo)點(diǎn)符號、是否包含停用詞等。盡管利用查詢表達(dá)式中的詞匯信息作為特征的方法比較簡單,但眾多研究的結(jié)果表明該類特征對查詢意圖的識別較為有效。

      (3)實(shí)體信息:指查詢表達(dá)式中所含有的實(shí)體信息,比如張曉娟[15]將實(shí)體與查詢意圖進(jìn)行分類對應(yīng),總結(jié)出導(dǎo)航類查詢中的實(shí)體多為人名、地名、機(jī)構(gòu)名,資源類查詢中實(shí)體多為游戲名、歌曲名等;Y.Chang等[17]將實(shí)體的自然語言處理結(jié)果作為分類的特征。

      2.2 查詢意圖自動(dòng)識別算法

      查詢意圖自動(dòng)識別算法采用基于查詢表達(dá)式特征的方法對查詢意圖進(jìn)行識別,其本質(zhì)上是一種文本分類方法,在進(jìn)行分類器選擇時(shí),研究者往往會(huì)根據(jù)實(shí)驗(yàn)數(shù)據(jù)集、實(shí)驗(yàn)數(shù)據(jù)特征和具體分類任務(wù)的情況選擇不同的分類算法,如SVM、決策樹、PLAS等,例如,Y.Liu等[11]使用典型決策樹算法將nCS、nRS和點(diǎn)擊分布三種特征結(jié)合起來執(zhí)行識別任務(wù);M.Mendoza[18]利用SVM與PLSA對查詢意圖進(jìn)行歸類;Y.Chang等[17]提出了使用自然語言處理(NLP)的分析結(jié)果作為特征進(jìn)行查詢意圖分類的方法,取得了較好的結(jié)果。查詢意圖自動(dòng)識別的特征與方法大多針對綜合搜索引擎,較少關(guān)注學(xué)術(shù)搜索這一垂直細(xì)分領(lǐng)域,由于學(xué)術(shù)搜索的專業(yè)性與特殊性,其特征與方法并不能直接適用于學(xué)術(shù)查詢意圖的自動(dòng)識別,需在查詢意圖識別的基礎(chǔ)上進(jìn)一步擴(kuò)展,以適應(yīng)學(xué)術(shù)查詢意圖的自動(dòng)識別。

      3 特征選擇與分類器構(gòu)造

      3.1 學(xué)術(shù)查詢意圖的特征提取

      綜合搜索中查詢意圖的特征可從查詢詞中獲得[13],可分為基本信息[12]、詞中信息[13-16]和實(shí)體信息[15,17]三類,結(jié)合學(xué)術(shù)搜索的特點(diǎn),可將學(xué)術(shù)查詢意圖的分類特征擴(kuò)展為基本信息、詞中信息、實(shí)體信息和詞匯出現(xiàn)頻率的統(tǒng)計(jì)特征4個(gè)方面。由于百度學(xué)術(shù)中約占30%的查詢表達(dá)式為英文,因此學(xué)術(shù)查詢意圖分類特征時(shí)對中英兩種語言進(jìn)行了綜合考量。

      4 實(shí)驗(yàn)

      4.1 實(shí)驗(yàn)數(shù)據(jù)

      本研究獲得了由百度學(xué)術(shù)提供的查詢?nèi)罩緸閷?shí)驗(yàn)數(shù)據(jù),該日志記錄了用戶在“百度學(xué)術(shù)”搜索欄中所有的交互信息,每一條數(shù)據(jù)記錄了用戶的唯一標(biāo)識符(UID)、查詢時(shí)間(Time)、查詢表達(dá)式(Query)以及查詢IP地址(IP)。數(shù)據(jù)總量為5414886條,剔除亂碼數(shù)據(jù)、重復(fù)數(shù)據(jù)后,數(shù)據(jù)總量為3449591條,其中1000條數(shù)據(jù)已由原論文作者按照前序研究的學(xué)術(shù)查詢意圖類目體系標(biāo)注了相應(yīng)的類別,本文將這1000條數(shù)據(jù)作為測試集。 在清洗后的數(shù)據(jù)集中,筆者隨機(jī)抽取與測試集不同的4000條數(shù)據(jù)作為訓(xùn)練集,招募了情報(bào)學(xué)專業(yè)研究生一年級,且有相關(guān)標(biāo)注工作經(jīng)驗(yàn)的6名同學(xué),將4000條學(xué)術(shù)查詢數(shù)據(jù)標(biāo)注為“學(xué)術(shù)文獻(xiàn)類”“學(xué)術(shù)實(shí)體類”“學(xué)術(shù)探索類”“知識問答類”和“非學(xué)術(shù)文獻(xiàn)類”五個(gè)類別。具體過程如下:

      (1)為標(biāo)注者介紹了標(biāo)注任務(wù)背景、實(shí)驗(yàn)邏輯和 其標(biāo)注的數(shù)據(jù)集的使用背景。  (2)編寫《學(xué)術(shù)搜索查詢意圖人工標(biāo)注指南》,介紹學(xué)術(shù)查詢意圖類目體系,以1000條測試集中實(shí)例說明了5種學(xué)術(shù)查詢意圖的界限,使標(biāo)注者對查詢意圖的分類有大體感知。

      (3)每兩人一組,獨(dú)立根據(jù)上述要求,對全部分配的數(shù)據(jù)進(jìn)行類別標(biāo)注。前兩組每組分配1340條數(shù)據(jù),第三組分配1320條,合計(jì)4000條數(shù)據(jù)。允許標(biāo)注者在產(chǎn)生標(biāo)注疑惑時(shí)可借助百度的查詢結(jié)果頁內(nèi)容進(jìn)行判斷。  完成人工標(biāo)注任務(wù)后,筆者采用Kappa系數(shù)來衡量標(biāo)注結(jié)果之間的一致性,對上述3組的標(biāo)注結(jié)果進(jìn)行了一致性檢驗(yàn),Kappa值分別為0.776、0.759、0.806。Kappa值均高于0.75,說明標(biāo)注者之間分類判別的一致性較高。對于標(biāo)注結(jié)果不同的數(shù)據(jù),筆者后續(xù)召集了所有的標(biāo)注者對其進(jìn)行討論,并按照多數(shù)性原則最終類別。

      5 總結(jié)與展望

      本研究聚焦學(xué)術(shù)查詢意圖的分類研究,通過對學(xué)術(shù)查詢表達(dá)式進(jìn)行分析,基于已有研究對查詢表達(dá)式從基本信息、詞中信息詞、實(shí)體信息和詞匯出現(xiàn)頻率的統(tǒng)計(jì)特征四個(gè)方面進(jìn)行基礎(chǔ)的特征描述,構(gòu)建了針對學(xué)術(shù)查詢進(jìn)行查詢意圖自動(dòng)識別的兩層分類器,并基于大規(guī)模數(shù)據(jù)的分類特征提取了“關(guān)鍵詞類”特征。對比其他單層分類器相比,本研究提出的兩層分類器在宏平均F1值上取得較好結(jié)果,能夠有效兼顧不同查詢意圖類別的準(zhǔn)確率與召回率。

      圖書館論文投稿刊物:《圖書館學(xué)研究》(ResearchesInLibraryScience)雜志創(chuàng)刊于1979年,由吉林省文化廳主管,吉林省圖書館主辦的圖書館學(xué)刊物,國際刊號:ISSN1001-0424,國內(nèi)刊號:CN22-1052/G2,郵發(fā)代號:12-205,面向國內(nèi)外公開發(fā)行。

      本研究的不足之處在于,由于針對學(xué)術(shù)查詢意圖研究的成果相對較少,缺乏統(tǒng)一的、大規(guī)模的評測數(shù)據(jù)集,因此,本研究的兩層分類器效果難以與其他實(shí)驗(yàn)結(jié)果進(jìn)行橫向?qū)Ρ取O乱徊綄⒅赝茝V學(xué)術(shù)查詢意圖自動(dòng)識別的相關(guān)數(shù)據(jù)集,促進(jìn)不同方法針對學(xué)術(shù)查詢意圖的自動(dòng)識別的橫向?qū)Ρ取?/p>

      參考文獻(xiàn):

      [1]BORNMANNL,RDIGERM.Growthratesofmodernscience:abibliometricanalysisbasedonthenumberofpublicationsandcitedreferences[J].Journaloftheassociationforinformationscienceandtechnology,2015,66(11):2215-2222.

      [2]周劍,王艷,XIEI.世代特征,信息環(huán)境變遷與大學(xué)生信息素養(yǎng)教育創(chuàng)新[J].中國圖書館學(xué)報(bào),2015,41(4):25-39.

      [3]DONGX,GABRILOVICHE,GEREMYH,etal.Knowledgevault:awebscaleapproachtoprobabilisticknowledgefusion[C]//Proceedingsofthe20thACMSIGKDDinternationalconferenceonknowledgediscoveryanddatamining.NewYork:ACM,2014:601-610.

      [4]趙蓉英,陳燁.學(xué)術(shù)搜索引擎Googlescholar和Microsoftacademicsearch的比較研究[J].情報(bào)科學(xué),2014,32(2):3-6,15.

      [5]胡伶霞.圖書館OPAC檢索中基于詞典的查詢意圖自動(dòng)識別[J].圖書館學(xué)研究,2016(23):72-76.

      作者:王瑞雪1方婧1桂思思2陸偉1,3張顯4

    轉(zhuǎn)載請注明來自發(fā)表學(xué)術(shù)論文網(wǎng):http://www.zpfmc.com/wslw/26231.html

    主站蜘蛛池模板: 欧美日韩国产三上悠亚在线看| 亚洲国产精品久久久天堂| 中日韩精品视频在线观看| 91网站在线看| 毛片基地在线观看| 在线A级毛片无码免费真人| 人妻一本久道久久综合久久鬼色 | 被男按摩师添的好爽在线直播| 日韩毛片无码永久免费看| 国产在线视频色综合| 久久久综合视频| 麻豆国产一区二区在线观看| 果冻传媒麻豆电影| 国产无遮挡又黄又爽在线视频| 亚洲精品在线免费观看| 一本丁香综合久久久久不卡网站 | 男生和女生打扑克差差差app| 好男人资源视频在线播放| 国产三级自拍视频| 中文精品久久久久人妻| 羞耻暴露办公室调教play视频| 成年免费A级毛片免费看无码| 变态Sm天堂无码专区| √天堂资源地址在线官网| 美女内射毛片在线看3D | 国产成人精品免高潮在线观看| 久久精品国产亚洲AV网站| 色狠狠久久av五月综合| 岛国在线免费观看| 又粗又硬又大又爽免费观看 | 欧美一级高清免费播放| 国产精品高清一区二区三区不卡| 亚洲国产精品综合久久网各| 日本免费色视频| 日本丶国产丶欧美色综合| 卡一卡二卡三精品| 99精品无人区乱码在线观看| 男女啪啪高清无遮挡免费| 国产超碰人人爽人人做人人添| 亚洲色图欧美另类| sss欧美一区二区三区|