<abbr id="8ggge"></abbr>
<kbd id="8ggge"><code id="8ggge"></code></kbd>
<pre id="8ggge"></pre>
  • <s id="8ggge"><dd id="8ggge"></dd></s>
    <s id="8ggge"><dd id="8ggge"></dd></s><cite id="8ggge"><tbody id="8ggge"></tbody></cite>
    <kbd id="8ggge"><code id="8ggge"></code></kbd>

    國內或國外 期刊或論文

    您當前的位置:發表學術論文網文史論文》 基于SOLR的標準內容搜索的實現與優化> 正文

    基于SOLR的標準內容搜索的實現與優化

    所屬分類:文史論文 閱讀次 時間:2021-03-24 10:33

    本文摘要:摘要:面對海量的標準信息,信息檢索成為了研究和工作人員關注的問題,尤其是非結構化數據的存儲、集成和索引。本文將Solr搜索引擎技術應用在標準內容的檢索,實現針對標準化對象、具體指標等關鍵詞的搜索,通過分詞器選型和完善詞表等手段,實現搜索效果的

      摘要:面對海量的標準信息,信息檢索成為了研究和工作人員關注的問題,尤其是非結構化數據的存儲、集成和索引。本文將Solr搜索引擎技術應用在標準內容的檢索,實現針對標準化對象、具體指標等關鍵詞的搜索,通過分詞器選型和完善詞表等手段,實現搜索效果的優化。

      關鍵詞:標準文獻,內容搜索,SOLR優化

    標準科學

      1引言

      標準是科學、技術和實踐經驗的結晶,是組織生產的依據,是科學管理的基礎[1]。隨著標準文本信息的采集規模越來越大,對于標準的準確定位困難越來越大,導致用戶不能夠及時獲取所需標準,標準資源也不能夠被很好地利用[2]。針對標準內容,尤其是標準中重要指標描述的搜索成為標準搜索的核心訴求。面對百萬量級各國標準題錄數據,千萬量級的中文標準段落數據,如何精確檢索定位已經成為國內外標準文獻服務及服務單位探索改進標準文獻服務現狀的重要方式[3]。傳統的檢索方式或者咨詢也早就不能滿足廣大用戶的需求,搜索引擎的問世讓大規模的數據有了索引方向[4]。搜索引擎能夠管理大量的文本數據,具有靈活的模式,能夠快速有效地滿足用戶獲取信息資源的需求[5],目前各個行業都能夠充分地利用互聯網資源,其中搜索引擎已經是各個行業利用最多的功能。

      2研究現狀

      盧麗麗等[6]研究提出我國標準文獻領域,服務模式單一、零散、效率低下,已經無法滿足在互聯網環境下客戶對標準信息的需求。信息檢索技術在國內有很多研究,如:布爾檢索法[7]、詞位檢索法[7]、截詞檢索法、限制檢索法[8-9]等方法。對于搜索引擎技術的研究,國內的發展較晚,搜狐在初期也是僅僅基于人工分類。由于中文有很大的難度和含義復雜,處理起來也很困難,這就造成了檢索技術發展緩慢,對于搜索引擎的開發和研究也是近些年才開始展開的。

      一直以來,國內較為流行的全文索引技術包括TRS(TextRetrievalSystem)或者Lucene。陳正思[10]在其論文中研究了基于TRS技術的文獻資源檢索平臺。梅江澤[11]指出當時現存的搜索引擎服務都是利用這兩項技術為基礎搭建的,或者是在其基礎上進行的優化開發來滿足特定的需求。在文獻[12]中研究了關于Solr搜索引擎的核心技術,如:網絡爬蟲Heritrix、網頁解析HTMLParser、中文分詞IK、索引建立、相關度排序等,提出并行索引方式和緩存模型提升了響應速度。丁蔚然[13]研究了針對跨地區的數據平臺融合檢索技術,實現了企業異構信息搜索平臺。

      白波[14]利用Solr進行二次開發,并添加了個性化搜索部分,增強了檢索的實用性。國內首次嘗試個性化推薦是在文獻[15]中提到。目前,國內的搜索引擎技術還尚未成熟,基于Lucene、Solr、ElasticSearch的檢索開發也是近幾年才開始實踐的,隨著互聯網絡的發展、數據的積累,尤其是針對特定企業內部非結構化數據的集成檢索還有待進一步研究。

      3關鍵技術

      3.1Solr

      Solr是一個基于Lucene的全文檢索的服務器,Solr提供了比Lucene更為豐富的查詢語言,同時實現了可擴展、可配置,還提供了完整的查詢優化方案以及集群方案,可以獨立運行在任何主流JavaServlet引擎中,如Jetty和Tomcat,或JBoss、OracleAS這樣的J2EE應用服務器,Solr也為許多大型網站提供導航搜索服務[15]。Solr自帶一些較強的功能,讓搜索更加優化,而且自帶管理界面,使用起來簡單方便、直觀而且功能強大。

      通過很多用戶對Solr的二次開發使用,可以實現分頁與排序、檢索分組、自動建議、拼寫檢查、搜索結果高亮等功能,這些功能基本可以滿足一般的網站檢索開發需求,利用它可以實現大規模文本數據的檢索并根據檢索結果進行相關度排序。Solr的整體結構主要分為3個方面,Solr底層的核心技術還是Lucene,主要功能都在這里完成,包括請求解析、索引的建立、查詢等,索引復制可以通過異步處理或者腳本程序完成[16]。但是Solr是在此基礎上又擴展了Lucene,使其面向企業搜索應用。

      3.2反向索引

      在談論搜索引擎的索引時,會涉及到兩個概念——正向索引(forwardindex)和反向索引(invertedindex):(1)正向索引:從文檔到詞。假如有三個txt文檔,文檔1:Thecowsaysmoo.文檔2:Thecatandthehat.文檔3:Thedishranawaywiththespoon.解析每個文檔出現的單詞,然后建立從文檔(document)到詞(words)的映射關系,這就是正向索引。

      Solr搜索引擎在進行搜索服務時,是基于反向索引的,即針對用戶輸入的檢索詞,基于已有分詞器進行分詞,再針對分詞之后的結果進行搜索,并命中文檔。而反向索引的前提也是Solr搜索引擎基于分詞器,針對標準題錄和全文段落內容,進行反向引擎的構建。因此,使用成熟的Solr搜索引擎的效果優劣,很大程度依賴于分詞器的選型和詞表的優化。

      3.3中文分詞

      在信息處理和檢索領域中,不可或缺的就是中文分詞技術,中文分詞應用在創建索引和查詢語句中,分詞的結果直接能夠影響檢索結果的準確性。眾所周知,英文通常都是以單詞為基本單位,單詞間用空格或逗號、句號分開,這時程序也很容易區分每個單詞。但是中文就不一樣了,中文是每個字為一個單位,字、詞、句都有各自含義,中國漢字語言文化博大精深,語義豐富。但中文“我愛中國”就不一樣了,電腦不知道“中國”是一個詞語還是“愛中”是一個詞語。像這樣,就需要按照人類理解的意思把詞句給拆分成單個字或詞語,并且是有含義的詞,這就稱之為中文分詞,也可叫做切詞。我愛中國,分詞的結果是:“我”“愛”“中”“國”。Lucene自帶中文分詞器:(1)StandardAnalyzer(單字分詞):就是把中文詞句拆分為單個字進行分詞。

      如:“我愛中國”,效果:“我”“愛”“中”“國”。(2)CJKAnalyzer(二分法分詞):把每兩個字拆分為一體。如:“我是中國人”,效果:“我是”“是中”“中國”“國人”。以上兩種自帶分詞器顯然都無法滿足我們對中文分詞需求,因此,必須使用第三方中文分詞器產品來實現中文分詞。如:ik-analyzer、mmseg4j等。mmseg4j由華人Chih-HaoTsai創建,它基于MMSeg算法①實現的中文分詞器,而且包含了lucene的文本解析器和solr的分詞器工廠類,這樣使得該分詞器既能夠在Lucene中使用,也能夠在Solr中使用。MMSeg算法有兩種分詞方法:簡單的正向 匹配和復雜的正向匹配,同樣是基于正向最大匹配,只是復雜的存在四個規則對內容進行過濾[49]。

      mmseg4j使用搜狗詞庫。②IKAnalyzer是一個由國內程序員林良益開源的,基于java語言開發的輕量級的中文分詞工具包。到現在,IK發展為面向Java的公用分詞組件,獨立于Lucene項目,同時提供了對Lucene的默認優化實現。在2012版本中,IK實現了簡單的分詞歧義排除算法,標志著IK分詞器從單純的詞典分詞向模擬語義分詞衍化,IKAnalyzer被認為是最好的Lucene中文分詞器之一,而且隨著Lucene的版本更新而不斷更新,目前已更新到IKAnalyzer2012版本。

      4存在問題

      4.1mmseg4j分詞效果不理想mmseg4j分詞算法提供三種分詞方法:simple、complex和maxword。其中,simple方式基于正向最大匹配,將每個漢字簡單分割成詞匯單元,通常會因為切分太多導致檢索時候出現不需要的搜索結果;complex分詞在simple基礎上,增加了歧義消除規則;maxword為盡量獲取更多的分詞結果。下面分別以“兒童口罩技術規范”為例,用simple、complex、maxword三種方式對下段文字進行分詞測試。

      (1)simple分詞效果。基于詞表,只拆分出長詞,即“兒童口罩”和“技術規范”,對于“口罩”沒有拆分出來,并最終導致Solr搜索“口罩”時,該標準無法被檢索到,這樣的體驗無法接受。

      5解決方案及效果

      5.1使用IKAnalyzerIKAnalyzer的主要邏輯包括三部分:詞典:詞典的好壞直接影響分詞結果的好壞;詞的匹配:有了詞典之后,就可以對輸入的字符串逐字句和詞典進行匹配,這點與mmseg4j類似;消除歧義:通過詞典匹配出來的切分方式會有多種,消除歧義就是從中尋找最合理的一種方式,這項功能體現出IKAnalyzer的優勢。IKAnalyzer的切詞方式主要有兩種,一種為smart模式,一種為ik_max_word即非smart模式。以“兒童口罩技術規范”為例。

      科學論文投稿刊物:《標準科學》由國家質量監督檢驗檢疫總局主管、中國標準化研究院主辦。《標準科學》是中央級“中國科技核心期刊”、“中國科技論文統計源期刊”和“CSSC擴展版來源期刊”;是學術性、權威性、專業性、前沿性、國際性,重點刊載標準科學的最新進展和動態研究成果的大型月刊;是國家質檢總局通過國家標準館,與國外交換的重要刊物之一。

      6結語

      本文將Solr搜索引擎技術應用在標準段落內容和指標的檢索上,研究了Solr及其反向索引和中文分詞等關鍵技術,針對在搜索標準內容和指標中實際遇到的問題,研究解決方案,并通過分詞器的選型和詞表的完善,達到了更好的檢索效果。

      參考文獻

      陳平,褚華.軟件設計師教程(第2版)[M].北京:清華大學出版社,2006.

      甘克勤,張寶林,計雄飛,等.標準大數據實踐(1)——異構數據集成[J].標準科學,2016(1):12-15.

      鮑向榮.淺議新形勢下如何開展標準信息服務工作[J].大科技,2018,(30):20-21.

      丁蔚然.基于Solr的企業異構信息搜索平臺的設計與實現[D].南京:東南大學,2015.

      宋漫莉.網絡環境下用戶信息期望與信息質量關系實證研究[D].天津:天津師范大學,2012.

      盧麗麗,陳云鵬,張寶林,等.標準信息集成研究[J].標準科學,2012(12):28-33.

      作者:趙東海張文華

    轉載請注明來自發表學術論文網:http://www.zpfmc.com/wslw/26230.html

    主站蜘蛛池模板: 久久er99热精品一区二区| 狠狠色噜噜狠狠狠狠av| 精品久久久久久久久久中文字幕 | 男女一边摸一边做爽视频| 日韩一级在线视频| 国产精品免费综合一区视频| 国产成人女人视频在线观看| 亚洲精品国产福利片| 一级做a爰片性色毛片中国| 韩国女友的妈妈| 校草被c呻吟双腿打开bl双性| 在线视频免费国产成人| 出轨的女人hd中文字幕| 中文字幕第3页| 蜜芽忘忧草二区老狼果冻传媒| 曰批全过程免费视频在线观看无码 | 午夜影院在线观看| 久久久久亚洲av成人无码| 337p色噜噜| 每日更新在线观看av| 好爽好深好猛好舒服视频上| 四虎网站1515hh四虎| 久久久亚洲欧洲日产国码aⅴ | 三年片在线观看免费观看大全中国| 韩国免费观看高清完整| 日日夜夜天天久久| 国产一区第一页| 久久99精品久久久久久久久久 | 美女网站在线观看视频18| 日产乱码一卡二卡三免费| 又粗又长又爽又大硬又黄| 中文字幕av无码专区第一页| 色国产在线观看| 无码A级毛片免费视频内谢| 国产一级特黄高清在线大片| 一级毛片免费播放| 永久免费毛片在线播放| 国产欧美在线视频免费| 九九视频高清视频免费观看| 国产交换丝雨巅峰| 日韩av片无码一区二区不卡电影|