<abbr id="8ggge"></abbr>
<kbd id="8ggge"><code id="8ggge"></code></kbd>
<pre id="8ggge"></pre>
  • <s id="8ggge"><dd id="8ggge"></dd></s>
    <s id="8ggge"><dd id="8ggge"></dd></s><cite id="8ggge"><tbody id="8ggge"></tbody></cite>
    <kbd id="8ggge"><code id="8ggge"></code></kbd>

    國內或國外 期刊或論文

    您當前的位置:發表學術論文網電子論文》 期刊文章發表淺析用戶行為學習的元搜索結果聚類的方式> 正文

    期刊文章發表淺析用戶行為學習的元搜索結果聚類的方式

    所屬分類:電子論文 閱讀263次 時間:2014-12-18 17:28

    本文摘要:發表學術論文網 辦的非常成功,極具口碑。在這里,你可以找到最具時事性的文章和最具代表性的各類文章。當然,因為免費和開源,大家都可以學習、借鑒和共同使用,如果你需要專屬于個人的原創文章,請點擊鏈接獲得專業文秘寫作服務。 1 引言 計算機技術和網絡技

      發表學術論文網辦的非常成功,極具口碑。在這里,你可以找到最具時事性的文章和最具代表性的各類文章。當然,因為免費和開源,大家都可以學習、借鑒和共同使用,如果你需要專屬于個人的原創文章,請點擊鏈接獲得專業文秘寫作服務。

      1 引言

      計算機技術和網絡技術的飛速發展帶來了Web信息量指數級的急劇增加,傳統的綜合性搜索引擎已經無法滿足人們快速有效地尋找自己需要的信息的需求。據統計,任何一個搜索引擎索引的Web頁面實際上都不到頁面總數的三分之一,而且由于檢索機制、范圍、算法等的不同,導致同樣一個查詢請求在不同搜索引擎中的查詢結果的重復率比較低。元搜索引擎是解決此問題的主要方法之一,被稱為搜索引擎之上的搜索引擎,它通過整合、處理各個成員搜索引擎的查詢結果來提高系統的查詢覆蓋率。

      但是,現有的元搜索引擎仍存在一定的問題。盡管通過對成員搜索引擎所遞交的結果的分析處理,可以增大查詢覆蓋率,去除不必要的噪音,但是仍無法給用戶以最精確的結果或者檢索指導。聚類是將一個數據單位的集合分割成幾個稱為簇或類別的子集,每個類中的數據都有相似性,而不同聚簇中的對象具有盡可能大的相異性。通過聚類,用戶可以方便地選擇自己所需要結果的類別來查看結果,從而提高檢索效率,優化搜索體驗。

      現實中,各大搜索引擎還沒有加入聚類處理,但是通過Ajax實現的搜索提示可以算作聚類的提示。用戶選擇相應的提示可以作為直接搜索相應的結果類別,但是鑒于返回結果的數量依然比較大,所以深度的聚類仍是必要的。學術研究中,現有的聚類方法大都是基于一種算法,如基于關聯規則的聚類算法、準確描述所有配對方法(CAPP)、基于特征名詞(Salient Phrase)的聚類算法等,但是這些算法都忽略了用戶作為信息的最終使用者對信息如何有效分類具有決定作用。把用戶納入搜索體系,將其看作信息的挖掘者或提供者而不僅僅是使用者,利用用戶在搜索過程中提供的信息對信息進行深加工才能最大限度地迎合用戶的需求。因此,本文嘗試設計并實現一個基于學習的元搜索框架,提出一種通過學習用戶行為來對檢索結果進行聚類的方法,以期從用戶角度最大限度地提高信息結果的可瀏覽性,優化檢索體驗。

      2 基于模塊的元搜索體系及各模塊設計

      2.1 系統體系設計

      系統總體設計如圖1所示。

      圖1 系統總體設計圖

      該系統分為兩層:基本流程層是一個改進的元搜索引擎框架,在基本框架的基礎上添加了用戶行為搜集模塊;學習推理層是基于用戶行為學習的聚類方法,其中的推理模塊在規則庫的指導下對用戶行為搜集模塊遞交過來的信息進行推理學習,并將所得知識存入到知識庫,用以指導后續結果處理模塊對所搜集的成員搜索引擎的結果的處理。

      2.2 具體模塊設計

      所有模塊都有統一的整體架構,包括通信子模塊、功能子模塊和知識子模塊三部分,具體如圖2所示。

      圖2 模塊基本架構

      通信子模塊負責所屬模塊主體同其他協作模塊主體的通信交互,對外提供接受服務和請求服務的接口;功能子模塊隱藏在通信子模塊后,負責具體任務的處理;知識子模塊負責本模塊功能子模塊的工作指導。各模塊具體功能介紹如下:

      (1)用戶交互模塊

      負責整個系統同用戶的交互,其任務包括:為用戶提供統一的檢索入口,并提供最終檢索結果的展示,對用戶對結果的類組選擇做出具體反應。其知識子模塊包括用戶對結果類別選擇相應的處理方法,可擴展包括注冊用戶的偏好信息等,用以指導提供給特定用戶的制定信息組織方式的處理。

      (2)用戶行為搜集模塊

      負責搜集用戶行為的初始信息,包括用戶的檢索輸入和用戶對類別標示的點擊、刪除操作行為兩部分信息,并對信息進行初步加工。其知識子模塊包含基本的分詞方法,可擴展包含各種諸如最大左向匹配、基于統計的分詞或者混合分詞方法的知識。

      (3)成員搜索引擎調度及結果收集模塊

      負責成員搜索引擎的調度和結果的收集及成員搜索引擎任務執行的生命周期控制,并負責成員搜索引擎所遞交的結果的收集。其知識子模塊包括各個成員搜索引擎針對不同搜索內容的能力差別和狀態信息,用以指導對其調度。

      (4)結果處理模塊

      負責成員搜索引擎所遞交結果的處理。結合知識庫的知識指導,

      需要完成去除無效鏈接、去重、相關度計算、排序、聚類等任務。其知識子模塊包括除去聚類知識外的其他知識,包括無效鏈接和重復鏈接的排查方法、相關度算法、排序規則等。

      (5)推理模塊

      對用戶行為搜集模塊所搜集的用戶行為信息進行推理,主要負責處理關鍵詞的相關關系、上下層次關系,并將知識存入到知識庫。考慮到擴展性,其知識子模塊獨立為規則庫。

      (6)規則庫

      規則庫實質為推理模塊的知識子模塊,為了擴展方便將其獨立出推理模塊,負責推理模塊的推理學習過程的指導。

      (7)知識庫

      負責存儲推理模塊所得的知識,作為后續的結果處理模塊中對結果的聚類方法的指導方法來源。

      3 基于用戶行為學習的聚類方法

      本方法基于以下假設:

      (1)用戶對信息的檢索不是由單一的檢索關鍵詞確定。絕大多數情況下,用戶所需要的結果由多個檢索詞細化范圍來確定。用戶可以一次輸入多個檢索詞進行檢索,也可以逐個輸入檢索詞在結果中細化檢索范圍,找到所需的檢索結果。因此,頻繁被利用的不同檢索關鍵詞的組合標示著組合中任意一個檢索關鍵詞的結果都非常可能含有其他檢索關鍵詞的結果。

      (2)對于確定的結果,關鍵詞間的影響力不具有一對一映射關系。即對于兩個關鍵詞A和B,即使B關鍵詞可以作為A關鍵詞搜索結果的有效分組標示,但是A關鍵詞作為B關鍵詞檢索結果的分組標示不一定有效。

      為了便于方法的精確描述,本文作如下定義:

      定義1:關鍵詞的聯系是指用戶在檢索過程或者對結果的選擇過程中,有意識地將兩個檢索關鍵詞集合到一起來搜索想要的結果,那么則稱這兩個關鍵詞發生了一次聯系。

      定義2:關鍵詞相關度是指對于任意一個給定的查詢關鍵詞,其他查詢關鍵詞和該給定查詢關鍵詞的組合在多用戶多次查詢歷史中被頻繁使用的程度,用來表示,其大小等于兩個關鍵詞的聯系數,關鍵詞雙方互稱為相關關鍵詞。

      定義3:上下義相關度是指對于給定的檢索關鍵詞A,其相關關鍵詞B的上下義相關度單向地決定了B可以作為A的聚類標示的有效程度,用表示。越大,表示B作為A的分組標示越有效,其大小等于用戶對給定結果聚類標示的確認或者刪除操作來決定的聯系數。

      知識庫以一個查詢敘詞表為主體,每個查詢關鍵詞都對應有自己的相關關鍵詞隊列。成員搜索引擎的檢索結果遞交到結果分析和處理模塊后,結果分析和處理模塊根據查詢關鍵詞的相關關鍵詞隊列對結果進行聚類,提供給用戶進行選擇。查詢敘詞表中每個詞條的結構如下:

      其中,ID為索引號,A為檢索關鍵詞,B、C、D等為檢索關鍵詞A的相關關鍵詞,為對應的相關關鍵詞與該檢索關鍵詞的關鍵詞相關度,為對應的相關關鍵詞與該檢索關鍵詞的上下義相關度。B、C、D等相關關鍵詞隊列按照關鍵詞相關度由大到小排列。對于決定相關度的兩個方面,用戶在檢索過程中的輸入和用戶對于所提供的結果聚類標示的點擊或刪除操作,關鍵詞相關度由兩者決定,上下義相關度由后者唯一決定。具體過程如下:

      (1)當用戶檢索需求通過用戶交互模塊傳遞給分詞模塊時,分詞模塊將其規范化,剔除冗余的無意義虛詞,提取出有效關鍵詞,一方面傳遞給底層的成員搜索引擎使用;一方面傳遞給推理模塊進行學習。推理模塊會自動記錄關鍵詞間的聯系,并將其錄入到查詢關鍵詞敘詞表中。具體規則如下:

      ①用戶輸入的檢索需求被分解為單一關鍵詞A,不做任何處理;用戶的檢索需求被分解為兩個檢索詞A與B,轉入②處理;用戶的檢索需求被分解為多個檢索詞,轉入③處理。

      ②在A關鍵詞的相關關鍵詞隊列查找B。若不能找到,則將B關鍵詞插入到A的相關關鍵詞隊列尾,并計相關度為1;如果能找到,則將B關鍵詞聯系數,即相關度加1,并調整隊列次序,使其按照由大到小排列;同理在B關鍵詞的相關關鍵詞隊列中處理A關鍵詞。

      ④定期(時間過長或者過短都會影響實際分組效果,可人為設定或者基于統計方法動態調整)排查各檢索關鍵詞相關關鍵詞隊列,將位于前列(前t或r項)的相關關鍵詞中上下義相關度最小者的相關度置為1并排至隊尾,用以排除相關但是相對無效分組。

      (2)結果處理模塊先對結果進行去冗、相

      關度計算和排序的處理,最后的聚類處理需參照知識庫相關知識進行,具體規則如下(假定人為設定最終結果需要t個分組):

      ①對于單一關鍵詞檢索,直接查找對應相關關鍵詞隊列,取前t項作為分組標示,依次對排序好的結果進行檢索,將包含有相關關鍵詞標示的結果歸入到相應類別。

      ②對于多關鍵詞檢索,首先查找對應多個相關關鍵詞隊列,取其前r項(r≥t,r值過大或者過小都會影響類別和相應多個關鍵詞的聯系程度,可人為設定或者基于統計方法動態調整)中重合最多的相關關鍵詞中前t項作為分組標示;若重合相關關鍵詞數目少于t,則再取各相關關鍵詞隊列中關鍵詞相關度最大的相關關鍵詞補足t項。

      ③若所有相關關鍵詞數目加和小于t,則可忽略t項限制。

      (3)結果根據相關關鍵詞來聚類呈現給用戶后,為用戶提供相應的類別標示,以供用戶進一步縮小結果范圍,提高檢索精度。用戶對所提供的相關關鍵詞聚類標示的一次點擊表示相關關鍵詞和查詢關鍵詞產生了一次聯系;用戶對所提供的相關關鍵詞聚類標示的一次刪除表示相關關鍵詞和查詢關鍵詞丟失了一次聯系。推理模塊可以根據此反饋,再次更新知識庫。具體規則如下:

      ①用戶點擊一個類別,將該類別對應的關鍵詞在當前所有檢索關鍵詞的隊列中的對應相關度和加1,并調整相關關鍵詞隊列,使其按照由大到小排列;結果由用戶交互模塊進行相應處理。

      ②用戶刪除一個類別,將該類別對應的關鍵詞在當前所有檢索關鍵詞的隊列中的對應相關度和減1,并調整相關關鍵詞隊列,使其按照由大到小排列;結果由用戶交互模塊進行相應處理。

      ③當用戶對于所提交的結果類別沒有選擇時,如果用戶只選擇查看結果,則不做任何處理;用戶繼續輸入檢索詞進行檢索作為新一次檢索過程,按照過程(1)和(2)進行相應處理。

      4 系統評測

      在配置為Pentium 4 3.0GHz,512MB內存的Windows XP平臺上,采用Python2.5.4+Django1.0.2實現了一個原型系統,瀏覽器為Firefox3.5.3。受限于實驗條件和方便系統調控,成員搜索引擎只選取了Google和百度,知識庫的檢索關鍵詞詞表由系統根據用戶的輸入動態生成,結果處理模塊所需進行的搜集、去冗、排序和聚類等主要的處理過程完好。檢索關鍵詞選定為“蘋果”、“論文”、“手機”三個,各選定兩個成員搜索引擎的前20條結果。分析要點為功能的有效性和結果聚類方法的有效性兩個方面。

      4.1 功能有效性

      模擬用戶檢索操作,根據Google和百度搜索時所給出的檢索提示詞在原型系統上進行搜索,裝填知識庫。知識裝填完成后,在原型系統中搜索“蘋果”時結果如圖3所示。

      圖3 “蘋果”檢索結果頁面

      當點擊第一個聚類“iPod”,所有歸于“iPod”類的結果展示如圖4所示。

      按照左側“結果類別”的順序依次進行增量點擊,排位靠后的類別點擊次數多于排位靠前的結果,刷新后結果如圖5所示,可以看到“結果類別”完全進行了反轉,這說明該方法基于用戶點擊的類別調整是有效的。

      4.2 結果聚類有效性

      根據圖4,點擊“iPod”后所展示的結果都是和iPod產品相關的。與此類似,點擊“范冰冰”后所展示的結果都是和電影《蘋果》相關的結果,這說明本方法聚類是有效的。并且,本系統對于給定關鍵詞后信息結果類別的判斷采用的是完全匹配的方法,所以不會出現模糊算法所導致的結果歸類錯誤的情況。理論上,本系統會出現結果遺漏,即有結果應屬某個類別但是卻未被該類別收錄,這依賴于用戶輸入檢索關鍵詞的可靠性。假定通過大數量用戶的搜索行為所獲得的用戶輸入是可靠的,即有效信息大過于噪音,則結果聚類遺漏對用戶搜索體驗不會有影響。

      各關鍵詞的聚類結果如表1所示。

      (1)從表1可以看出所有分類的數目加和大于去冗后的結果數,這是因為對于同一條結果,會含有多個關鍵詞,因此會被歸入不同的類別。考慮到實際系統運行時的效率,本原型系統選擇成員搜索引擎所提供的結果摘要作為分析的依據,而不是分析全文。如果采用分析全文的方法,可以預見的是各個分類中的結果數目會有一定幅度的上升。

      (2)注意到“手機”聚類結果中有“蘋果”一個組別標示,但是在裝填“手機”關鍵詞的時候并沒

      有將“蘋果”作為裝填詞。這是因為原型系統運行初期裝填“蘋果”時,“手機”曾作為一個有效類別進行裝填而帶來副作用。隨著用戶對該類別的忽略,執行第3節中過程(1)的規則④排查相關關鍵詞的上下義相關度后,“蘋果”作為“手機”類別將不會存在。這從反面說明本文方法所基于的假設(2)是合理的,“手機”可以作為“蘋果”關鍵詞的有效聚類標示,但是“蘋果”作為“手機”關鍵詞的聚類標示不一定是有效的,即相關關鍵詞間存在上下義關系。

      可以看到,該原型實現本文方法所得到的結果具有明顯優勢,且系統模擬運行初期所進行的知識裝填是比照Google和百度的搜索提示來進行的,這樣的聚類結果對比現有的搜索結果,證明該框架和方法可行有效,實現了預期效果。

      5 結語

      基于將用戶納入搜索體系的想法,本文提出了一個改進的元搜索引擎系統框架和一個基于用戶行為學習的結果聚類方法,并對其進行了詳細的描述。原型系統運行實例證明了改進的系統框架結合基于用戶行為學習的結果聚類方法是可行的,通過對用戶行為的學習產生了有效的結果聚類標示并據此標示將結果進行了有效的聚類,同時實現了動態調整,提高了搜索結果的可瀏覽性。

      受限于實驗條件,該系統沒有在多用戶高負荷的條件下運行檢測,以期達到最優的動態平衡狀態。同時,如何更好地處理檢索關鍵詞的上下層次關系和如何標準化不同用戶輸入導致的聚類標示繁雜有待進一步研究。

    轉載請注明來自發表學術論文網:http://www.zpfmc.com/dzlw/2294.html

    椤甸潰搴曢儴濉崟鍏嶈垂鑾峰彇璧勬枡

    婢舵艾顕稉鈧矾缁墽绮忛崠鏍ㄦ箛閸旓拷

    鐠囧嘲锝為崘娆庝繆閹垽绱濋崙杞板姛/娑撴挸鍩�/閸ヨ棄鍞存径锟�/娑擃叀瀚抽弬锟�/閸忋劌顒熺粔鎴炴埂閸掑﹥甯归懡鎰瑢閸欐垼銆冮幐鍥ь嚤

    主站蜘蛛池模板: 久久伊人中文字幕麻豆| 国产激情一区二区三区在线观看 | avtt天堂网手机版亚洲| a在线观看免费| 男女午夜爽爽大片免费| 小13箩利洗澡无码视频网站| 和黑帮老大365天完整版免费| 亚洲乱码国产乱码精品精| 2019中文字幕在线观看| 欧美性高清极品猛交| 国产精品无码电影在线观看| 八戒八戒在线观看免费视频| 亚洲av无码不卡久久| 99精品全国免费观看视频| 美国一级毛片完整高清| 最近最新中文字幕| 国产激情一区二区三区成人91| 亚洲AV无一区二区三区久久| 久久综合久久鬼| 欧美日韩在线视频| 天天摸天天做天天爽水多| 人妻少妇精品视频一区二区三区 | 四虎国产欧美成人影院| 三级在线看中文字幕完整版 | AV中文无码乱人伦在线观看| 激情小说在线视频| 好男人在线神马影视www在线观看| 四虎成年永久免费网站| 一区二区三区视频| 深夜爽爽福利gif在线观看| 天堂…中文在线最新版在线| 亚洲短视频在线观看| 男女一进一出猛进式抽搐视频| 欧美综合天天夜夜久久| 国产精品久久久久久久久kt| 久久无码专区国产精品| 美女尿口扒开图片免费| 天天视频天天爽| 亚洲另类小说图片| h视频免费在线| 日本永久免费a∨在线视频|