本文摘要:在信息數(shù)據(jù)交互量劇增的當下,數(shù)據(jù)挖掘與機器學習技術飛速發(fā)展。其中,推薦技術在高校學生的學習、生活中已成為一種主流的興趣愛好反饋方式。如何在快速建立學生的綜合成績與學習行為之間的關聯(lián)度、挖掘?qū)W生學習的興趣向量的同時,實現(xiàn)對熱門圖書的個性化推
在信息數(shù)據(jù)交互量劇增的當下,數(shù)據(jù)挖掘與機器學習技術飛速發(fā)展。其中,推薦技術在高校學生的學習、生活中已成為一種主流的興趣愛好反饋方式。如何在快速建立學生的綜合成績與學習行為之間的關聯(lián)度、挖掘?qū)W生學習的興趣向量的同時,實現(xiàn)對熱門圖書的個性化推薦,已經(jīng)成為高校研究激發(fā)學生自主學習的方向之一。本文提出基于協(xié)同過濾的圖書推薦算法,通過對我校學生的學習行為進行數(shù)據(jù)分析,構建協(xié)同過濾的概率矩陣模型,從而發(fā)現(xiàn)學生學習的興趣傾向值,最終實現(xiàn)向?qū)W生推薦個性化圖書信息的平臺的搭建,進一步方便學生選擇個人感興趣的圖書,進行閱讀、學習與知識拓展,提升校園優(yōu)良學風建設。
相關研究目前國內(nèi)對于推薦算法在學生課程屬性與情趣偏好中的相關問題進行了較為深入的研究。王仲鈺利用多維屬性間關聯(lián)規(guī)則數(shù)據(jù)挖掘技術,采用協(xié)同過濾算法、關聯(lián)算法對不同用戶群體圖書借閱數(shù)據(jù)進行分析,探索具有針對性的圖書推薦服務策略,提升圖書館服務能力。
圖書館論文范例:新時代圖書腰封設計的價值取向探析
王剛計算用戶之間的相似性并與傳統(tǒng)的協(xié)同過濾推薦方法相結(jié)合,提出了基于用戶興趣序列的改進協(xié)同過濾圖書推薦方法。李萍通過實驗測試,采用數(shù)據(jù)挖掘技術的圖書推薦系統(tǒng)推薦的書目與實際借閱的書目基本吻合,判斷準確性對比傳統(tǒng)方式大幅提高。張紫嫣也提出一種結(jié)合類別偏好的協(xié)同過濾推薦算法。在原算法計算用戶相似度的基礎上,結(jié)合用戶類別偏好的相似度來計算近鄰,從而得到推薦結(jié)果。
現(xiàn)有的國內(nèi)研究中重點考慮在對協(xié)同過濾數(shù)據(jù)的關聯(lián)規(guī)則研究上,而對挖掘?qū)W生的興趣傾向值矩陣建立研究較少。在國外研究中,Tewari也闡述了根據(jù)買家的興趣推薦圖書的觀點,并提出了一種基于內(nèi)容過濾,協(xié)同過濾和關聯(lián)規(guī)則挖掘相結(jié)合的圖書推薦系統(tǒng)。Parvatikar通過將基于協(xié)作的過濾和關聯(lián)規(guī)則挖掘相結(jié)合來解決在線圖書推薦數(shù)據(jù)稀疏性問題,以獲得更好的性能。
Mathew等人提出了一種基于內(nèi)容過濾(CBF),協(xié)作過濾(CF)和關聯(lián)規(guī)則挖掘的組合特征的書推薦系統(tǒng)(BRS),以產(chǎn)生有效和有效的推薦。本文提出將基于協(xié)同過濾的推薦算法,構建基于協(xié)同過濾的概率矩陣模型的學生興趣傾向挖掘技術,設計出一種針對興趣傾向推薦的個性化圖書推薦系統(tǒng),以達到向?qū)W生推薦個性化圖書信息,為學生教育信息化提供便利的目的。基于協(xié)同過濾的推薦算法常用的協(xié)同過濾算法分為兩種,基于用戶的協(xié)同過濾算法(user-basedcollaborativefiltering),以及基于物品的協(xié)同過濾算法(item-basedcollaborativefiltering)。
本系統(tǒng)的目標是向?qū)W生進行個性化圖書推薦,采用基于用戶的協(xié)同過濾算法,經(jīng)過用戶偏好多維度評分、相似興趣傾向計算與關聯(lián)推薦列表計算后,得出準確率和召回率最高的帶權優(yōu)先興趣傾向計算結(jié)果。多維度評分多維度評分是指進行協(xié)同過濾推薦的基礎。本研究采取基于學生科目成績、收藏書籍、書籍閱讀速度、書籍評分與評價等行為的數(shù)據(jù)根據(jù)學習行為反應的用戶興趣傾向?qū)ζ溥M行加權,經(jīng)過減噪和歸一化的預處理后構建用戶偏好二維矩陣模型,以用戶列表與物品列表作為緯度尺標,得出用戶對物品的偏好值。
興趣傾向計算興趣傾向計算是指經(jīng)過矩陣分析得到用戶喜好后,得到用戶興趣偏好向量并計算用戶之間的相似度。在常用的歐幾里德距離、皮爾遜相關系數(shù)、Cosine相似度、Tanimoto系數(shù)等興趣傾向算法中,本研究采用Cosine相似度方法,它被廣泛應用于計算文檔數(shù)據(jù)的相似度,其中xi與yi分別代表x用戶與y用戶對書籍i的評分,兩個向量積的數(shù)值越小則相似度越高。
關聯(lián)推薦列表關聯(lián)推薦列表用于要求以經(jīng)典Apriori算法挖掘關聯(lián)規(guī)則,獲取到相鄰用戶與相鄰物品集后,根據(jù)基于用戶的CF思想,生成用戶沒有偏好值的候選項集,再根據(jù)關鍵詞頻率篩選過濾掉超出最小支持度的頻繁項集,最后提取出強關聯(lián)的關聯(lián)推薦列表,抓取相應書籍數(shù)據(jù)并進行推薦。
構建基于協(xié)同過濾的圖書推薦系統(tǒng)目前,高校圖書館與數(shù)字資源大多僅作為圖書資源庫而提供信息檢索與文件查詢功能,缺乏有針對性的信息推薦功能。本研究為提高用戶獲取目標書籍的效率,進一步方便學生進行閱讀、學習、知識拓展,為了將高校學生的選修課程進行準確定位,并利用學生對于課程的評價,同時結(jié)合互聯(lián)網(wǎng)中學生的瀏覽數(shù)據(jù)構建出與本人興趣一致的推薦書籍,在協(xié)同過濾的推薦算法基礎上構建設計了可視化的個性化圖書推薦系統(tǒng)。
本系統(tǒng)經(jīng)過對學生學習行為的預處理,充分發(fā)揮互聯(lián)網(wǎng)作為學生獲取圖書信息的主要途徑的特點,利用數(shù)據(jù)挖掘技術獲取到學生的瀏覽歷史、好評書籍等數(shù)據(jù)結(jié)合,使用Python語言對數(shù)據(jù)進行預處理,處理丟失的數(shù)據(jù)與偏離值,建立興趣傾向值與數(shù)據(jù)的關聯(lián)性分析并抓取學生個性化推薦書籍列表,由此完成協(xié)同過濾推薦的過程,并將相應圖書信息在系統(tǒng)平臺上展現(xiàn)。
學生學習行為分析與興趣傾向計算以高校學生學習行為數(shù)據(jù)為基礎,對學生大類課程成績與選修課課程成績進行分析,提取學生的優(yōu)勢與弱勢學科,進行學生學科權值的重點加權并構建協(xié)同過濾投票模型,以實現(xiàn)學科類取長補短的個性化圖書推薦。其次,對學生公選課方向與學生個性化選修課程類別等數(shù)據(jù)進行分析,構建學生的知識關聯(lián)圖譜,以學生重點優(yōu)勢類別為中心、專業(yè)與興趣為對比尺標,達到分方向進行多維度興趣關聯(lián)的目的。
同時系統(tǒng)對新用戶提供閱讀興趣類傾向選擇與興趣熱門圖書選擇與評分,將閱讀興趣點信息與知識關聯(lián)圖譜結(jié)合進行初步篩選,構建多維數(shù)據(jù)的評分體系與基于協(xié)同過濾的概率矩陣模型,最終實現(xiàn)學生興趣傾向值的初步計算。圖書信息動態(tài)獲取與數(shù)據(jù)預處理在圖書信息的動態(tài)獲取上,使用基于Python的BeautifulSoup庫的爬蟲技術對熱門的圖書信息網(wǎng)站的數(shù)據(jù)進行動態(tài)挖掘,對圖書分類排行以及每日優(yōu)選圖書部分進行標簽頁的定時動態(tài)爬取。針對xpath爬取過程中出現(xiàn)的不規(guī)律爬取結(jié)果采用加上定位映射的方法,最終自定義xpath實現(xiàn)凍結(jié)頁面數(shù)據(jù)抓取。
通過對學生興趣傾向值的分析,對抓取的圖書數(shù)據(jù)進行數(shù)據(jù)清洗。首先經(jīng)過解析器對圖書關鍵詞進行獲取,排除學科關聯(lián)程度低、可靠性低以及重復挖掘等問題的數(shù)據(jù)。按特征權重比篩選出關鍵性數(shù)據(jù),并反向計算篩選后數(shù)據(jù)的可靠性與關聯(lián)度。對偏差較大的數(shù)據(jù)進行排除,處理丟失的數(shù)據(jù)、處理偏離值,為后期數(shù)據(jù)統(tǒng)計、興趣指標的計算、以及數(shù)據(jù)關聯(lián)性分析奠定數(shù)據(jù)基礎。
最后完成清洗圖書數(shù)據(jù)的信息存儲,確保數(shù)據(jù)轉(zhuǎn)換、標準化、歸一化的準確性。構建基于協(xié)同過濾的圖書推薦系統(tǒng)本系統(tǒng)的可視化平臺以MVC模式進行構建,客戶層中圖書推薦系統(tǒng)使用Vue框架、應用層則采取SSM框架進行開發(fā)。在對外接入層實現(xiàn)外部圖書網(wǎng)站接口的獲取與連接,為挖掘?qū)W生興趣可能性,對實時暢銷書籍數(shù)據(jù)實現(xiàn)了動態(tài)爬取,緊跟熱點、綜合性地帶動高校學生主動讀書學習的興趣。
服務層中有爬蟲模塊、數(shù)據(jù)分析模塊與系統(tǒng)展示模塊三部分。具體的,爬蟲模塊,利用用戶關聯(lián)度和興趣相似度計算方法,對k門檻內(nèi)相似用戶的圖書數(shù)據(jù)按照偏好矩陣權重值大小進行獲取,獲取多維度的圖書數(shù)據(jù)源;數(shù)據(jù)分析模塊,在數(shù)據(jù)層中將學生的學習行為數(shù)據(jù)進行處理分析,通過協(xié)同過濾算法計算出學生學習需要獲取圖書的傾向性。
最后,系統(tǒng)展示模塊,對于經(jīng)過預處理清洗的圖書信息,結(jié)合學生的興趣傾向關鍵詞篩選出爬蟲子系統(tǒng)中存儲的個性化推薦書籍,將個人綜合頁面將學生行為分析階段的綜合成績分析情況與興趣傾向以圖形的方式展現(xiàn),便于用戶更加迅速、直觀地查看圖書的相關信息。本系統(tǒng)在客戶層使用Vue框架進行視圖界面開發(fā),將服務層計算的圖書推薦結(jié)果通過API接口在個人推薦頁面進行讀取與展示。最終系統(tǒng)將完成分布式部署、多進程、負載均衡地圖書推薦系統(tǒng)的構建與聯(lián)通。
總結(jié)
以激發(fā)學生自主學習內(nèi)容推薦為目標,本文結(jié)合學生閱讀興趣傾向,提出基于協(xié)同過濾與關聯(lián)規(guī)則的個性化圖書推薦系統(tǒng),根據(jù)興趣傾向值進行數(shù)據(jù)爬蟲,并將個性化協(xié)同過濾推薦算法應用到學生圖書推薦平臺的建設中。有助于提高學生之間書籍的獲取效率與信息共享,幫助學生深入理解閱讀的重要性并滿足其對個性化書籍推薦的需求,從而激發(fā)學生的閱讀學習知識的興趣。下一步研究中,將進一步加強與高校圖書館數(shù)據(jù)資源建設聯(lián)系,充分利用學校圖書館對于學生的專業(yè)圖書的類別劃分以及學生在圖書館借閱書籍的記錄,進一步完善本文計算方法,以提供更人性化的圖書館推薦平臺。
作者:付羽逍;王祎珺;敖明明;楊伊帆
轉(zhuǎn)載請注明來自發(fā)表學術論文網(wǎng):http://www.zpfmc.com/jjlw/26829.html