本文摘要:摘要:[目的/意義]在線健康社區中對高影響力用戶的有效識別,有助于健康信息需求者發現有價值的健康信息,對于降低健康信息查找成本和提高健康行為決策的有效性具有重要意義。[方法/過程]從用戶交互性和評論情感傾向出發,利用PageRank和SVM等算法構建出在線
摘要:[目的/意義]在線健康社區中對高影響力用戶的有效識別,有助于健康信息需求者發現有價值的健康信息,對于降低健康信息查找成本和提高健康行為決策的有效性具有重要意義。[方法/過程]從用戶交互性和評論情感傾向出發,利用PageRank和SVM等算法構建出在線健康社區用戶影響力的測量方法,并以醫享網為實驗對象,從發布內容使用價值的視角,進一步計算了該社區中用戶的綜合影響力,并對案例用戶進行分析。[結果/結論]分析結果表明該算法具有一定的合理性,能夠對PageRank算法的影響力計算結果進行優化;同時,利用TFIDF和互信息算法揭示了高綜合影響力用戶發布的信息內容與社區其他用戶群體內容主題基本一致,該類用戶對社區的主題方向起到一定的引導作用。因此,通過本研究所構建的方法可以有效識別高影響力的用戶,有助于健康信息需求者及時準確的發現所需信息,提高健康信息的使用效果,從而豐富在線健康社區用戶信息行為的理論和實踐研究。
關鍵詞:PageRank 情感傾向在線健康社區用戶影響力
1 引言
“互聯網+醫療”發展戰略是順應時代的產物,也是向智能醫療轉變的必經之路。用戶不僅可以在線預約掛號、查閱資料,還能夠得到意向領域專家的解答或者病友的經驗傳授與討論,縮短傳統醫療中尋根問藥的時間成本,大大提高了用戶的參與感與治療效率。
健康論文范例:體檢中心對亞健康人群健康管理模式的探討
據醫療相關數據顯示,2018年全國超過99萬家衛生機構總會診人次達到33.8億[1],2019年在線咨詢總量達5.6億次,未來將持續保持上升趨勢[2]。同時,《“互聯網+醫療健康”發展的意見》[3]也鼓勵在線健康社區運用互聯網的相關技術加快實現資源互通、信息共享與遠程醫療等服務,不斷健全互聯網+醫療的一體化服務體系,加強醫院、醫生與患者間的有效溝通。
目前,國內健康問題討論規模較大的在線社區以醫享網、39健康論壇與好大夫在線等網站為主,這些在線社區用戶多,知識傳播速度快,產生了大量的信息與數據,為健康信息需求用戶提供了有價值的健康信 息。在線社區中存在一些活躍程度較高的用戶,他們能夠吸引到其他用戶的關注和互動,從而在一定程度上影響其他用戶的信息行為和健康決策,對于整個在線社區的信息傳播具有較強的導向作用。
然而,用戶的活躍程度與其所發布的信息的使用價值間并非存在直接關系,如一些用戶具有較強的交互影響力,在社區活躍程度較高,求助和抒發情感等行為頻繁,所發布的信息也受到較多關注,但其他用戶對其評價不高,在一定程度上反映了其信息的使用價值有限;還有一些用戶盡管交互活躍程度不高,但其所發布的信息受到的積極評價較多,其所發布的信息具有較好的應用價值。
因此,從信息使用價值角度出發,如何結合用戶活躍性和交互情感傾向性識別來判斷在線健康社區用戶的綜合影響力,對于幫助用戶便捷、有效地利用健康信息,做出客觀的健康行為決策等方面具有重要意義。本研究擬在融合用戶交互活躍性和評論情感傾向的基礎上,探索性地構建在線健康社區用戶綜合影響力的測量算法,并在相應的在線健康社區中進行實驗和結果分析,以期為有效挖掘在線健康社區中有影響力的用戶和有價值的健康信息提供一定的方法和參考。
2 相關研究
用戶影響力的分析與測量是在線社交媒體和在線社區相關研究領域中,學者所關注的重要研究方向之一。目前關于用戶影響力的相關研究主要采用特征值統計分析方法、社會網絡分析方法以及PageRank方法等。
特征值統計分析方法主要通過統計能夠反映在線社區用戶活躍特征的相關特征值,并進行一定的指標和權重的設定,從而計算用戶的影響力。如王佳敏等[4]在分析用戶影響力時,主要統計了影響力指標和活躍度兩個指標,其中影響力指標包括粉絲數、被轉發數、被評論數、是否認證4個特征值,活躍度指標包括微博數和關注人數兩個特征值。趙發珍等[5]利用博客的引用數量、回復數量、網頁內外鏈接數等特征值進行用戶影響力的建模。董偉等[6]也通過獲取和分析在線社區中用戶的留存時間、發帖量、粉絲數等反映個人和交互維度的相關特征值,對活躍用戶進行了識別,并對其在社區中的影響力進行了分析。
社會網絡分析方法主要通過關系網絡結構中的屬性值來計算各個網絡節點在網絡中的重要性,如網絡密度、點度中心性、中介中心性、接近中心性及等。陳遠等[7]通過分析社會網絡的中心度、結構洞等指標來挖掘在線社區中用戶的影響力。謝英香等[8]則通過對社會網絡分析法中的中心度的分析,利用MDS等方法,分析了虛擬社區中的用戶的影響力,并進一步揭示該社區存在意見領袖現象。S.Jonnalagadda[9]等則綜合分析了點度中心性、點度中介性、以及點度緊密性等反映中心的指標,從而發現了醫學在線社區中具有較大影響的意見領袖。
3 研究設計
3.1 研究思路
本研究的思路主要包括四個步驟,首先是利用數據爬蟲對在線社區相關信息進行爬取,對數據進行預處理,并將最終可用的數據存入數據庫,包括用戶和評論信息兩個方面。其次,是對用戶的綜合影響力進行計算,綜合影響力主要包括三項子算法:①利用PageRank算法對用戶的交互影響力進行計算;②通過選擇最優情感分類模型,對評論信息進行情感歸類與分析,并進一步對評論信息情感傾向值進行計算;③融合上述兩內容的結果按照特定公式進行融合,并通過案例分析進行對比。再次,利用TFIDF與互信息算法進一步探究高綜合影響力用戶所生產的信息內容與社區其他用戶群體內容主題方向的關系,并通過可視化的方法進行比較分析。最后,對本研究的研究過程和方法進行總結,并提出相應的研究展望。
3.2 數據獲取與預處理
本研究以健康社區中的用戶所發布的信息及其評論信息為分析對象,使用Python語言構建多線程爬蟲工具,以Cookie參數與報頭信息作為用戶與瀏覽器表征工具,通過解析DOM樹獲得該社區中用戶交流之間的相關內容,包括用戶昵稱、發帖內容與相應的回帖信息。
此外,進一步對相關數據進行預處理,如分詞處理、用戶編碼映射表構建、用戶評論映射表構建、用戶評論者映射表構建、異常用戶處理等。本研究擬以醫享網社區的用戶生成內容為例,并收集相應數據進行相關實驗和分析。
3.3 分析過程與技術
傳統PageRank算法中,較多考慮的是網站或者用戶之間的交互關系與權重,并不對其本身質量進行分析,故本研究結合用戶交互關系與用戶評論等信息內容進行分析,一方面發掘潛在網絡用戶影響力排名;另一方面對用戶情感傾向進行識別,并融合兩者進行綜合性探究。
4 研究結果
4.1 實驗數據
醫享網是國內在線健康社區中用戶較多,可信度較高的社區之一,支持病例庫查詢,在線健康問題問答,其中痛風圈社區的內容交互較為頻繁,論述相對全面[21]。故本研究設置醫享網的痛風圈作為數據來源,收集時間為2020年2月,依據相關公開內容,設計爬蟲程序進行數據抽取,具體數據主要包括用戶昵稱、發帖與回帖內容。
進一步對數據進行預處理,分詞處理,即使用JIBEA對用戶文本進行分詞,以進行高頻詞統計和互信息模型構建;用戶編碼映射表構建,即對所有用戶進行統一編碼,如用戶1、用戶2等順排至最后;用戶評論映射表,即對用戶所發表的評論內容進行對應;用戶評論者映射表,即構建評論用戶1、用戶2等的用戶評論映射表;異常用戶處理即過濾掉評論或發帖與通風圈無關的用戶,如推送廣告用戶等。經過最終預處理,共得到292位有效用戶的2560條有效交互內容。
4.2.3 基于互信息的綜合影響力用戶文本內容分析結果
為進一步探究高綜合影響力用戶對健康社區主題方向的影響,本研究選取了前20個高綜合影響力用戶和社區其他用戶評論內容進行實驗,通過TFIDF與互信息兩種算法,構建了該用戶群的詞條共現網絡,為了更直觀和清楚展示其關聯效果與整體結構,借助Vosviewer軟件對該共現網絡進行了可視化分析。其中,疼痛、結晶、血癥、高尿酸、發作、關節、止痛、代謝、含量等半徑較大的15個節點代表高頻詞匯,而半徑較小的其他節點分別表示每個高頻詞的10個互信息關鍵詞,相連表示對應的一組數據。
高綜合影響力用戶主要關注的幾個問題集中在三個方面,其一是當痛風病發作的時候的表現,如疼痛、臨睡前、侵蝕、結晶、沉淀、磷脂、關節、神經等關鍵詞均在不同方面說明了病癥發生的癥狀、時間等內容;其二是治療痛風所使用的藥物,包括秋水仙堿、雙氯芬酸鈉、阿西美辛、戴芬、秋水仙、別嘌呤、抗炎藥、止痛針等內容;其三,為了更好的治療痛風所采用的食療輔助,如特別注意龍須菜、菠菜、蘑菇、鮮豌豆類含嘌呤較多的蔬菜,蛤類、動物內臟、多飲水、少喝湯等。
5 總結與展望
5.1 研究總結
本研究從交互影響力和情感傾向兩個視角出發,基于SVM算法的線性核函數建立了情緒識別模型,對文本有效性進行了識別與分析,并結合交互影響力與情感傾向性探討了用戶綜合影響力,得出以下結論:
首先,本研究通過對用戶交互影響力的計算,并結合相關案例,發現交互影響力更多強調了交互活躍性,但對于揭示用戶信息資源的有效性方面存在一定不足,因此并不能完全客觀的反映出用戶的真實影響力,需要引入評論情感傾向值對影響力做進一步的融合計算。
其次,通過對比機器學習的五種關于情感計算的主要算法中,發現SVM算法對于本文構建的評論情感傾向分類模型效果最優,為有效的計算用戶綜合影響力提供了技術支撐。
再次,本研究探索性地將PageRank交互影響力與評論情感傾向進行融合計算,并通過相應個案分析從信息內容的角度對高影響力用戶做了進一步驗證,在一定程度上說明了本研究中的綜合影響力的算法具有較好的合理性和適用性。
此外,通過對高綜合影響力的高頻詞-互信息矩陣與其他用戶群體的高頻詞-互信息矩陣的比較發現,二者相似程度較高,基本主題方向一致,這也在一定程度上說明了尋找高綜合影響力用戶的必要性,也進一步說明本研究的用戶影響力綜合計算方法可較為客觀的識別出主導健康社區內容方向的具有較高影響力的用戶,有助于健康信息需求者能夠及時、準確從健康社區中獲得所需有價值的信息,提升健康信息的利用效果。
5.2 研究展望
本文提出了一種情緒識別模型以探索用戶生成內容的情感傾向,從而構建用戶綜合影響力的研究方法,并進一步通過具體內容分析論述了高綜合影響力用戶對社區方向的影響,但也存在一定的不足:
(1)交互影響力和情感分析算法的優化。本研究用戶交互影響力主要基于PageRank算法,雖然該方法應用較為廣泛,但其在分析用戶影響力方面仍存在一定的改進空間,可在今后的研究中,結合用戶行為特征對該算法做進一步的優化。此外,本研究中所用到的情感傾向分析的算法,今后可對更多的相關算法和框架進行比較分析,從而進一步提升相關計算的效率和準確性。
(2)研究數據的進一步豐富。本研究主要基于醫享網的痛風病圈數據進行了研究,在今后的研究中,可以進一步擴展健康社區的數據獲取范圍,通過比較不同健康社區中用戶綜合影響力的分布和特征,以不斷拓展和驗證本研究的適用性。
參考文獻:
[1]楊梓.最新!衛健委發布全國醫療相關數據[EB/OL].[2021-04-27].https://www.sohu.com/a/247593213_439958.
[2]2018年中國健康醫療大數據行業發展現狀及發展趨勢分析[EB/OL].[2021-04-27].http://www.chyxx.com/industry/201806/649591.html.
作者:董偉陶金虎
轉載請注明來自發表學術論文網:http://www.zpfmc.com/jjlw/27301.html