我國數據開放研究現狀、熱點及態勢

所屬分類：經濟論文閱讀次時間：2022-04-19 11:02

本文摘要：摘要：文章使用 CiteSpace5.7 分析軟件，對中國知網(CNKI)檢索出的政府數據開放領域 521 篇相關文獻進行統計及可視化分析，圍繞作者分布、文獻分布、關鍵詞分布等進行知識圖譜的繪制與規律分析，探尋 2009 年以來政府數據開放研究的現狀、熱點及態勢，以期從廣度和深

　　摘要：文章使用 CiteSpace5.7 分析軟件，對中國知網(CNKI)檢索出的 “政府數據開放”領域 521 篇相關文獻進行統計及可視化分析，圍繞作者分布、文獻分布、關鍵詞分布等進行知識圖譜的繪制與規律分析，探尋 2009 年以來政府數據開放研究的現狀、熱點及態勢，以期從廣度和深度兩個維度全面了解、理解和深化該領域的研究范疇、研究方法、研究視域等方面的嬗變歷程。

　　關鍵詞：數據開放;知識圖譜;研究熱點;可視化分析

數據開放

　　隨著大數據、云計算、區塊鏈等數據處理技術的不斷發展，數據儼然已成為重要的生產要素和原料基石，從企業到政府部門，越來越多的實體開始探尋數據背后所蘊含的巨大價值。其中，政府各部門所收集到的數據是其掌握的核心資產和治國理政的重要依據。[1] 整合政府數據資源和加大政府數據開放已成為世界各國政府數據管理的基本共識。[2]

　　數據開放已成為政府治理水平現代化的重要推動力量，截至 2020 年底，我國省級、副省級和地市級政府數據開放平臺已有 142 個，工作重點由 2018 年以前的建設與利用兼顧轉變為在建設的基礎上強調政府開放數據的利用。[3]

　　自2009 年數據開放運動以來，世界各地對政府數據開放研究的關注日益增多，該方面的學術研究成果也呈現增多的態勢，我國學界和業界也開始探究政府數據開放的價值、模式、利用等。為了鳥瞰我國數據開放研究的熱點、主題及趨勢，本文使用 CiteSpace5.7 軟件對 CNKI 平臺刊載有關數據開放的文獻進行梳理和可視化分析，并對未來研究態勢予以探析，希冀能夠為數據開放的后續研究提供視角與借鑒。

　　一、研究工具及數據來源

　　(一)研究工具

　　本研究采用 CiteSpace5.7 作為研究工具。CiteSpace5.7 由美國德雷賽爾大學的陳超美教授研發并供學者免費下載使用，[4] 該軟件基于程序語言 JAVA 編寫，應用于分析某一研究領域的研究熱點及趨勢。CiteSpace5.7 利用信息可視化方法、文獻計量學法和數據挖掘算法集成的基本原理，繪制可視化圖譜、建立節點之間的關聯來分析研究對象之間的共現關系與共引關系等。[5]

　　(二)數據來源

　　本文數據來源選自中國學術期刊網絡出版總庫(CNKI)文獻全文數據。在 CNKI 的高級檢索中以“篇名檢索”為檢索入口，檢索詞為“政府數據開放”或含“政府開放數據”，時間跨度為2009 年至 2021 年，去除會議報道、廣告等與研究不相關文獻，共獲得有效文獻 521 篇(2021 年5 月 7 日檢索)。將目標文獻按 CiteSpace5.7 所需參考文獻格式導出并轉碼，得到本文研究的樣本數據。

　　二、研究現狀

　　(一)文獻增長分析

　　在 2009—2013 年發文量較少，均在 10篇以下;自 2014 年發文量逐漸增多，2017 年發文量達到頂峰，為 107 篇，中國知網給出預測 2021年度發文量將回升至 107 篇。在 521 篇文獻中，包括核心(北大核心、CSSCI 等)期刊 265 篇，占文章總數的 50.86%，反映出政府數據開放研究整體質量較高。

　　(二)期刊區域劃分文獻

　　在期刊上的分布遵循布拉德福定律，它是定量描述科學論文在相關期刊中，集中與離散狀況的一個規律。[6] 經計算，此次統計的 521 篇文獻分布在 180 種期刊中，繪制布拉德福期刊分區表。分析表明，核心區、離散區和相關區三個區域的論文數量大體相當。核心區的論文來自期刊數量不多但平均載文密度最高的 6 種期刊。

　　相關區包括期刊數量較少，平均載文密度一般的28 種期刊，而離散區包括期刊數量最多而平均載文密度很低的 146 種期刊。三者的期刊數量之比為6 ∶ 28 ∶ 146 ≈ 1 ∶ 5 ∶ 25=1 ∶ a ∶ a2。本例布拉德福系數：a =5。即 : 6 ∶ 28 ∶ 146 ≈ 1 ∶ 5 ∶ 52。顯然上述表達式與布拉德福定律相吻合，說明本研究領域的期刊分布規律符合布拉德福定律。

　　為進一步直觀描述期刊的集中與離散現象，根據上表的相關數據，以 lgC 為橫坐標，以每種期刊載文量的累計和 R(n) 為縱坐標，擬合布拉德福曲線。首先曲線前半段是一條上升的指數曲線，它對應為核心區;坐標為(0.7782，174)的點為核心區的拐點，拐點之后是一段線性上升的直線，分別為相關區、離散區。充分說明本研究領域的期刊分布規律存在著較為明顯的集中與離散現象。應用布拉德福定律，建立了期刊區域劃分模型和布拉德福曲線，數據擬合較為理想。無論是布拉德福期刊分區表，還是布拉德福曲線圖，均驗證了期刊的集中與離散現象。

　　其次，布拉德福系數 a 是反映任一學科期刊分布情況的重要參數，a 的值越大，核心效應越強，反之越弱，本領域內a ≈ 5，a 值相對較大，可以說其核心效應是顯著的。他成員包括劉龍、周志峰等。此團隊主要采取國內外政府數據開放現狀進行對比分析的研究方法，將目光聚焦于政府數據開放的政策制定、價值體系構建和個人隱私問題保護等方面。[7][8][9] 以西南財經大學陳朝兵為中心的學者群體內其他成員包括郝文強等。他們主要應用理論模式(力場模型、輪流出價博弈模型等)，聚焦于我國政府數據開放的路徑選擇及其優化等方面。

　　此外，顯示幾位高產作者合作較少，主要表現為學者黃如花、劉龍、周志峰之間存在學術交流與聯系，但與其他發文量較大的學者(如陳朝兵、周文泓等人)合作較少;單獨節點的學者較多，如陳美、鄭磊等人，以上表明我國學者在數據開放的研究上溝通合作意識不足，學者之間并未形成緊密的學術團隊，學者們的學術交流與合作亟待加強。

　　(三)發文機構分析運用 CiteSpace5.7 對文獻發文機構進行可視化呈現和分析，匯總得到數據開放研究核心機構排名，挑選出國內發文量五篇以上的機構，可以看到國內機構主要分布在信息管理綜合實力較強的幾家高校的管理學院及其研究機構。武漢大學信息資源研究中心和信息管理學院以發文 22篇位列發文機構第一名，四川大學公共管理學院以18 篇的發文量緊隨其后。研究機構之間也并未形成較為緊密的合作，從地域上來看較為分散。

　　三、研究熱點研究熱點

　　反映了某一研究領域的研究重點及方向，對于深入了解與分析這一領域的研究內容具有十分重要的意義。關鍵詞作為一篇文獻中內容的核心凝練，某一領域關鍵詞出現頻率較高就反映了這一領域的研究熱點。[13] 關鍵詞聚類分析是以關鍵詞共現分析為基礎，將關鍵詞共現網絡關系通過聚類統計學的方法簡化成數目相對較少聚類的過程。[14]

　　本文通過關鍵詞聚類分析的方法對數據開放的研究熱點進行分析，以探求我國數據開放的研究熱點主題。運行 CiteSpace5.7，設置節點類型為 Keywords，其它參數設置與作者參數相同，在關鍵詞知識網絡圖譜的基礎上，選取 LLR算法，得到如圖 4 所示關鍵詞聚類網絡圖譜，反映了我國數據開放領域的研究重點和熱點。

　　政府數據開放政策與法規領域包含“政策研究”“政策體系”“法律法規”等關鍵詞。數據開放是國家和政府進行民主化建設的有效方式之一，能夠最大程度實現全社會數據資源的有效配置和充分再利用。[15] 陳朝兵等人選取美、英、澳、新四國為研究對象并運用文獻分析法，提出了適用于我國政府數據開放監管的四條路徑。[16] 黃如花等人以我國各部委政府數據資源管理政策文本為研究對象，采用質性研究方法，提出了基于生命周期的政府數據資源管理政策體系。[17]

　　目前，我國學者對數據開放的研究多是對國外發達國家的政府數據開放制度法規的對比研究，相對來說其他視角下的政府數據開放政策法規研究還較為缺乏。其次，另有部分學者也開始聚焦國內現有的數據開放政策并對其進行分析探究，來提出對策建議。從國外到國內，對于數據開放相關制度法規的多方位研究，使我國政府未來相關政策的制定更加科學和本土化。政府數據開放政策制度的完善與改進對數據開放的可持續發展具有重要意義，并將進一步推動政府數據開放工作的發展。

　　個人隱私保護領域包含“信息安全”“隱私保護”“個人隱私”等關鍵詞。在數據開放工作進程中，信息安全是不可忽視的一環，安全性的高低將直接影響到數據開放的價值及可利用性。杜荷花從隱私政策角度構建了我國政府數據開放用戶隱私保護評價指標體系，發現政府數據開放平臺的隱私保護整體較差，用戶隱私安全還面臨著嚴峻的挑戰。[18]

　　侯曉麗等人從政府角度出發，通過對當前較為典型的政府數據開放平臺進行調研，重點探討了數據開放過程中還存在的國家秘密泄露風險點。[19] 眾多學者從不同角度出發，探究數據開放過程中的隱私保護和信息安全等問題，以期為數據開放營造更加良好的環境與氛圍，為未來更多地方政府的數據開放提供前提條件。因而，如何保障“數據開放”中信息的安全性成為數據開放研究的熱點主題。

　　生態學研究視角領域包含“信息生態鏈”“眾創空間”“利益相關者”等關鍵詞。隨著數據開放研究的火熱開展，學者陸續從不同的理論角度對數據開放進行深入的剖析與研究，其中政府數據開放生態體系作為一個概念被各界多次提及。陳姍姍等人基于眾創空間的背景，從價值理論出發構建了實現政務數據價值的生態系統模型。[20]

　　趙需要等人從生態學和生態鏈視角出發，對政府開放數據生態鏈的概念、本質和類型進行了分析與闡述，明確了政府數據開放鏈及鏈上各主體之間的相互關系。[21] 生態系統視角下的研究更加宏觀和注重實踐，更能發現政府數據開放實際工作中所出現的問題。生態系統已成為一個熱點研究方向，在上述學者對生態系統與數據開放交叉理論研究的基礎上，在未來會得到進一步的發展，提升數據開放的價值，促進各產業的轉型升級以及創新等。

　　實證研究“實證研究”領域包含“政策量化分析”“實證研究”“層次分析法”等關鍵詞。實證研究可以有力地支撐定性理論。吳金鵬等人基于生態系統理論，構建了數據“供應—創新—消費”分析框架，經實證研究發現：治理能力、創新能力、公眾參與是促進政府數據開放發展的關鍵因素。[22]

　　齊艷芬等人構建了城市政府開放數據行為的影響因素模型并選取部分城市政府的開放數據行為進行實證分析，發現企業、媒體、政府內部監管要求和其自身技術能力等對數據開放行為有較強的影響。[23]但在目前有關數據開放的研究中，實證研究還尚未得到較為廣泛的應用，更多是基于理論的定性研究。但就本領域已有的實證研究發文年代來看，主要集中于近兩三年(2019 年至今)，加之由于大數據分析等技術的應用導致激增的數據量，可以推斷實證研究在未來將會成為一個熱門研究領域。

　　四、研究趨勢

　　(一)研究主題變化的時間拐點突現詞是某一個時間段內被引頻次突然增多的關鍵詞，可以用來反映某一時間段內的研究趨勢。鑒于此，為進一步研究我國數據開放研究的發展趨勢，運行 CiteSpace5.7，參數設置“Burstterms”。在 2011—2016 年間的突現詞為“電子政務”;2011—2015 年間的突現詞為“數據門戶”;2018—2021 年間突現詞為“政府數據開放平臺”;2019—2021 年間突現詞為“數據開放平臺”。其中“數據門戶”“政府數據開放平臺”和“數據開放平臺”突現率一直延續至今，可說明三者為我國數據開放目前研究的主要發展趨勢，也是政府數據開放工作最直觀地展現。

　　(二)研究主題變化的演進歷程

　　除此之外，關鍵詞時序圖可以用來反映某一研究主題隨時間變化的主要研究內容，也能夠在一定程度上反映某一時間段內的研究趨勢，因此運行 CiteSpace5.7，在關鍵詞共現分析基礎上，按時間片段生成關鍵詞時序圖譜。從中可看出在不同時期學者的關注點不同，因此，可以把我國數據開放研究的演變劃分成初期探索性研究期、多元化擴展研究期、深入精細化研究期三個發展研究階段，以更好地分析我國政府數據開放研究的發展階段。初期探索性研究期(2009—2013 年)。

　　在 2009 年至 2013 年，關于政府數據開放的篇名檢索，其研究與發文量較少，關鍵詞類別較為單一。說明在此階段，僅有少數政府有關部門、高校學者以及科研機構開始對數據開放有關問題進行了研究。初期主要圍繞“數據開放”“公開”等進行探討。由于技術上不成熟、觀念落后、專業人才短缺等眾多問題的存在，對數據開放的重視度不足，此時市場上也鮮有企業提及開放數據的重要性，造成研究內容單一，未成系統化 [29]。多元化擴展研究期(2014—2018 年)。在此階段，發文量猛增，關鍵詞類別逐漸豐富，數據開放已經受到學界的重視并陸續加大了研究力度。此階段，眾多學者開始從不同的學科領域對數據開放進行探討，主要關鍵詞類別有“開放政府”“大數據”“英國”“云計算技術”和“平臺建設”等。白獻陽等人基于大數據視角，根據政府數據開放政策體系框架對數據開放相關政策進行梳理，探析其中的問題并給出了改善建議。[30]

　　鄭振宇以英國、美國等發達國家政府數據開放活動為研究對象，運用比較分析法，提出了推進我國政府數據開放的若干建議。[31]楊瑞仙等人針對我國當時現有的數據開放平臺進行分析與研究，提出我國政府數據開放工作的若干建議和對策。[32] 總之，這一階段的研究實用價值導向明顯，重點關注我國數據開放的可行性，研究主要圍繞數據獲取與分析處理技術、國外政府數據開放建設、我國數據開放政策制度的制定等方面，但數據安全、公眾參與等問題開始受到了一定的關注，數據開放研究領域逐漸多元化。

　　深入精細化研究期(2019 年至今)。這一階段，數據開放研究進一步拓展，快速多元化，發文量均在 120 篇以上。這一時期的研究關鍵詞主要類別有“實證研究”“政策與立法”“信息安全”和“突發公共衛生事件”等。朱曉峰等人運用 logistic 種群演化模型，選取武漢市政府數據服務網為研究對象，發現其和數據使用者之間存在相互關系。[33]侯曉麗等人從信息安全角度出發，對國家秘密泄露的風險點進行了識別，并提出了相應的保護策略。[34]

　　陳朝兵等人運用文獻分析法，選取美英澳新四國為研究對象進行研究，提出了我國政府數據開放監管應從加快頂層設計、整合監管機構、打造多元協同監管格局、強化評估問責機制建設四個方面抓起。[35]相雅凡等人構建了突發公共衛生事件地方數據開放評估體系，對 30 個地區在疫情期間的政府數據開放工作進行評估，發現疫情嚴重性成為政府數據開放工作的阻礙等。[36] 與前一時期相比，這一時期的政府數據開放工作已成為政府的一項日常議程，并且在實踐領域和理論研究層面都呈現多元化。眾多學者的研究不僅關注到了政府數據開放的立法與政策的制定，也就其安全性和隱私性等進行了討論，注重系統性的分析與研究。

　　五、結束語

　　本文采用 CiteSpace5.7 軟件及文獻計量學方法對政府數據開放研究的現狀、熱點及態勢進行了系統化梳理與總結。數據開放領域的研究主題經歷了由宏觀性研究向具有可操作性的微觀研究方向發展，從關注政府組織中的網絡技術架構與管理銜接到以市場社會的用戶需求導向，以解決我國政府數據開放的內在需求為起點和歸宿的變遷過程。目前我國政府數據開放研究依然屬于新興領域，處于起步發展階段，研究文獻總量還較少，學術關注度仍相對較低。

　　參考文獻：

　　[1] 周大銘 . 我國政府數據開放現狀和保障機制 [J]. 大數據，2015，1(2)：19-30.

　　[2] 任福兵，孫美玲 . 基于價值鏈理論的政府開放數據價值增值過程與機理研究 [J/OL].[2021-04-04] 情報資料工作

　　[3] 段堯清，夏立新，李玉海等 . 中國政府開放數據利用研究報告(2020 年)[R]. 湖北省 : 華中師范大學信息管理學院，2020.

　　[4] Chen C . CiteSpace5.7 II: Detecting andvisualizing emerging trends and transient patternsin scientific literature[J].Journal of the AmericanSociety for Information Science and Technology，2006，57(3):359-377.

　　[5] 胡金萍，呂芮 . 我國聽障大學生研究熱點主題及趨勢探析——基于知識圖譜的可視化分析[J]. 綏化學院學報，2020，40(1)43-47.

　　[6] 邱均平，劉敏 .1998—2007 年我國競爭情報領域論文的計量規律研究 [J]. 情報科學，2009，27(9)：1281-1285.

　　[7] 黃如花，何乃東，李白楊 . 我國開放政府數據的價值體系構建 [J]. 圖書情報工作，2017，61(20)：6-11.

　　作者：趙需要姬祥飛樊振佳劉軍峰