本文摘要:摘要:科學數據作為科學研究的重要組成部分,科學數據的潛在安全風險影響著科學研究每個過程的研究結果。采用訪談法,對分布在10個學科門類、42個學科大類的51位科研人員進行訪談,借助NVivo11Plus質性分析軟件,結合扎根理論方法,對51個訪談文本進行編碼,
摘要:科學數據作為科學研究的重要組成部分,科學數據的潛在安全風險影響著科學研究每個過程的研究結果。采用訪談法,對分布在10個學科門類、42個學科大類的51位科研人員進行訪談,借助NVivo11Plus質性分析軟件,結合扎根理論方法,對51個訪談文本進行編碼,構建科學數據安全風險識別框架,按照維度剖析科研人員在科學研究過程中的行為思想、外部環境與科學數據安全風險的關系結構。第一,科學數據生命周期的不同階段呈現的科學數據安全風險存在異同點;第二,科研人員最關注科學數據收集階段、科學數據處理階段、科學數據存儲階段的安全;第三,政策、資金、設備、平臺、數據五個維度是科學數據安全風險的影響因素;第四,資金、設備是科學數據安全的基礎保障。據此從科學數據生命周期的角度為科研人員在科學研究過程中規避科學數據安全風險提出對策。
關鍵詞:科學數據數據安全科研人員扎根理論風險識別
在數據驅動型科學研究背景下,科學數據在各學科門類的運用頻率明顯提高,對科研人員而言科學數據是科研成果產出的必要條件。近年來從大數據研究[1-3]的熱點話題過渡到現今悄然興起的數據科學[4-5]話題,無一不強調數據在科學研究中的重要作用,與此同時,科學數據管理正在引起學界的熱切關注。當科學數據成為科學研究的重要部分時,其重要性包括:第一,過程數據直接影響科學研究成果的價值,間接影響過程數據的潛在價值;第二,成果數據是一項研究成果,直接影響產權歸屬。自然科學中更加強調科學數據的重要性,科研人員傾向于關注過程數據安全,過程數據安全不僅與科研人員自身行為有關,還與外界環境密切關聯。
為幫助科研人員規避科學數據安全風險,本研究以10個學科門類、42個學科大類的51位研究生與教師作為訪談樣本,利用NVivo11Plus分析訪談文本,結合扎根理論方法,歸納出訪談文本中的概念、范疇、主范疇、維度,從科研人員角度出發,探究影響科學數據安全風險的因素,構建科學數據安全風險識別框架,梳理影響因素間的關系結構,為數據驅動背景下,社會人文學科與自然科學學科的科學數據安全風險規避提供理論依據。
1綜述
科學數據管理的實踐體現在相關法律、法規、管理辦法的發布等方面,我國已經頒布《中華人民共和國國家安全法》《中華人民共和國網絡安全法》《科學數據管理辦法》《數據安全管理辦法》《中華人民共和國數據安全法》。國外為了完善和規范數據信息保護體系,出臺了與數據、信息相關的法律,比如英國早在1998年頒布的《數據保護法》用于維護數據安全,歐盟實施了《通用數據保護條例》,德國出臺《聯邦數據保護法》,加拿大的《開放數據指令》,美國出臺的《數據泄露通知法》。目前與數據相關的法律、法規、管理辦法以維護國家安全、商業機密、個人隱私安全為主。
我國科學數據管理正處于萌芽狀態,科學數據安全的潛在威脅因素包括科學數據安全利益相關者的安全意識薄弱、重要科學數據外流、科學數據基礎設施水平落后[6]、國外政府非法監視[7],科學數據安全治理體系有待完善。科學數據管理在高校、科研機構、國家基金組織、科研資助機構較為活躍[8],比如約翰霍普金斯大學、哈佛大學、倫敦帝國理工學院、悉尼大學、南洋理工大學為科學數據管理設置負責角色與職責,其中不乏建立科學數據存儲庫的高校。國家基金組織、科研資助機構包括美國國家科學基金委(NSF)、美國國立衛生研究院(NIH)、英國研究理事會(RUCK)、英國醫學研究理事會(MRC),均出臺了科學數據管理相關政策,目的是作為科學數據安全的保障機制。
此外,荷蘭數據歸檔和網絡服務中心(DANS)為人文學科提供數據開放獲取和持續訪問的服務[9]。學界基于高校進行科學數據管理的研究較多,比如有學者認為科學數據管理服務由圖書館提供,因此從學者工作經驗的視角開展調研,構建出基于四螺旋模型的高校科研數據知識服務風險管理體系[10];楊燕發現在行為學視角下高校教師在科研過程中的不規范行為影響著科學數據安全管理[11];焦紅發現生物領域的科學研究復用科學數據是普遍現象[12],說明復用科學數據在一定程度上減輕了數據獲取難度,同時能夠保證科學數據質量。高校的科學數據管理政策是科學數據安全的制度保障[13],因此調研高校科學數據安全政策并構建為高校服務的科學數據安全內容框架是必要的[14],其中研究數據相關政策的目的包括但不限于以下,完善我國在國際層面的數據跨境管理體系[15-18],強調數據政策是保護個人數據的關鍵[19]。
此外在數據共享層面的安全問題,有學者基于科學數據共享過程,詳述用于保護科學數據安全的關鍵技術[20];李斯[21]使用問卷調查法調研圖書情報領域的科研人員對科學數據共享的感知風險后發現,科研人員是最易于感知數據濫用和侵權風險的主體;盛小平[22]就數據共享階段的數據機密性、完整性和可用性問題,提出了科學數據安全治理模型;基于區塊鏈與智能合約的科學數據安全溯源方法[23]的實現有助于保障數據共享階段的數據質量;還有學者細分出開放數據質量面臨的挑戰[24],通過網絡調研發現數據完整性決定著數據質量[25];為了保證數據質量,Abella[26]使用模型評估巴塞羅那開放數據門戶的數據質量。
數據中的隱私問題也是學界關注的熱點,研究場景包括政府數據[27]、情報數據[28]、科學數據[29]、社交網絡數據[30],其中暗含著數據與隱私的聯系。數據是國家安全不可分割的重要組成要素,科學數據安全是數據安全的一部分,關于科學數據安全的研究集中在科學數據共享階段,研究內容通常以高校內的科學數據相關政策為主,未將與科學數問卷調查為主,研究視角、研究方法具有局限性,系統性探索科學數據安全風險及其驅動因素的研究較少。本文從科研人員的角度出發,構建面向科學數據生命周期的科學數據安全風險識別框架。
2研究方法與數據來源
2.1研究方法
科研人員是指在一個專業或領域內具備高水平職業素養與知識的同時專門從事科學研究工作的個人。科學數據安全風險是指科學數據在科學研究過程中因為外部環境的改變使得科學數據自身受到損壞、泄露、丟失[31],或者數據防護設施遭到破壞,從而導致一系列損害國家、社會、科研人員等利益相關者合法權益的影響。
扎根理論作為定性研究方法強調收集與歸納的過程,彌補定量研究一味強調客觀性與普遍性的局限。本研究借鑒Strauss和Corbin開發的程序化版本[32],通過訪談科研人員獲取原始資料,逐步進行開放式編碼、主軸編碼、選擇性編碼,將49份共10.2萬字錄音文本內容逐步概念化、范疇化與主范疇化。為了確保研究結果的可信度,將剩余2份專家錄音文本用于理論飽和度檢驗。總共51份樣本來自于10個學科門類,42個學科大類。最后構建出科學數據安全識別框架。該研究目的包括:①探索科研人員在科研過程中涉及的影響科學數據安全的行為與要素。②分析影響科學數據安全的行為與要素之間的聯系與運作機理。
2.2數據收集
第一步,結合前期文獻調研設計訪談提綱。第二步,完成預訪談后,完善訪談提綱,用于正式訪談。第三步,尋找各學科合適的訪談樣本。訪談方式采用面對面與電聯兩種,訪談過程采取“點-線-面”的遞進式提問方式,根據受訪者回答情況進行問題微調與合理追問,還原受訪者在整個科研過程中涉及科學數據的真實感受,揭示科學數據安全風險的影響因素。數據收集工作開始于2020年12月,結束于2021年3月,歷時約4個月,訪談對象為高校科研人員。
在此過程中,以訪談為基礎,并結合《科學數據管理辦法》、CSDN網站關于數據安全的博文補充訪談中的提問,驗證受訪者回答的有效性。本文設置50個個別訪談與1組小組訪談,補充小組訪談的原因在于激發對方表達欲,鼓勵成員表達不同觀點,其中平均每個個別訪談的時長近20分鐘,小組訪談的時長近30分鐘。最后將錄音轉化成文本格式,標記關鍵語句,采用質性分析軟件NVivo11Plus完成原始資料的編碼,歸納相關的范疇,最后根據范疇間的聯系將范疇進行關聯。
3研究結果
3.1開放式編碼與主軸編碼
遵循開放式編碼原則,首先閱讀錄音文本與筆記內容,對其中內容進行通讀后,標記具有核心語義的句子或詞語,并從中提取語義重復性大于兩次的詞語,作為概念。
基于開放式編碼,對范疇進行清洗,剔除形成概念次數少于兩次的范疇,整合初始概念意思相近的范疇,此過程逐漸脫離訪談錄音文本,向理論研究靠近,歸納出科研人員在科學研究過程中因自身行為、外界影響等因素導致科學數據生命周期階段出現安全風險的主范疇。數據收集、數據組織、數據處理、數據存儲、數據傳輸、數據共享、數據銷毀階段得到的主范疇分別為7個、3個、6個、6個、4個、4個、4個,共歸納出科研人員、政策、資金、設備、平臺、數據六個維度。
3.2選擇性編碼
選擇性編碼的主要目的是探尋主范疇間的關系,從中發現核心主范疇,該過程是構建科學數據安全風險識別框架的基石。本研究的目的是探究科研人員視角下科學數據安全風險的形成機理,核心主范疇是“科學數據安全風險”,比較分析科學數據安全生命周期7個階段的主范疇后,歸納得出6個維度(科研人員、政策、資金、設備、平臺、數據)。
3.3理論飽和度檢驗
本研究使用剩余2份訪談錄音文本進行理論飽和度檢驗,并邀請了圖書情報與檔案管理、國際貿易專業的兩位研究生再次對訪談錄音文本重新進行扎根,均發現檢驗結果所產生的概念、范疇、關系仍然屬于早先產生的概念、范疇、關系范圍,沒有新的概念、范疇或關系產生,因此可以證明此次扎根理論編碼階段的概念、范疇、關系達到飽和。
4科學數據安全風險識別框架
通過上述開放式編碼、主軸編碼和選擇性編碼3個步驟得到了6個維度,包括科研人員、政策、資金、設備、平臺、數據,將維度按功能分成5個層次,構建出科學數據安全風險識別框架,適用于科研人員的科學研究場景,從六個維度引導科研人員規避科學數據安全風險。科研人員是與科學數據產生直至銷毀接觸最為密切的主體,對科學數據安全風險抵御具有直接影響;政策是指政府層面制定的科學數據管理政策,對科研人員起到約束與規范作用;資金是購買先進儀器設備、數據庫等軟硬件設備的保障;設備是維持軟件穩定運行、數據穩定存儲的條件;平臺包括數據系統、數據庫、數據存儲庫等數據來源與保存渠道;數據是科學數據的上位概念,也是科研成果之一,其潛在價值有待挖掘,可以循環利用。
5對策與建議
科學數據安全風險識別框架的依據最初來自科研人員,最終又為科研人員服務,旨在幫助科研人員識別并規避科學數據安全風險,主要基于科學數據生命周期理論與2021年9月1日起施行的《中華人民共和國數據安全法》[37],因此具有一定程度的理論價值與指導意義。基于科學數據生命周期為科研人員保護科學數據安全提出以下七點建議:
(1)科學數據收集階段,要求科研人員合法收集科學數據,保證科學數據合法性與可用性[37]。收集的原始數據強調質量,包括數據全面性、數據準確性、數據真實性。落實上級制定的數據安全管理規范,必要時需要結合科學研究主觀與客觀環境制定細則,內容包括責任主體及職責、軟硬件設備管理、實驗室管理、數據管理流程。
(2)科學數據組織階段,科研人員養成良好的數據組織習慣,按規定格式命名文件,命名時避免出現個人信息,保證數據保密性。按科研進度與科研項目將文件進行歸類整理,及時迭代數據,保證數據有序性,減少錯誤使用數據的情況出現。
(3)科學數據處理階段,對硬件設備進行定期維護是有必要的,保持硬件穩定性,防止在數據處理過程中硬件出現突發情況而導致數據丟失問題。科研人員要提高知識產權意識,盡量使用正版官方軟件,保證軟件穩定使用,以及規避他人在軟件中藏匿病毒而導致數據泄露的風險。同時,提高數據保密意識,防止他人抄襲數據的情況出現。科研人員要有自我道德約束能力[37],遵守安全管理規范,保證數據質量過關、數據合法、數據可用,避免在科學數據共享階段出現研究成果爭議的情況。
(4)科學數據存儲階段,對于科研人員個體而言,培養及時備份、多備份的特質。嚴格數據保存流程,加密電腦、服務器等數據保存設備,規避數據誤刪、數據泄露、設備被盜的風險。定期維護實驗設備,對存儲載體開展安全監測,來降低數據丟失、個人隱私被盜的概率。(5)科學數據傳輸階段,現狀是科研人員通常使用社交軟件傳輸數據,忽略了社交軟件個人賬號容易被盜的弊端,從而發生數據泄露。從數據安全角度出發,建議使用專業的傳輸軟件,避免因文件過期、文件雜亂、傳輸損耗導致的數據丟失,避免數據篡改[38]。科研人員在此階段同樣需要注意對數據進行保密,規范行為道德,杜絕泄密現象。
(6)科學數據共享階段,執行層要做好數據源頭清晰化的工作[37],回答是什么數據,為什么采用此數據,數據從哪里來,數據產生于何時,數據產生于誰,數據怎么產生六個問題,為科學數據共享符合FAIR原則創造前提條件。(7)科學數據銷毀階段,主要從數據銷毀徹底性、保密性的角度考慮。科研人員遵循數據保密協議,并且按照數據銷毀規定,規范地銷毀數據;定期更新與清理數據,消除影響科學數據準確性的無效數據。
6結語
我國科學研究正在壯大起來,數據時代的到來,意味著科學研究與數據的融合將愈發緊密,科學數據安全風險識別機制也逐步被學界關注。本文聚焦科研工作者,扎根科研過程,從中發現被科研人員忽視的科學數據安全風險,研究科學數據安全風險誘發因素,探究科學數據安全風險誘發因素間的關系內涵,構建了科學數據安全風險識別框架,通過科研人員、政策、資金、設備、平臺、數據間的協同配合,提高科研人員使用科學數據安全風險識別框架的可操作性,為科研人員規避科學數據安全風險提供參考。
圖書館論文范例:論我國圖書館學發展的數據化趨勢
本研究從理論層面構建了科學數據安全風險識別框架,尚未從實踐應用的角度對該模型進行補充、修正、完善和驗證。未來計劃面向科研人員群體使用問卷調查法,調研目前科研人員對科學數據安全的認識深度與廣度,了解科研人員關注的科學數據生命周期階段與科學數據安全風險點。基于前期收集的問卷數據,使用Amos軟件進行科學數據安全的一階驗證性因子分析、潛在變量間作用機制標準化模型分析、二階驗證性因子分析,以此進一步檢驗科學數據安全風險識別框架的可行性。隨后使用Vensim繪制系統動力學因果回路圖,將二階驗證性因子分析中的路徑系數、因子載荷、問卷數據作為方程初始值參考,進行模擬仿真,探索與科研人員相關的科學數據安全影響因素間的關系,修正科學數據安全風險識別框架。
參考文獻:
[1]梁宇,鄭易平.大數據時代信息倫理問題與治理研究[J].圖書館,2020(5):64-68,80.
[2]BalbinP,BarkerJ,LeungCK,etal,Predictiveanalyticsonopenbigdataforsupportingsmarttransportationservices[J].ProcediaComputerScience,2020,176:3009-3018.
作者:劉桂鋒阮冰穎蘇文成
轉載請注明來自發表學術論文網:http://www.zpfmc.com/jjlw/27632.html