數字人文視域下口述歷史檔案資源知識發現模型構建

所屬分類：電子論文閱讀次時間：2022-02-26 11:38

本文摘要：摘要為切實推動口述歷史檔案資源深度開發，本文綜合運用本體、知識圖譜等技術方法，從數據資源層、知識組織層、知識關聯層、知識發現層四個維度架構數字人文視域下口述歷史檔案資源知識發現模型，從理論建構和應用探索雙重視角指導并推進與口述歷史檔案資源關聯的人、

　　摘要為切實推動口述歷史檔案資源深度開發，本文綜合運用本體、知識圖譜等技術方法，從數據資源層、知識組織層、知識關聯層、知識發現層四個維度架構數字人文視域下口述歷史檔案資源知識發現模型，從理論建構和應用探索雙重視角指導并推進與口述歷史檔案資源關聯的人、地、時、事等內容特征及相互關系的可視化展示與挖掘，不僅為口述歷史檔案資源知識發現具體實施提供了可操作性框架參考，也有利于創新口述歷史檔案資源知識發現路徑。

　　關鍵詞數字人文口述歷史檔案資源知識發現

數字人文歷史檔案

　　0引言

　　加大對口述歷史檔案資源的開發利用力度，深入挖掘口述歷史檔案信息，積極開展口述歷史檔案工作，將有助于推動檔案事業發展，導引社會經濟建設進步。我國隱藏著巨量珍貴的口述歷史檔案資源，伴隨“數字”引領文化空間的轉型，身處數字化環境的人們對口述歷史檔案資源的知識發現需求也愈加強烈。新一代技術空前活躍，前沿性技術、顛覆性技術不斷涌現，催生新的數字技術，助力業態深度調整。技術的更迭帶來的數據和信息爆炸式增長，致使信息過載干擾阻礙著用戶信息選擇和知識獲取。

　　如何借由知識組織、關聯及聚合為口述歷史檔案資源拾遺補闕，從存量及增量口述歷史檔案資源中發現有價值的信息，發掘潛藏在口述歷史檔案資源內部的隱性信息，實現數字技術與口述歷史檔案資源的最佳契合，助力口述歷史檔案資源多維知識發現，探討數字與檔案在互動共生中的新型研究范式轉變和思維創新，是當下及未來人文領域研究焦點之一。簡言之，數字人文與口述歷史檔案資源的融合，將驅動“數字”與“人文”共生，語義化、關聯化、可視化、智能化是數字人文視域下口述歷史檔案資源知識發現研究的應然之勢。

　　1文獻綜述

　　伴隨大數據、數字人文與檔案資源交叉融合，技術方法開始尋求在口述歷史檔案領域的棲息地，為口述歷史檔案研究提供工具切入點，改善口述歷史檔案資源形態，并為最終實現知識發現提供前景預判。知識發現緣起于20世紀90年代美國底特律召開的第一屆數據挖掘研討會，會中首次使用了“數據中的知識發現(KnowledgeDiscoveryinData，KDD)”一詞，隨后有關知識發現的相關理念與方法研究被廣泛應用到各領域以探求新穎有用的知識。

　　知識發現在各領域的應用和發展能為檔案資源知識發現提供參考支持。為創新世界記憶遺產文化傳承，李建偉構建了口述梅州僑批史料數字倉儲系統，從發現視角實現口述歷史檔案資源標引加工、知識揭示與主題索引，提取關聯內容，如某個有價值的故事情節、數據、場景等，根據這些線索從海量數據庫聚合更多主題相似的數據。[1]Wolduk對口述歷史檔案資源知識發現過程原理進行了概要介紹。[2]

　　Pattuelli討論了文化遺產鏈接數據的生成、處理和集成過程，并以口述歷史檔案為鏈接數據命名實體的主要來源，描述了數據開發過程本身如何為遺產數據查詢和接觸路徑。[3]然而現階段，有關口述歷史檔案資源的知識發現研究鮮少，缺乏完整的模型框架予以系統指導。

　　一方面，口述歷史檔案資源呈現方式仍以簡單檢索、全文呈現為主，傳統的館藏資源貯存思維、手動查閱檢索以及分類歸檔等陳舊手段已不能滿足數字人文發展需要;另一方面，現有的口述歷史檔案資源數據庫無法揭示口述歷史檔案內在本質屬性和知識復雜關系，難以實現不同語義層面的口述歷史檔案資源細粒度組織關聯，滯礙口述歷史檔案資源價值有效發揮。

　　基于此，本文將數字人文理念、技術方法與口述歷史檔案相關理論結合，架構數字人文視域下口述歷史檔案資源知識發現模型，從理論和實踐雙重視角助力資源深入揭示與深度挖掘是知識發現領域研究有益的新嘗試，也是口述歷史檔案資源價值實現的源動力，不僅有助于豐富檔案學相關理論知識，而且有利于推進數字人文技術方法在檔案學研究中的應用，為口述歷史檔案領域研究者及相關領域學者提供參考與指導。

　　2數字人文視域下口述歷史檔案資源知識發現模型構建

　　數字人文在一定程度上凝合了數據化知識資源的序化和人文社科新知識的生產過程，可望促成口述歷史檔案資源知識發現而萌發出新的學科生長點。[4]

　　為順應數字時代發展新要求，尋求“數字人文”與“口述歷史檔案資源”知識發現研究的組配可能性，筆者以新視角“切入”口述歷史檔案研究，提出數字人文視域下口述歷史檔案資源知識發現邏輯框架構想，以期解決口述歷史檔案資源知識“靜置”、思維“困囿”、技術“遲滯”等問題。從層次結構看，該模型為四層應用框架，概覽了整個口述歷史檔案資源知識發現過程以及所需技術工具;從功能角度而言，涵蓋數據獲取、數據預處理、知識序化、知識表示、知識生成、知識挖掘、評估反饋。

　　2.1數據資源層

　　數據資源層即口述歷史檔案數據來源，如手稿、日記、文本、照片、音頻、視頻、網站、數據庫等，源自對散落資源的征集整合以及館藏資源的館際互聯[5]，可以為后續知識組織、關聯與發現提供資源保障。在此過程中，數據獲取功能必須解決用戶無法獲取數據描述的底層邏輯問題，通�？山柚W絡爬蟲或公開API等技術方法提取有價值的口述歷史檔案數據信息。[6]同樣，沒有高質量和精準的數據就不會有高效率的知識發現過程和良好的知識發現結果，因而數據預處理功能可以避免不恰當數據或錯誤數據集合的引入而導致知識發現準確率降低(人工+自動剔除)，是保障口述歷史檔案數據質量的關鍵。

　　2.2知識組織層

　　知識組織層即構建口述歷史檔案資源本體。與其他檔案資源不同，口述歷史檔案資源內容龐雜，涉獵廣泛，預處理后的口述歷史檔案資源尚不能達到知識發現基本要求，內部信息揭示程度不夠，不同的數字化成果間缺乏統一標準，易造成信息孤島現象，不能完整反映資源間錯綜復雜的聯系。如何有效地進行資源描述、組織和標引，知識序化功能至關重要，即對處于離散分布狀態的口述歷史檔案資源結構序化。

　　同時，借由知識表示功能完成口述歷史檔案內容的形式化表達，清晰揭示語義內容，去除異構數據鴻溝，為深度關聯與聚合提供結構基礎，實現數據在不同應用之間順暢交換、跨越資源類型藩籬、在組織層面實現知識融合。[7]即一方面可復用檔案領域本體，并在此基礎上補充元素加以改進;另一方面須自建本體，包含元數據標準選擇[可參考口述歷史電子檔案元數據方案(DA/T —2015)和通用元數據標準]，元數據抽取，術語詞表構建，確認類的等級體系，定義類和屬性，充實、修正本體，模型轉換等步驟。[8]

　　值得注意的是，在此過程中，元數據是每個層次上升的粘合劑[9]，是口述歷史檔案資源序化的必要手段，可揭示復雜概念及邏輯關系。同時，僅有概念化的模型只是紙上談兵，因此，還需要通過知識生成功能(借助Apollo、OILEd、OntoEdit、OntoSaurus、Protg、WebODE等工具)實現口述歷史檔案資源本體可視化輸出，可視化工具如OntoGraf、Graphviz、Owl-Editor等。

　　2.3知識關聯層

　　知識關聯層即構建口述歷史檔案資源知識圖譜。作為一種“橋接”實踐，圖數據庫靈活的圖模式及固有的知識生成與挖掘功能支持知識存儲、人文傳播、歷史陳述、知識探索。[10]于口述歷史檔案資源而言，圖數據庫起到了起承轉合的嫁接作用，不僅是與口述歷史檔案資源本體映射鏈接的結構工具，也是口述歷史檔案資源知識圖譜的存儲與繪制工具。

　　知識圖譜是口述歷史檔案資源高效利用及細粒度信息呈現并實現語義關聯和可視化展示的有效途徑，主要包括模式層和數據層架構，可視化工具如關系型數據庫(如Oracle、DB2、MySQL)和非關系型數據庫(如NoSQL、Neo4j、GraphDB)，可實現口述歷史檔案資源知識單元向知識網絡的升華。可以說，知識圖譜通過冰冷枯燥的數據將鮮活豐滿的口述歷史檔案資源存儲并呈現，一端是高價值的數據結構，另一端是有溫度的人文資源，更好地實現了“機器可讀—資源存儲”，為充分挖掘資源價值及發揮資源效用奠定了基礎。

　　2.4知識發現層

　　知識發現層即基于知識圖譜展開多維細粒度知識發現研究。挖掘功能是知識發現的終極目標，傳統知識發現模式下，用戶在瀏覽與檢索口述歷史檔案資源時，難以將紛繁、復雜的不同類別口述歷史檔案資源串聯起來。數字人文視域下，知識圖譜為口述歷史檔案資源知識發現提供了可能。

　　一方面，知識圖譜采用圖模型描述知識關系，除共現關系外，還可以自主定義更多復雜的語義關系，如口述過程中提及的親屬關系、上下級關系、師生關系等;另一方面，知識圖譜還提供了更為先進的挖掘算法(如知識推理)，可以實現任意長度的關聯路徑分析，通過Cypher查詢檢索工具實現與口述歷史檔案資源相關的人、事、地、時等基礎要素的聚合展示與知識挖掘，發現更多潛藏關系：或者是社會網絡關系，能深入挖掘人物信息;或者是時空關系，能判別人物遷移軌跡;抑或是事件主題關系，梳理歷史事件信息，進而串聯成知識網絡，實現資源多維互聯。

　　值得注意的是，口述歷史檔案資源知識發現過程不是靜態凝固的，而是動態循環、反復求精的過程，因此，評估反饋功能貫穿始終。當知識發現結果不理想的時候，可以循環到前續階段進行調試與優化，或調整查詢語句，或規劃新路徑，以進一步獲得更為準確和符合口述歷史檔案資源知識發現需求結果。

　　3口述歷史檔案資源知識發現模型

　　主要模塊可視化以知識組織、知識關聯和知識發現為核心的口述歷史檔案資源知識發現過程至關重要。在對本文提出的數字人文視域下口述歷史檔案資源知識發現模型層次和功能進行剖析后，此部分將深入解構三個模塊，引入南京師范大學抗戰老兵口述資料中心數據源進行實例可視化展示。

　　3.1口述歷史檔案資源本體可視化

　　參照口述歷史電子檔案元數據方案(DA/T—2015)和通用元數據標準，依據實驗數據源，整合與人物關聯的信息(如姓名、性別、語言、國籍、籍貫、民族、黨派等)，建立人物(Person)類;將不同的人物角色(采訪者、口述者、發布者)聚合，建立角色(Role)類;將開始時間、結束時間以及時間信息劃歸為時間(Time)類;任職經歷(WorkExperience)類包含單位和職位兩個子類;地點(Place)類設置國家(Country)子類;事件(Event)類包含與之相關的事件開始時間、事件結束時間、事件名、事件地點等屬性;項目(Project)類下設摘要、標題、鏈接、資源大小、資源格式、資源類型、網頁發布時間、發布時長等屬性;身份(Identity)類定義領域內身份信息;權限(Rights)類包含版權(Copyright)屬性;設備(Device)類添加設備制造商、設備型號、軟件信息等屬性。借助ProtégéOntograph對上述十個大類及屬性予以可視化展示。

　　3.2口述歷史檔案資源知識圖譜可視化

　　本體通過對口述歷史檔案知識抽離及重組，實現了領域知識的規范化描述。由于本體的類、屬性、關系的知識組織方式與知識圖譜的節點、邊結構并不匹配，故而需要將口述歷史檔案資源本體解析為RDF三元組這一更具有通用價值的數據鏈接方式，完成與圖數據庫的映射，從而為后續口述歷史檔案資源知識圖譜構建及深層發現提供清晰思路。

　　為直觀展示口述歷史檔案資源本體解析的效果，將三元組以RDF圖形式進行組織。以Person類和Project類之間的參與對象屬性為例，“參與”這一對象屬性在三元組(participate_in，rdf:type，owl:ObjectProperty)中為主語，表示的含義為“participate_in”是對象屬性，在RDF圖中作為節點，而在另一三元組(Person,participate_in,Project)中又作為謂語，表示的是人物“參與(participate_in)”項目。圖4是以Person類為例進行本體解析后得到的部分RDF圖，橢圓表示主語和賓語實體，方框表示數據，分別展示了Person、Role類，Interviewer、Interviewee、Publisher子類，interview、date_of_birth、native_place、has_role對象屬性、language數據屬性以及口述者“吳顯光”人物實例之間的關聯。

　　3.3口述歷史檔案資源知識發現結果可視化

　　如果說本體是概念化的知識單元，那么知識圖譜就是實際化的知識網格，能為解決如何關聯、聚合口述歷史檔案資源并將其內部事實進行細粒度知識發現提供新路徑[11]，通過對口述歷史檔案資源聚類分析，從中識別潛藏信息是口述歷史檔案資源知識發現的目標。本文以我國十大元帥之一的陳毅將軍為例，以“MATCH(p1:person{person_name:“陳毅”})-[r]-(p2)WHERENOT(p1)-[:interview|:superior|:introducer_to_the_Party]-(p2)RETURNp1,r,p2”語句調取人物知識圖譜進行browser可視化展示。

　　由此發現，在本文數據源中，該圖譜以陳毅為核心起點，包含與之關聯的人物19人，人物關系9種：親戚(relative)關系、夫妻(husbandandwife)關系、父子(fatherandson)關系、父女(fatheranddaughter)關系、姐弟(sisterandbrother)關系、上級(superior)關系、姐妹(sister)關系、兄妹(brotherandsister)關系、叔侄(paternaluncleandnephew)關系。除了獲取與陳毅直接相關的語義信息(即其妻子張茜、兒女陳丹淮、陳昊蘇、陳小魯、陳珊珊)外，我們還發現其下屬包括何克希、羅炳輝、張云逸、譚震林、洪學智、呂惠生、陳丕顯、吳強、孫湘、馮定、劉子久、黨云芳、劉玉柱、崔鳳閣。

　　并且，何克希、羅炳輝、張云逸、譚震林四人還存在上下級關系閉環。與此同時，關聯人物的籍貫地、現居地信息(分散至廣東省、山東省、云南省、四川省、湖南省、安徽省等)也隨之揭示，例如，黨云芳的籍貫地是棗莊，崔鳳閣的現居地是華州市，均位于山東省�？梢哉f，知識圖譜線上標識的屬性關系可以幫助用戶清晰可見語義關聯信息，有效拓展了口述歷史檔案數據邊界，豐富了口述歷史檔案資源知識發現方法體系。

　　由于數據源的局限性，該人物圖譜僅實現了與陳毅關聯的人物社會網絡關系和時空網絡關系揭示，未實現大范圍知識互聯。但是我們已經能夠證實，基于知識圖譜的人物社會網絡關系互聯可以為人物關系深入探討提供重要參考。未來，可以以此為切入點，結合百科類知識圖譜、家譜等，擴充數據來源，繼續豐富和充實抗戰時期人物知識圖譜，以更全面的視角審視人物關系，并通過調取事件、項目信息等，進一步展現事件主題關系、項目主題信息等知識發現內容。

　　4結語

　　不管是傳統的知識發現研究還是數字人文視域下的知識發現研究，新一代技術推助的“數字人文”熱潮，帶來的不僅僅是數據生產與處理能力的增強，同時，技術驅動也正在成為口述歷史檔案資源知識發現的核心動能�？傮w而言，本文充分融合領域相關知識。

　　結合口述歷史檔案資源屬性和特征，架構數字人文視域下口述歷史檔案資源知識發現模型，引入實驗數據源對主要模塊進行可視化展示，從理論和實踐層面回答并解決了口述歷史檔案資源知識發現“做什么”和“如何做”的問題，有助于深入揭示口述歷史檔案資源，優化口述歷史檔案資源粒度，拓展口述歷史檔案資源服務空間，為實現口述歷史檔案資源語義化組織、可視化關聯、語義查詢以及多維知識發現提供了新路徑。細化而言，從人文計算到數字人文，概念的更迭反映出技術環境對研究范式的深刻影響，特別是以數字化記錄、管理、傳播與交流為代表的數字技術對人文研究發展意義深遠，數字人文為口述歷史檔案知識發現研究帶來新視野。

　　(1)資源獲取方式變革。口述歷史檔案資源普具豐富性、多樣性與繁雜性等特點，傳統資源采集方式較為煩瑣且以人工采集居多，難以應對卷帙浩繁的海量資源，無法對其進行細化規整、提升資源獲取效率與資源獲取便利性，因此，數字人文技術方法的注入能為口述歷史檔案資源獲取方式開拓新思路，輔助人文研究走向深層次、多維度開發。[12]

　　(2)組織存儲方式變革。數字人文背景下，技術的革新為口述歷史檔案資源組織存儲帶來契機，主要體現為對海量資源進行“數字化”處理，即通過數字化技術實現口述歷史檔案資源數字化存儲與利用，借助本體、知識圖譜等代表性數字人文技術方法實現了口述歷史檔案資源組織、存儲、關聯、查詢及利用，極大提升了口述歷史檔案資源共享性，加速了口述歷史檔案資源深度開發。

　　(3)內容深度變革。內容深度、廣度、豐富度、細粒度始終是口述歷史檔案資源知識發現研究不可或缺的重要組成部分。在數字人文研究背景下，對口述歷史檔案資源知識發現進行深入研究，有助于構建資源互關聯、多維度、多梯次的資源體系，有助于推動口述歷史檔案資源間不同實體、屬性、關系的知識挖掘，形成集事件、主題、人物、時間、空間等相關關系為一體的晶格立體化知識網絡[13]，將復雜的社會關系予以呈現，深度挖掘關聯信息。

　　(4)資源展示變革。傳統的口述歷史檔案資源呈現形式以扁平化圖文聲像為主，用戶難以體會到虛擬環境帶來的環境沉浸感與人機交互的快感，可視化技術的“加持”能賦予口述歷史檔案資源空間感和立體感，有助于拓展口述歷史檔案資源傳播深度、廣度與維度。如Ontograph、browser等可視化技術能從標簽注釋、圖譜線上關系等渠道增強藝術人文，實現口述歷史檔案資源立體化、多模態呈現，打造知識動態交互空間。

　　綜上所述，以數字媒介和人工智能為基礎的口述歷史檔案資源業態和知識體系正日見雛形，“數字”為“人文”加速前行起到了“如虎添翼”的作用，數字人文已然成為口述歷史檔案資源知識發現研究的中堅力量。本文構建的數字人文視域下口述歷史檔案資源知識發現模型，不僅豐富了多元學科理論與方法，能為檔案領域學者深度開發口述歷史檔案資源提供參考，并且對推進國家檔案文化遺產數字化進程具有一定應用價值。相信在“數字驅動+知識發現”的催化作用下，口述歷史檔案資源知識發現研究必將煥發蓬勃生機。

　　注釋及參考文獻

　　[1] 李建偉.口述客家僑批選題規劃與資源開發探索[J].檔案學研究，2018(4)：43-48.

　　[2] Wolduk，Kim.ApproachtoOralStorytellingResourcesforCulturalContents-intheCaseofJeonbukProvince[J].KoreanLanguage&Literature，2014，91：89-114.

　　[3] PattuelliMC，HwangK，MillerM.AccidentalDiscovery，IntentionalInquiry：LeveragingLinkedDatatoUncovertheWomenofJazz[J].Literary&LinguisticComputing，2017(4)：918-924.

　　[4] 周文杰.知識資源的序化與數字人文的結構化知識資源基礎—基于知識地圖和認知結構學說的解析[J].情報資料工作，2020(6)：79-87.

　　[5] 趙善棟.信息時代區域檔案資源共享問題與對策[J].蘭臺世界，2021(1)：109-111.

　　[6] 張成麗.數字人文觀念在圖書館數據中的應用[J].山西檔案，2019(2)：106-108.

　　[7] 張磊，賀晨芝，趙亮.面向數據與知識服務的第三代圖書館服務平臺[J].國家圖書館學刊，2018(6)：40-47.

　　作者：鄧君王阮