高校档案在教学育人、科研创新、文化传承中具有重要价值,开发利用是发挥其价值的根本途径。知识图谱技术作为一种应用广泛的知识管理技术,能够通过“图”结构和可视化技术描述知识资源,在档案资源开发中展现了巨大的优势和潜能。本文旨在明确知识图谱技术赋能高校档案开发利用的重要价值和现实需求,提出知识图谱运用于高校档案开发利用工作的策略,从而促进知识图谱在高校档案的深度融合,助力高校档案深度开发。
高校档案是高等学校在招生、教学、科研、管理等活动中直接形成的具有保存价值的各种文字、图表、声像等不同形式和载体的历史记录。数智时代背景下,档案开发利用强调档案内容的多维开发和深层挖掘,旨在释放档案内蕴价值。高校工作的快速发展推动了高校档案资源日益丰富、价值渐趋扩展,如何有效并最大程度地释放高校档案价值成为高校档案工作的价值取向。
知识图谱是一种用图模型描述知识和建模世界万物之间的关联关系的技术方法,是一个建立在“语义网络”基础上的系统化、结构化的知识库或知识网络,能够提供语义化、可视化、智慧化的资源知识组织范式,在档案资源开发中展现了巨大优势和潜能,为高校档案的开发利用提供了理想的技术手段。
近年来,知识图谱在档案领域受到了广泛关注。在认识层面上,众多学者将知识图谱视为典型的数字人文技术,认为知识图谱是对档案资源组织、挖掘和分析的关键工具,其应用于档案领域十分必要且有重要价值。在实践层面上,越来越多的学者逐渐开始尝试档案知识图谱构建,主要以口述历史档案资源、城建档案、名人档案、革命历史档案等为研究对象进行档案知识图谱构建。此外,基于知识图谱的智能服务也受到广泛关注,主要包括语义检索、知识问答、个性化推荐等应用。
在此背景下,本文首先详细阐述了知识图谱在高校档案开发利用工作中的价值,其次充分调研了高校档案开发利用的需求,再次深度分析了知识图谱在高校档案开发利用中的适用性,最后提出了知识图谱应用于高校档案开发利用工作的策略,以期实现高校档案价值挖掘和档案资源开发利用模式的革新。
知识图谱技术在高校档案开发利用工作中的价值
促进高校档案资源知识挖掘,实现档案知识创新增值
高校档案涵盖教学、科研、管理等活动中直接形成的具有保存价值的历史记录,涉及科研档案、基建档案、教学档案、声像档案等形式,蕴藏大量的显性和隐性知识。知识图谱将档案资源传统的“卷”“件”级描述粒度细化到数据级,实现档案资源的知识化,能够从多源异构的高校档案中对知识进行“细粒度”的抽取和描述加工,准确描述高校档案的资源特点,助力高校档案资源细粒度、有序化、系统化知识组织,变“档案”为“知识”,实现档案知识创新与增值。
助力高校档案知识关联聚合,建立资源知识网络体系
高校档案来源于高校的各项实践活动,多元、专业和系统的实践活动带来了高校档案的专业性、多样性、系统性。高校档案的众多类别之间既相互独立又存在较强的关联性,教学与科研、产品与科研、教学与行政之间紧密相关。知识图谱借助领域化和情境化的规则、模式和体系,对零散的高校档案知识对象进行组织,明确知识对象之间的语义关系和相互作用机制,完成了文献单元向知识单元的转变,实现了知识的组织、关联和聚合,形成了层级分明、关联关系明确的档案知识网络,促进了高校档案资源知识网络体系的建立。
规范高校档案资源描述,推动高校档案资源共享
大数据环境中,档案资源的共享与利用有了新变化和新特点。先进的信息技术使档案资源的传输方式更便捷、共享效率更高,极大地改变了传统档案资源的共享和利用方式。知识图谱实现了对海量资源“知识元”层面的挖掘、组织、存储,将知识单元重新组织成一个知识网络体系。知识图谱技术在高校档案领域的应用,实现了高校数字档案资源知识单元的规范化描述和关联,清晰界定了档案知识的等级、上下位和语义等关系,重组和整合了分散、异构和种类繁多的档案资源,使数字档案资源能够在统一环境下进行处理,创造了资源融通、共享条件,帮助高校间实现数字档案资源的知识交流和深化。
知识图谱技术赋能高校档案开发利用的需求分析
高校档案开发方式单一,资源描述粒度有限
高校招生、教学、科研、管理等活动的不断发展带来了高校档案资源的丰富积累。截至2024年6月20日,全国高等学校共计3117所,其中,普通高等学校2868所,含本科学校1308所、高职(专科)学校1560所;成人高等学校249所。高校建设的蓬勃发展带来了高校档案资源建设的欣欣向荣。合理开发利用高校档案是有效提升高校档案价值的关键,本文通过网上调研的形式对高校档案资源开发现状进行简单的调查,调研结果如下表所示。结果显示,高校档案的开发利用仍处于初级阶段,主要包括档案专题展览与陈列、档案史料编辑、档案资料汇编等传统形式,档案资源描述细粒度总体较粗,多是对档案资源的外部特征进行描述,导致蕴藏在档案中的知识很难被发现和获取,无法保障其可用性,影响知识服务的深度和广度。
随着高校信息化的蓬勃发展以及高校档案工作的数字化转型,高校科学研究、行政管理、人才培养等职能部门在其履行职能的过程中形成了指数级增长的档案数据资源,呈现了多源异构的特点,容易形成“资源孤岛”,不利于档案资源的关联共享。现有传统档案开发利用中,部分史料编辑虽深入档案内容层面,但多以某一主题或人物为领域范围,形成的知识网络较为独立,不同主题或人物之间的知识关联广度较为有限。此外,现有高校档案管理系统及相关专题资料数据库往往只是将多源分散的档案资源进行汇集和简单整合,以形成门类清晰的档案资源体系,未对档案资源间的关联关系进行梳理、分析和构建,档案信息较为独立,未实现语义层面的深度联结,影响资源共享。
档案用户复杂多元需求,知识精细化需求提升
高校档案用户主要分为两大类,一类是高校档案内部用户,包括在校学生和在校教职工;另一类是高校档案外部用户,包括毕业校友、退休离职教职工、政府机构、企事业单位等。随着高校信息化建设发展和高校档案用户需求不断增长和变化,高校档案用户需求日益呈现复杂化、多样化和深层次的趋势,对高校档案开发利用工作提出了更高要求和更大挑战。档案用户在检索、获取和利用档案知识时,以案卷级、文件级为粒度的知识组织深度与以知识单位为粒度的用户需求不相匹配,对资源描述的粒度不再是题名、责任者、载体等外部特征信息,而是深入内容层面。此外,用户在检索档案资源、获取档案知识过程中,碎片化的资源无法为用户提供查找知识的有效指导路径,导致用户知识点松散,无法快捷、高效地找到所需知识。通过知识单元的关联获取更多知识,形成完整、系统的知识链条已成为高校档案更加迫切的需求。
知识图谱技术赋能高校档案开发利用的基础条件
高校档案数字资源建设蓬勃发展奠定资源条件
数字资源的积累是知识图谱技术应用于档案开发利用的重要物质基础与资源支撑。高校档案事业的不断发展推动高校档案资源建设的长效发展,为高校档案知识图谱构建提供重要的资源基础条件。目前,高校档案数字资源建设主要表现在高校档案资源的数字化加工和数据化处理,并已取得显著成效。
全国档案数字化工作的蓬勃发展推动了高校档案机构档案数字化的建设,全国大部分高校档案机构陆续将大量的馆藏档案进行数字化且成果丰硕,数字化范围涵盖党群、文书、历史及教学等门类和照片、音视频等载体,形成了规模可观的档案资源库,为知识图谱在高校档案开发中的运用奠定了坚实的资源基础。
随着综合性数字档案馆的蓬勃建设,高校档案馆也正着力于数字档案馆建设。2022年12月,国家档案局正式批准西南大学档案馆为“国家级数字档案馆”,西南大学档案馆成为全国高校首家国家级数字档案馆。2023年,重庆大学档案馆顺利通过国家级数字档案馆测试。目前,多个高校档案馆陆续开展并逐步完成数字档案馆建设,对馆藏档案进行系统梳理和全面普查,整合了不同时期、不同来源、不同形式的档案资源,持续推进馆藏纸质档案资源数字化,加快建设专题数据库,积累了丰富的数字档案资源。
知识图谱与高校档案特性高契合创造可行条件
知识图谱技术在高校档案资源中的可行性分析强调对高校档案资源特性的分析及知识图谱与高校档案资源的匹配度分析。
高校档案机构多采用集中式管理体制,其本质是以档案部门为中心的单向性档案资源建设过程,立档部门多元化带来了档案资源的多样化,涵盖教学、科研、财务和基建等方面,包括文书、声像、实物等载体。高校档案产生于高校实践活动,包括人才培养、科学研究、校园建设等活动,其相应活动都属于相应专业领域,具有较高的专业化程度。同时,高校各项实践活动的进行都遵循严格的规章制度、规范和标准。因此,高校档案资源具有典型的多元化、专业化和规范化特点。
高校档案资源的多元化、专业化和规范化特点与知识图谱构建的要求适配性高。无论是形成的科研档案还是教学档案,还是基建档案,其不同类别档案具有统一性、规范化、标准化的特点,能够在内容层面上进行“切片”和重组,实现知识“细粒度”描述和组织。同时,科学研究、人才培养、校园建设等不同档案类别资源紧密相关,能够实现知识的关联和聚合。
知识图谱技术赋能高校档案开发利用的策略
推进数字资源建设,夯实档案资源总量
高校档案数字化加工、数据化处理和数字档案馆的建设带来了丰富的数字档案资源,是知识图谱技术赋能开发利用工作的坚实资源和基础条件。因此,高校档案机构一方面要按照“存量数字化、增量电子化”的要求,加快推进档案数字资源建设,不断扩大档案数字化规模、丰富数字化对象、建设档案数据仓储。另一方面,在档案数字化的基础上,积极探索档案数据化,分门别类进行档案数据化处理,依托馆藏特色档案资源,结合社情校史,围绕特定人物、事件或主题建设教学评估、科研创新、校园文化等档案专题数据库。
完善档案数据标准,提升档案数据质量
档案数据是档案知识图谱构建的数据源。高校档案产生于高校各项活动中,来源广泛,种类繁多,包含大量结构化、非结构化和半结构化的数据,存在教学、科研、人事、基建档案等多源异构数据。因此,高校档案机构必须将档案数据的真实、完整、可用、安全作为工作重点。一是要依据数据范围,分门别类制定数据标准规范,分析不同形式、多方来源、多种格式的档案数据特点,制定元数据方案,确保数据规范和标准。二是要建立数据质量评估机制,依托数据评估指标体系,根据档案数据实际情况,定期开展档案数据检查评估工作,全面评估档案数据的完整性、安全性和可用性。
完善信息安全机制,确保个人隐私安全
知识图谱技术强调对资源内容层面的挖掘和关联,在应用过程中涉及个人敏感信息或隐私的处理。尤其是作为高校档案中重要类别的教学档案和人事档案,其内容涉及大量个人信息。因此,在运用知识图谱技术描述资源内容时,应完善信息安全防护机制,确保个人信息安全。一方面,采取有效技术手段对档案数据中的个人信息和隐私进行脱敏处理,加密隐私敏感信息,采用分级管理和实施严格的访问权限设置,确保用户在授权范围内获取数据。另一方面,建立有效档案数据安全保护机制,全流程控制档案数据合法访问,实现安全管理可追溯,定期排查档案数据安全风险,及时修复安全漏洞。
准确定位档案类别,探索更多应用场景
知识图谱构建的关键在于知识图谱的应用,只有将知识图谱与具体实践活动相结合,才能有效发挥知识图谱的实践价值。知识图谱实现档案知识的组织、存储、关联,形成网络结构形式的知识体系,能够提供知识导航、智能检索、决策支持和资源共享等应用服务。高校档案资源具有典型的多样性,涵盖教学、科研、财务和基建等方面,包括党群类、行政类、教学类、科研类、仪器设备类和财会类等档案门类。针对不同类别的档案可以面向不同的应用场景。例如,基于基建档案和GIS技术构建基建档案知识图谱,立体化展现校园建筑风貌的同时,为基建业务人员提供智能检索、建筑安全预警等知识服务;又可基于科研档案深度挖掘、关联科研知识,辅助科研人员教学及研究。
(作者单位:华中师范大学档案馆)