云冈学基础研究资料的数字化实践

来源:中国文物报
作者:​耿波

近五年来,云冈研究院坚持“科研立院”,努力建设云冈学,力争把云冈研究院建设成为国内一流的学术研究高地。云冈石窟的档案文献资料是研究云冈石窟及其发展历程的重要参考,是建立云冈学最基础的研究资料。

云冈石窟的研究,始于金代曹衍撰《大金西京武州山重修大石窟寺碑》,继以清初朱彝尊《云冈石佛记》。但真正学术意义上的研究,则是近百年之事,著名学者陈垣、梁思成、阎文儒、宿白等先后著文,都成为了云冈学研究的萌芽。新中国成立后,党和政府高度重视云冈石窟的保护工作,成立古迹保养所修缮古迹。1961年,云冈石窟被国务院公布为首批全国重点文物保护单位。2021年2月,云冈研究院成立。历经百年,云冈的保护研究工作产生了大量的基础档案资料,主要包括历史环境监测数据、文物保护工程档案、历史综合类档案以及外文西装书和线装孤本资料等。1960年至2018年,云冈石窟的工作人员采用手工和机器记录的方式,记录了包含温度、湿度、日照、风速、风向、降雨量、饱和差、蒸发量、气压、气温、水温、流量等多种环境指标数据。目前,共计30万页32种格式的纸质历史环境监测数据档案就存放在云冈监测中心的13个文件柜中。60多年来,这批档案历经研究院几次大规模搬迁,加上大多数据记录在草纸上,档案的丢失、破损、字迹污染模糊情况严重,历史监测数据一直没有得到有效的利用。

云冈石窟文物保护工程档案全部为纸质资料,共约50万页。从二十世纪六十年代云冈石窟第1、2窟的实验开始,到七十年代的“三年保护工程”、九十年代的“八五”工程,直至今天,云冈石窟保护工程和日常保养工程都留下了大量档案资料。这些档案年代久远,体积庞大,已无法满足有效的查阅需求。

云冈图书馆是云冈研究院的文献资料中心,是深入开展和提高云冈学研究的科研服务性学术场馆,不仅面向研究院科研人员,也面向社会公众开放。图书馆现藏的外文西装书和线装孤本资料,时代为清至上世纪六七十年代,共计4900套,约200万页。书籍历史悠久,较为脆弱,不利于长期大量的翻阅查询。

历史综合类档案,即云冈石窟1920年至2021年的全部历史档案,包含文书档案、石窟综合类档案、基建、设备、会计、声像、实物、人事、图纸以及底片档案等,共约11000余卷150万页。种类繁杂、数量巨大的历史综合类档案亦亟待创新应用路径。

云冈石窟以上各类档案共约430万页,这些海量的档案文献分散在云冈各个保护部门的档案室和云冈图书馆内,保存地点多,保存方式各异,保存质量参差不齐,数据记录标准不统一,给使用工作带来巨大的阻碍。同时,传统的档案文献整理工作存在信息化水平低、整理效率低、文献内容离散、缺乏数据分析、档案资源开发利用差等问题,难以适应数字时代档案文献的整理利用和价值传承,在很大程度上制约了云冈石窟保护研究工作的发展。

为了让云冈的档案文献“活”起来,云冈研究院积极组织实施云冈学基础资料数字化项目,进行批量化的数字化采集与复制,将所有数据上传至“云冈环境监测系统”和“云冈石窟文物数字化资源管理平台”,支持在云冈研究院局域网内进行资料查阅与数据分析等工作。

云冈学基础研究资料的数字化工作为云冈学的建立和发展带来了应用价值。数字影像文件可以通过计算机局域网进行传输,使文献资料调阅突破局限性,不再受时间空间限制,提高了数据资源的利用效率,有效实现资源共享,也为云冈学基础资料的可视化呈现和传播利用提供更多的表现形式。

云冈学基础文献研究资料数字化项目整体分两期完成:第一期主要完成历史环境监测类档案的前期整理和中期数字化处理工作,文物保护工程类档案的前期整理、中期数字化处理和后期OCR识别以及人工校对,以及共计200万页图书馆资料档案的中期数字化处理。第二期主要完成云冈研究院院藏的纸质历史资料档案、老相片、底片、录像带、照片、光盘和磁盘资料的整理、数字化加工及信息标注,并对上述完成数字化加工的档案资料进行利用。

在进行数字化工作前,先要进行大规模的整理和归档。因此,项目的实现需要打破部室藩篱,在数字化保护中心和文献资料中心的统一规划和组织下,不同学科工作人员交流合作,依据单位管理职能,结合石窟寺档案构成的内容及其形成特点进行整理归类。项目共设三级类目:一级类目由原来的四大类扩展至十三类:文书类、文物保护类、石窟考古类、数字化类、文旅弘扬类、科研类、安全防范类、基础设施建设类、设备仪器类、声像档案类、实物档案类、财务管理类、人事管理类;二级类目按专业性质设置,如文书类的二级类目按管理职能或问题设置,文物保护类按工程项目性质设置,声像类、实物类按载体形式设置等;三级类目可视实际情况而定,各级目录均设置标识符号。针对照片进行分类时,大型洞窟一般按洞窟壁面方向分为东、南、西、北、顶、地以及大场景等12个方位。每个方位按洞窟特点再细分为2至10层;为满足后期知识图谱和人工智能的使用,分类后还对每张照片进行信息标注,保证描述照片具体位置后再加述照片所反映的内容,一般命名为:云冈石窟+洞窟+壁面+层次+内容。

image.png

综上,云冈档案文献整理原则就是要保持档案之间的有机联系,既满足档案分类管理的包容性,又考虑今后发展的延伸性,使之便于科学管理和综合利用。

整理归档工作完成后,再针对档案文献资料的载体特点、内容形式、数量大小等因素,选择适当的数字化技术与方法,并制定细致的数字化工作标准与流程。对不同类型的档案文献都分别制定了不同的技术路线。以历史环境监测数据档案为例,数字化流程分为扫描、图像处理、数据录入、质检验收、数据移交与上传以及归档。云冈石窟历年来的监测数据有多种记录格式,要先对格式进行归类,针对不同格式,应用不同的数据采集方式。对于体量较少且格式相对简单的特殊情况提供手工录入方式;对人工记录复杂格式的纸质材料可采用Excel表格导入的方式,同时应用智能识图技术解决定点取值难题。

数字化工作坚持质量控制贯穿项目全过程,并明确质量检查方法和评估标准。在分类整理阶段主要有调卷评估和整理后质检,在确保合格率达到数字化要求后才移交下一环节。数字化环节可分为验收指标制定、数据抽检、数据验收、验收审核和验收登记。一个全宗的档案数字化转换质量抽检合格率达到98%(含98%)以上,方可给予验收通过。最终的成果数据包括300分辨率的扫描图片原文件、校对后的图片文件、完成分类及信息标注后的照片、MP4通用格式文件以及案卷目录、卷内目录、双层连页PDF文件等。

此外,为进一步夯实“云冈学”建立基础,项目还购买了古地图数据库、古籍全文检索、历代教外涉佛文献数据库、历代石刻拓片汇编数据库、唐五代墓志专目数据库等文物资料数据服务。

目前,云冈学基础研究资料的一二期数字化项目均已顺利结项并投入使用。云冈学基础资料的数字化是与三维信息同等重要的数字资产。未来,云冈研究院将不断提升云冈档案文献资料的数字化水平,引入数字人文、知识图谱和人工智能,为多源异构的档案文献资料整合、智能分类、档案文献深层知识结构的揭示与发现提供更多可能,为云冈学研究提供更新更全的知识化视角。

往期回顾

Copyright Reserved 2024 版权所有 国家文物局主管 中国文物报社主办 京ICP备 19002194号-6

网站管理:中国文物报社有限公司 技术服务电话:86-10-84078838-6168

1.4832s