本规范适用于吉林大学档案馆组织开展的纸质档案数字化加工工作,规定了采用扫描设备对纸质档案数字化加工的技术和管理要求。
一、总则
纸质档案数字化应遵循档案管理的客观规律,真实反映档案内容,最大程度地展现档案原貌。应采取有效的管理和技术手段,确保纸质档案数字化成果质量。
纸质档案数字化过程中,应保存数字化项目信息、技术环境、数字化各类技术参数等方面的元数据。元数据元素的确定应符合ISO/TR 13028提出的要求。
应加强纸质档案数字化各环节的安全管理,确保档案实体和档案信息的安全。涉密档案应按照涉密档案相关保密要求开展工作。
二、纸质档案数字化加工流程
纸质档案数字化的基本环节主要包括:数字化前处理、目录数据库建立、档案扫描、图像处理、数据挂接、数字化成果验收与移交等。
1.档案出库
1.1.档案保管部门应按照纸质档案数字化工作方案确定的数字化对象开展档案调取、清点、登记等前期准备工作,并提交档案出库申请,经相关责任人批准后,严格按照档案库房管理规定为数字化对象办理出库相关手续,并与数字化部门共同清点无误后,对档案进行交接出库。
1.2.纸质档案数字化过程中,应设置距离数字化加工场所较近的保管库用以临时存放纸质档案,并对纸质档案的领取与归还进行严格管理,认真做好检查、清点、登记等工作,确保纸质档案的安全。
2.数字化前处理
2.1.确定扫描页。
原则上应将确定为数字化对象的纸质档案全部扫描,不宜进行挑扫。如有不需要扫描的页面应加以标注。
2.2.编制页号。
2.2.1.应对没有页号或页号不正确的档案重新编制页号。
2.2.2.重新编制页号时,应在统一位置书写页号,且不压盖档案内容。
2.2.3.书写页号所使用的笔、墨等不应破坏档案原件或对档案长期保存造成影响。
2.2.4.应将破损页面、缺页等特殊情况进行登记。
2.3.目录数据准备
2.3.1.按照目录数据库建立时制定的数据规则,对照档案原件内容,规范档案中的目录内容。
2.3.2.对需在目录数据库中进行标记的情况进行标记。
2.4.拆除装订应以对纸质档案的保护为原则确定是否拆除装订。如需拆除装订物,应注意保护档案不受损害,并对排列顺序不准确的档案进行重排。特殊装订且拆除装订后需恢复的档案,在拆除装订物时应采用拍照等方式记录档案原貌,以便于恢复。
2.5.技术修复
2.5.1.破损严重或其他无法直接进行扫描的纸质档案,应先由专业技术人员进行技术修复。
2.5.2.折皱不平影响扫描质量的纸质档案应先进行压平等相应技术处理。
2.6.填写《数字化前处理问题记录》,附在备考表页。
3.目录数据库建立
3.1.应制定目录数据库数据规则,包括数据字段长度、字段类型、字段内容要求等。目录数据库数据规则的制定应符合DA/T 18对档案著录的要求。在纸质档案目录准备与目录数据库建立工作中均应严格遵守。
3.2.数据库选择应考虑可转换为通用数据格式,以便于数据交换。
3.3.数据库结构的设计应特别注意保持档案的内在联系,有利于纸质档案数字化成果的管理和利用。
3.4.将纸质档案数字化前处理工作中对纸质档案目录进行修改、补充的结果录入数据库,形成准确、完整的目录数据。
3.5.可采用计算机自动校对与人工校对相结合的方式,对目录数据的质量进行检查,包括著录项目的完整性、著录内容的规范性和准确性等。发现不合格的数据应及时进行修改。
4.档案扫描
4.1.基本要求
档案扫描应根据纸质档案原件实际情况、数字化目的、数字化规模、计算机网络和存储条件等选择相应的扫描设备,和进行相关参数的设置和调整。参数的设置和调整应保证扫描后数字图像清晰、完整、不失真,图像效果最接近档案原貌。
4.2.扫描设备
4.2.1.扫描设备的选择应特别注意对档案实体的保护,尽量采用对档案实体破坏性小的扫描设备进行数字化。
4.2.2.超出所使用扫描仪扫描尺寸的档案可采用更大幅面扫描仪进行扫描,也可以采用小幅面扫描仪分幅扫描后进行图像拼接的方式处理。分幅扫描时,相邻图像之间应留有足够的重叠,并且采用标版等方式明确说明分幅方法;若后期采用软件自动拼接的方式,重叠尺寸建议不小于单幅图像对应原件尺寸的1/3。
4.3.扫描色彩模式
4.3.1.为最大限度保留档案原件信息,便于多种方式的利用,宜全部采用彩色模式进行扫描。
4.3.2.页面中有红头、印章或插有照片、彩色插图、多色彩文字等的档案,应采用彩色模式进行扫描。
4.3.3.页面为黑白两色,并且字迹清晰、不带插图的档案,也可采用黑白二值模式进行扫描。
4.3.4.页面为黑白两色,但字迹清晰度差或带有插图的档案,也可采用灰度模式扫描。
4.4.扫描分辨率
4.4.1.扫描分辨率的选择,应保证扫描后图像清晰、完整,并综合考虑数字图像后期利用方式等因素。
4.4.2.扫描分辨率应不小于200dpi。如文字偏小、密集、清晰度较差时,建议扫描分辨率不小于300dpi。
4.4.3.如有COM输出、仿真复制、印刷出版等其他用途时,可根据需要调整扫描分辨率。需要进行COM输出的档案,扫描分辨率建议不小于于300 dpi;需要进行高精度仿真复制的档案,扫描分辨率建议不小于600 dpi;需要进行印刷出版的档案,可结合档案幅面、印刷出版幅面、印刷精度要求等选择合适的分辨率。
4.5.存储格式
4.5.1.纸质档案数字图像长期保存格式为TIFF、JPEG或JPEG2000等通用格式,图像压缩率的选择可根据实际应用的需求而定。
4.5.2.纸质档案数字图像利用时,也可从网络浏览速度、易操作性、存储空间占用等方面进行综合考虑,将图像转换为PDF等其他格式。
4.5.3.同一批档案应采用相同的存储格式。
4.6.图像命名
4.6.1.应以档号为基础对数字图像命名。图像命名方式的选择应确保图像命名的唯一性。
4.6.2.建议将数字图像存储为单页文件,并按档号与图像流水号的组合对图像命名。
4.6.3.数字图像确需存储为多页文件时,可采用该档案的档号对图像命名。
4.6.4.应科学建立纸质档案数字图像的存储路径,确保数据挂接的准确性。
5.图像处理
5.1.图像拼接
对分幅扫描形成的多幅数字图像,应进行拼接处理,合并为一个完整的图像,以保证纸质档案数字图像的整体性。拼接时应确保拼接处平滑地融合,拼接后整幅图像无明显拼接痕迹。
5.2.旋转及纠偏
对不符合阅读方向的数字图像应进行旋转还原。对出现偏斜的图像应进行纠偏处理。
5.3.裁边
如需对数字图像进行裁边处理,应在距页边最外延至少2至3毫米处裁剪图像。
5.4.去污
如需对数字图像进行去污处理,以去除在扫描过程中产生的污点、污线、黑边等影响图像质量的杂质,应遵循展现档案原貌的原则,处理过程中不得去除档案页面原有的纸张褪变斑点、水渍、污点、装订孔等痕迹。
5.5.图像质量检查
5.5.1.数字图像不完整、无法清晰识别或图像失真度较大时,应重新扫描。
5.5.2.对于漏扫、重扫、多扫等情况,应及时改正。
5.5.3.数字图像的排列顺序与档案原件不一致时,应及时进行调整。
5.5.4.对数字图像拼接、旋转及纠偏、裁边、去污等处理情况进行检查,发现不符合图像质量要求时,应重新进行图像处理。
6.数据挂接
6.1.应借助相关软件对数据库中的目录数据与其对应的纸质档案数字图像进行挂接,以实现目录数据与数字图像的关联。
6.2.逐条对挂接结果进行检查,包括目录数据与纸质档案数字图像对应的准确性、已挂接数字图像与实际扫描数量的一致性、数字图像是否能正常打开等,发现错误及时进行纠正。
7.数字化成果验收与移交
7.1.验收方式
7.1.1.应成立专门的验收组对纸质档案数字化成果进行验收。
7.1.2.应采用计算机自动检验与人工检验相结合的方式对纸质档案数字化成果进行验收检验。
7.2.验收内容
7.2.1.纸质档案数字化成果包括数字图像、档案目录数据、元数据、数字化工作中产生的工作文件、存储载体等。
7.2.2.应对目录数据进行验收,主要包括数据库中各条目的内容、格式等的准确程度、必填项是否填写等。
7.2.3.应对元数据进行验收,主要包括元数据元素的完整性和赋值规范性等。
7.2.4.应对数字图像进行验收,主要包括数字化参数、存储路径、命名的准确性、图像的完整性、排列顺序的准确性、图像质量等。
7.2.5.应对数据挂接进行验收,主要包括目录数据与其对应的数字图像的挂接的准确性等。
7.2.6.应对工作文件进行验收,主要包括工作文件的完整性、规范性等。
7.2.7.应对存储载体进行验收,主要包括载体的可用性、有无病毒等。
7.3.验收指标
能够采用计算机自动检验的项目应采用计算机自动检验的方式进行100%检验,检验合格率应为100%。对于无法用计算机自动检验的项目,可根据情况以件或卷为单位采用抽检的方式进行人工检验。抽检比率不得低于5%,对于数据库条目与数字图像内容对应的准确性,抽检合格率应为100%,其他内容的抽检合格率应不低于95%。
7.4.验收结论
7.4.1.每批纸质档案数字化成果质量检验达到本标准7.2和7.3的要求,予以验收“通过”。验收未通过应视情况进行返工或修改后,重新进行验收。
7.4.2.验收完成后须经验收组成员签字确认。
7.5.移交
验收合格的数据应按照纸质档案数字化工作方案及时移交,并履行交接手续。
8.档案归还入库
8.1.档案装订
纸质档案数字化工作完成后,拆除过装订物的档案如需装订,应注意保持档案原貌,做到安全、准确、无遗漏。
8.2.档案归还入库
按照档案入库相关要求对纸质档案进行处理和清点,并履行档案入库手续。