图书古籍数字化加工和应用方案的设计与实施,在多年数字化加工实践的基础上,已经形成了包括现代图书扫描加工、中西文OCR识别、缩微胶片数字化加工、图片、底片数字化加工、古籍、善本及珍品特藏数字化加工、大型工程图纸及彩色图纸数字化加工等全套成熟、完整的加工实施方案。
本方案主要针对资源加工中心的图书数字化进行阐述说明,包括方案简述、功能概述、加工标准、方案配置以及方案的说明。
一、方案简述
电子图书加工系统是资源数字化的必要部分,主要用来将图书利用扫描仪进行录入加工,并使用标引系统建立索引,同时对已加工完成的图像根据用户需求进行规定资源格式的数字资源的制作,从而形成了统一标准的电子图书产品。为以后用户查阅和检索创造了条件。
系统工作流图:
主要功能有:
1、将图书进行扫描、校对、审核等一系列的数字化加工之后,以图像文件的方式存储在计算机中,可对所生成的图像文件进行编辑修改处理。
2、应用标引系统建立索引。
3、对各种电子资源的数据格式转换。
4、支持数据编辑、标引、校对、审核、备份、权限控制等工作和多人协同作业的流程管理。加工过程中支持补缺补漏。
5、加工完的数字资源完全满足数字图书馆的日常数据使用,如方便用户对数字图书的浏览下载,方便数字图书提供者提供数字图书的推送、专业咨询等服务。
二、功能概述
(一)、图书的数字化加工
图书数字化加工主要是对图书的数字化生产发布过程进行全面的计算机管理,通过整个流程的数字化信息共享,最大限度的提高整个工作系统的效率。
数字化加工使用我司自行开发的数字化加工系统,该系统针对数字化加工流程实现了流水线式管理,对每一道工序设计了处理程序,数字化加工生产在线有实物流和数据流,该系统保证了数据流的平滑流动,提高了生产效率和成品质量。该系统设有多重校对工序,随时可针对检查出来的错误图像进行修改或重新扫描,为最终成品质量提供保证。
数字化加工的核心是生产流程,流程的主要工序是:图书分类、提书、图书基本信息录入、扫描前期整理、扫描、扫描后期处理、校对纠错、数据封装、数据检查、刻盘、还书等。
数字加工过程如下图所示:
下面对电子图书加工中的各个工序所要完成的功能加以说明。
(1)图书分类
在数字化加工前需要对图书进行分类,数字化加工可利用图书已整理的各类信息,按不同图书业务集中加工。
(2)提书
提书员依据图书提取单到图书库提取,在数据库中做提取标识。当提取失败时,提书员记录信息并反馈给管理员,将提取失败图书列入下次提书计划。
(3)提书核实
要求提书员按图书提取单内容与原图书一一核对。
(4)录入图书基本信息
提书核实后,提书员将图书交给录入员。录入员能够将图书基本信息录到图书信息数据库。
(5)扫描前期整理
图书的前期整理工作是非常重要的,它是图书扫描的基础,可使扫描人员在图书扫描时避免很多问题,提高图书的扫描质量。整理员整理后能够联机填写扫描前期整理清单。
(6)扫描
原件的扫描与存储格式完全按照用户要求的标准进行扫描。扫描人员按照《扫描与处理工作说明书》的要求,填写移交清单并签字领取,再进行纸件扫描。
非接触式扫描仪扫描图像使用先进的图像扫描处理软件,扫描人员可根据原稿质量,对系统进行定义,如自动倾斜校正、自动去污、自动分文件等批处理功能。在由系统自动处理功能的同时,扫描人员根据原件的实际情况做相应的调整,如超大页面的处理、纸张颜色深浅及薄厚的处理、扫描时可根据不同原件的情况,调整图像的分辨率、阀值、明亮度以及扫描方式和扫描速度,确保在扫描图像质量清晰的情况下,使原件完好无损。
图书文件介质不同所以扫描前需要人工设置扫描参数,扫描图像自动存于已指定好的路径。以下列出扫描参数:
扫描图像尺寸(即纸张大小,如、、16开、自定义等)
扫描模式
扫描图像分辨率(根据不同的需求设置)
对图书扫描同时,图像进行在线纠斜、去除杂点和黑边的处理。
扫描员能够联机记录图书扫描信息。
(7)扫描后期处理
由系统自动将不同机位图像数据整合,整合数据存储于服务器。同时,对图书扫描后的图像进行纠斜、去除杂点和黑边的批处理。
(8)校对纠错
分为一校、纠错和二校三个部分。
一校:一校人员联机获取整理、扫描清单数据,并以此为依据,对图像缺失、不清楚等图像问题进行检查,并能够联机记录检查结果。
纠错:一校后原图书送交纠错人员,由其对检查出的问题进行修改,并联机记录纠错信息。
二校:二校人员能够联机获取一校及纠错数据,并能对纠错人员修改后的问题再次检查校对和记录二校信息,如果还存在问题,则返回纠错处理;如果正确则可以进入数据备份工序。
(9)数据封装
图书的输出处理主要是根据用户的需求对数字资源进行最后处理封装,制作完成满足用户需求的电子图书,其流程如下图所示:
(10)数据检查
对于完成的电子图书在数据提交之前要再进行一次完全检查,以保证提交给用户的电子图书数据准确无误。
(11)数据存储、备份
数据存储、备份的过程基本是人工控制,数据备份完成后由备份人员将刻盘信息记录入数据库。
(12)清理
管理员确认图书备份工作正常完成后,可将服务器中数据删除。
(13)图书实物检查、还书
图书实物检查工作由人工完成。
可根据图书提取单和图书扫描前期整理单核实图书实物。
管理员依据还书后的提书单,将归还信息记入数据库。
以上描述的是电子图书加工系统中对各个工序的处理,为了便于系统管理员掌握和控制生产进度,了解生产情况,保证系统的正常运行,系统还具有系统统计和系统管理及维护功能,说明如下。
(1)系统统计
能够统计总加工图书的数量。
能够统计每月、每天加工图书的数量。
能够统计已备份数据的数量。
能够按分类统计加工图书的数量。
能够生成流水线上的生产情况月报表。
(2)系统管理及维护
系统管理员能够维护系统操作员(增、删、改)。
操作员能够自己维护密码。
从功能和技术上本系统达到了如下目标:
数字化加工系统能适用于大规模的图书批量数字化加工。
数字化加工系统能科学地管理每道生产工序。
(二)、图书标引
图书标引主要是对图书的标引生产进行全面的计算机管理。图书标引系统用于把图书的目录信息录入到数据库,便于网上读书的查询检索。该系统分为录入和校对等多个工序,通过使用在各工序中加入对员工工作完成情况及差错量的监控和工作量计算的方法,保证将整体差错量控制在所要求的范围内。
本系统的核心是批量标引流程,流程的主要工序是:配置标引类目、项目表、标引任务分发、数据比较、纠错、数据备份、各类清单打印。
图书标引系统有如下功能:
(1)图书结构、字段设置
根据不同图书实体,灵活定义相关组织结构。
字段设置可在后选字段项选取。字段项项目齐全,数据类型自定义,文件属性可在属性菜单内选取。
对象结构、字段项能够方便地增加、删除和修改。
(2)数据录入
实现双机成对录入。
录入数据能够方便地增加、删除和修改。
采用块拷贝机制,提高录入速度。
录入记录可定位。
用户界面设计合理。如界面可调,系统退出时能够保留界面设置。
图像浏览设置快捷键,如:缩小、放大、前后翻页、旋转、跳到指定页、移动图像的可视区域等。设置快捷方式,目的是方便录入,保证速度。
录入的数据以每本图书为单位进行提交。
图书目录在提交前进行数据唯一性检查。
(3)数据校对及纠错
能方便地选择双机成对录入完毕并提交的数据,进行校对。
数据的校对由系统自动进行。
数据校对中记录出错信息,以便纠错。
纠错员能方便、准确地定位出错位置并纠正出错信息。
(4)数据导出
能方便地选择纠错完毕并提交的数据,进行导出。
可把数据库中的数据导出生成DBF,MDB等多种数据格式,与其它图书加工基本信息进行数据整合。数据导出的文件名包含时间信息。
只有系统管理员具有数据导出权限。
必须保证被导出的同类案卷是完整的,必须在全部录入完成,并且检查改错完毕后,才能被导出。
(5)查询
只有具有查询权限的操作员才能进行此操作。
可进行字段内容等查询。
自动显示查询内容的上下层关系,可按详细浏览和简单浏览。
可按图书数字化加工编号顺序查找。
(6)统计
实现按时间段统计录入员、纠错员的工作量,录入员的错误率。
实现按时间段统计整个录入生产线的录入的类目数量、字段项目数量、和错误率。
能够打印统计结果。
(7)系统管理
进行系统操作员的权限和密码管理。
系统操作员分为四类:系统管理员、对象结构定义员、数据录入员、数据纠错员。
当导出的数据经过确认后,由系统管理员从数据库中将相应的数据物理删除。
从功能和技术上本系统达到了如下目标:
u标引系统有效地保证录入质量。
u标引系统针对各图书管理业务,对不同全宗类目进行相应标引。
u标引系统提供按检索点进行标引内容检索和结构检索。
三、方案的说明
该方案是一套功能齐全、实用性强的电子图书加工实施方案,针对用户的特殊需求可以对加工过程进行灵活的变动,以满足实际加工生产的需要,成功的方案需要优秀的加工队伍作为保障。