2021-4-9 | 图书档案
1引言
“古腾堡计划”是全球最具影响力的免费电子书网站之一。它由美国的迈克尔•哈特(MichaelHart)创建于1971年。经过多年的发展,它已拥有超过38000种精校图书向全球读者提供免费服务,既可以在线阅读,也可以下载mobi、epub等格式的文件在亚马逊、苹果等厂商生产的移动设备上阅读。2012年2月,其Alexa全球排名已进入前5000位。“古腾堡计划”采用了分布式建设的模式,其图书大多由来自世界各地的众多志愿者进行加工。由于志愿者在能力、素质以及工作热情等方面存在着诸多差异,为保证古腾堡图书的质量,加强校对的精度显得日益重要。在这个背景下,2000年,CharlesFranks建立了“分布式校对”系统,以支持“古腾堡计划”图书的数字化文本建设。最初,这个“分布式校对”系统从属于“古腾堡计划”。2002年,它有了自己的官方网站。2006年,它成为单独的法人实体,但依然与“古腾堡计划”有着密切的联系,由这个系统产生的电子书,是“古腾堡计划”图书最重要的来源[1]。
2“古腾堡计划”电子图书制作流程
“古腾堡计划”的电子图书之所以受到广泛欢迎,是因为它既是免费的,又是高质量的。它的图书制作遵循着一个非常严格的流程:(1)使用在线的软件和数据库创建图书馆。(2)世界各地的内容提供者将图书扫描,并将扫描件上传到图书馆。“古腾堡计划”根据美国版权法对电子书进行版权验证,只有版权过期者才可以添加到计划的列表中。(3)参与校对的志愿者选择一本图书进行校对。(4)这时候,网站会显示给校对者一个网页,内容包括扫描文件和通过文字识别软件产生的文本文件,校对者通过两者的比对进行校对。这极大地减少了校对者的工作量。(5)除了修正文字识别软件所产生的文本中的错误,校对者还需标注原著中的粗体、斜体字以及脚注等内容。(6)校对是协作式的,来自世界各地的志愿者通过互联网可能对同一本书的不同页进行校对。校对者在完成了对某本图书一页的校对后,可以再申请新的校对页,也可以退出校对。有意思的是,“古腾堡计划”并不鼓励校对者一天校对太多的页数,他们的建议是“一天一页”。他们认为,每个人每天对校对工作贡献的绵薄之力,最终会形成生产数字图书的强大力量。2004年,“古腾堡计划”的管理者自豪地宣布:平均每天有300~400个志愿者参与校对工作,平均每天完成校对页数4000~7000个,这意味着每分钟完成校对4个图书页。实际上,2004年以后,志愿者数量和校对页数总量等数据每年都有相当大的增长[2]。(7)校对过的图书页会保存在网站的数据库中,等待下一轮的校对。“古腾堡计划”的校对会有2轮,以尽量避免错误的发生。(8)当所有的图书页都经过2轮校对后,“古腾堡计划”的处理软件会将其整合成一本完整的数字图书,并且再进行一次错误检查。由于一本书的校对很可能是由多人完成,因此这时的重点在于一致性的检查上。(9)通过检查后的图书会被归档,并上传到全球各地的镜像站点,向全世界提供免费阅读和下载[3]。可以看出,“古腾堡计划”的数字图书制作,奉行“质量优先”的原则。虽然它的图书数量并不太多,但涵盖了莎士比亚、列夫•托尔斯泰、马克•吐温等著名作家的经典作品,另外也包含了许多非文学类的名家名作,而且这些都是相对可靠的电子文本,为世界各地的读者进行阅读、欣赏和研究提供了极大的便利。
3分布式校对的几个关键环节
3.1分布式校对与集中化管理
“古腾堡计划”的图书校对和制作虽然是由各地的志愿者采用分布式的方法完成的,但其基础却是集中化管理。在版权认定、决定哪些图书可以进行扫描、校对与提交以及图书的整合、发布等方面,都不是由志愿者自由和随意地进行,而是由“古腾堡计划”的核心小组统一安排。“古腾堡计划”的管理者会在广泛搜罗图书的基础上对未加工的图书进行审查和鉴定。作为非赢利性组织,“古腾堡计划”准备加工图书的来源非常庞杂,很多图书来自图书拍卖会、图书馆的剔旧以及各类捐赠。志愿者会将这些图书的封面、封底和版权页扫描,送交“古腾堡计划”的版权小组进行审查。版权小组由熟悉知识产权领域法规的专家组成。只有通过审查的图书,才会被允许进行数字化加工。这一举措,有效地避免了可能出现的知识产权纠纷。一旦通过了版权审查,相应的纸质图书会被送交个别志愿者,他们将书脊拆散后扫描,在得到扫描图像的同时,用文字识别软件产生与图像文件对应的文本,然后将这些文件上传到服务器。这一工作过程也是相对集中的,仅由少数较为可靠的志愿者完成,这样可以保证扫描与文字识别的精度。上传到服务器的文件进入“分布式校对”系统,发布在互联网上。这时来自世界各地的众多志愿者就可以利用该系统进行分布式校对。在所有的工作环节中,项目管理员(ProjectManager)、后期制作员(PostProcessor)发挥着重要作用。项目管理员负责监控数字图书的制作过程,后期制作员负责在校对完成后整本图书的整合工作,包括确定图书的题名是否正确、图书结构是否完整、是否有缺页等[4]。可以看到,“分布式校对”系统的设计针对的是在电子书制作中工作量最大的校对环节,它运用Web2.0的思维,利用众多志愿者的合力突破了图书数字化工作中的瓶颈。同时,在电子图书的制作过程中坚持严格的质量控制,在目标确认、工作流程制定、质量监测、图书发布等环节均由专家进行集中化管理,遵循严谨的规范。
3.2校次的管理
为了防止疏漏和失误,“古腾堡计划”电子图书的分布式校对并非一次成型,而是坚持多次交叉校对。他们把不同阶段的校对文本分为“铜文本”(Bronzee-texts)、“银文本”(Silvere-texts)和“金文本”(Golde-texts),这与中国古代校雠的“三校”制有异曲同工之妙[5]。“铜文本”指那些处于最初校对阶段的文本,任何注册后的志愿者都可以在上面展开工作,主要任务是清除用软件进行文字识别所产生的错误。新加入的志愿者只能从事这一阶段的工作,整本图书的后期加工与合成则由富有经验的资深志愿者完成。“银文本”指那些已经经过校对并按照规定的编排格式整合成型、处于后期加工阶段的图书,这一阶段的主要任务是进行一系列准确性和一致性的检查。“金文本”指那些完成了一系列校对、格式编排、后期加工等程序,提交到古腾堡网站供读者下载使用的图书。当然,这类图书的文本也并非不可更改。考虑到数字图书生产的复杂性,各个环节的工作稍有疏忽都可能造成错误,“古腾堡计划”建立起了强大的报错机制。志愿者和普通读者都可以向古腾堡的管理者报告其正式发布的图书中的错误。对于报错,“古腾堡计划”也有一套自己的流程和标准,例如对目录错误和文本错误的报告区别对待,对如何报告缺字、排印错误等,都有具体的要求[6]。严格的校次管理,保证了数字图书的质量。强大的报错机制,使得“古腾堡计划”的图书始终处于不断自我完善的过程之中。