当前位置:首页 >> 业界动态







6月10日,在全国十几家图书馆向公众开放
导语:经过十年的准备,中华书局于近日研发完成《中华经典古籍库》第一期数字化成果,收录自有版权的300种古籍整理成果,迈开数字出版第一步。
该数据库实现了中国高质量古籍整理图书的数字化,保留专名、注释、校勘等全部整理成果,提供原书扫描图像页与数字文本一一对照,公众将拥有可靠、可直接引用的数字化古籍。
以后将定期推出更新包,不断丰富完善数据库内容和功能。
经过十年布局,中华书局数字化发展战略初见成效,自主研发的大型数字出版产品《中华经典古籍库》于6月10号举行发布研讨会。会上,中华书局和国家图书馆共同按下数据库开通的按钮,这一象征性仪式意味着全国十几家图书馆(国家图书馆、首都图书馆、北京大学图书馆、清华大学图书馆、中国社科院图书馆、南京图书馆、复旦大学图书馆等)同时向公众开放这一数据库,方便大家查阅、引用可靠的古籍点校成果。
《中华经典古籍库》是中华书局版点校本古籍的首度数字化,收录包括“二十四史”及《清史稿》、《资治通鉴》、“新编诸子集成”、“清人十三经注疏”、“史料笔记丛刊”、“学术笔记丛刊”等经典系列在内的权威整理本,一期收录300种,计2亿余字。产品不仅提供了保留全部整理成果的数字文本,更实现了文本与原书图像的一一对照,并能自动生成引用格式,除支持全文检索外,还添加了独具特色的人名异称关联检索,给学者的研究带来极大便利。
作为以中国传统文化出版为主的百年老社,中华书局在第一个数据库产品中拿出了品牌核心资源,显示出其开展数字出版业务的极大诚意和决心。“因为目前国内数字版权保护并不完善,我们有过犹豫,担心看家资源遭到窃取,但古籍的数字化是一个大趋势,业内也一直期待中华本古籍能早日完成数字化,我们也相信尽早推出自己的产品会是目前打击盗版的有力手段。”中华书局副总编辑顾青解释了推出该产品的考虑。中华书局总经理徐俊表示,中华书局已经为数字化转型准备了许多年,这个产品是数字化战略布局的重要步骤,以此为契机,将有力推动中华书局数字化转型,在数字出版领域有所作为。在古籍数字化的规划上,中华书局还有更加开阔的思路,希望为全国的古籍出版社搭建一个可共同发布、共享利益的数字平台,用户也将能享受更为丰富、可靠的文化服务。
其实,国内古籍库市场目前已较为成熟,不同类型的古籍库产品也层出不穷,有主打庞大数据量的总库,也有各具特色的专题库、专书库,分别在各大高校、图书馆等机构获取了部分市场份额。那么,《中华经典古籍库》相较其它古籍库的特色与优势在哪呢?数字出版中心主任李晨光解释说:“中华书局版的点校本古籍一直受到学界的广泛认可,是学术研究的引文范本,《中华经典古籍库》将所收书目的版本信息也全部准确录入,省去了查找原书的步骤,用户可以随检随引。同时,我们作为古籍整理的专业出版社,在数据加工上更为精细,甚至改正了不少纸书的错误,因此我们的数字文本准确度很高,是可信的。用户还可以随时点开对应的原书图像进行检验,相当于提供了双重质量保障。” 的确,中华书局的点校本古籍汇集了文史界专家的学术成果,尤其是“二十四史”及《清史稿》,是历时二十年完成的古籍整理工程,参与整理的当代史学家均为一时之选,代表了新中国史学界各断代史研究的最高水平。点校本“二十四史”和《清史稿》出版问世之后,成为海内外学术界最权威、最通行的版本,享有“国史标准本”的美誉。古籍资源部主任洪涛补充说:“前期的数据采集工作本身经过了反复优化,后期人为加工更多的是做二次编辑,在整理完成后我们还进一步通过数据转换工具进行错误排查,严把三道关,使得数据质量与纸书持平甚至超越纸书。”
一、功能:图文对照+多样检索
作为一个数字化产品,《中华经典古籍库》功能丰富。除去上文提到的原书图像对照功能外,该产品的检索功能也颇具特色,包括书目检索和全文检索。由于保留了点校本古籍的整理成果,该产品能实现在正文、校注、书名、专名、标题等小范围内的全文检索,满足不同的研究需求。系统能对任何检索词自动进行繁简关联,且收录了异体字字典的内容,共计47000多对,从而也能实现异体关联。为了尽可能全面地检索人物信息,产品在繁简异体字关联检索的基础上,开发了人名异称并列检索,目前已经涵盖约15万个人名异称。例如,检索人名“曹操”时,可以在31个曹操的异称中勾选“孟德”、“魏公”等,系统将同时呈现匹配任何一个异称的结果。为辅助用户阅读与研究,该产品还添加了联机字典和纪年换算两个小工具。联机字典目前收录了《中华大字典》的全部内容。《中华大字典》是中华书局于1915年整理出版的一部繁体字典,共收字4.8万余,每个字以本义、引申义、假借义为序进行释义,注音以《集韵》为准,故其特别适用于古文阅读。联机字典也支持繁简异体关联,如检索“歷”将同时出现“曆”等关联字的结果,可用于易混字字义辨析。纪年换算提供了公元、干支、帝王、年号等多重纪年检索方式,纪年信息以《中国历史纪年表》为基础,参考多家纪年表,反复修正,内容完备。另外,该产品也具备放大缩小窗口,保存浏览历史、检索历史以及添加笺注书签的常规功能,用户也可以随时复制引用文本内容。
二、数据:造字处理+人工精校
特别需要指出的是,《中华经典古籍库》在开发过程中解决了大部分古籍数字化的普遍疑难问题。
第一,就是数据整理无统一规范可循。为了保存整理成果,中华书局在加工每本书时需针对不同的内容标注不同的格式,如正文、注文、标题等,而每本书的体例不一,大多需要具体分析,根据其特定的结构研究其在数据库中的呈现,或调整其标题层次,或添加必要的标题信息。如正史中的人物传记往往在每卷前以小题形式并列多个人名,中华书局在整理时将小题分列至对应的人物段前,不仅便于检索,也使层次结构一目了然。在经过不断的修正与总结后,中华书局也在古籍数据整理上制定出了较为通用的标准规范,将为以后的数据整理提供参考。
第二,古籍数字化的用字问题。古籍中很多汉字超出已有编码体系所能标示的范围,常见做法是将单个汉字以图片形式插入行间,但这会导致检索被割裂,且影响美观。中华书局在前期项目积累的基础上,下大力气严格按照汉字规范和国际编码规则整理字形,并据此处理造字和对相似字形的研究判断。一期数据造字量已达9000多个,全都具备规范性和可检索性,将极大地服务于后期数据加工。
第三,软件功能调试。每一个程序的开发都需要不断的测试与修订,而古籍库由于其内容的特殊性,测试难度更大,中华书局在程序的设计和功能上都精益求精,不断迭代,特别解决了造字、专名线在程序中的显示问题,完成了检索功能的优化。“我们一直提醒自己要以产品的眼光来开发,所以始终把用户体验放在第一位,首先得做到让自己满意,才能令广大用户满意。”洪涛解释了程序开发的宗旨。
三、历程:数字意识+语料积累
已经度过百岁生日的中华书局一直没有停止在数字出版方面的探索。早在2003年,中华书局便成立古籍资源部,开展“中华古籍语料库”项目的研制开发。当时还完全没有“数字出版”的概念,古籍资源部主要从事古籍的数字化编辑加工,在国家和集团的支持下,用6年时间将3亿字的整理本古籍做数字化处理,完成了初步的平台建设和语料积累工作。洪涛表示,在这一过程中他们遇到了一个独特的难题,即计算机用字大量缺失,且字符集外汉字的处理无标准可以参照。为了能够高质量地数字化古籍,中华书局投入了大量精力参与计算机用字规范项目的建设,如“中华字库”、“国家数字图书馆汉字规范处理项目”、“新闻出版用大字符集”项目等。“通过这些项目的建设,我们规范了计算机古籍用字,积累了大量的汉字属性数据,为古籍数字化的工作提供了基础。”也正是有了这些基础,《中华经典古籍库》的造字工作才能顺利展开。
然而中华书局在古籍数字化工作开展的初期,始终没有加速产品化建设,这同当时国内多家专业社的情况一样。古籍整理图书由于销售周期长,读者群单一,最好是采用数据库形式的数字出版方式,然而各家的资源有限,同时面临盗版问题严重以及盈利模式不明的问题,大多出版社都迟迟未迈开数字化的步伐。 “保证数字产品的合法性和基本质量,是古籍专业社应该做的事。”中华书局总经理徐俊阐明了中华书局做古籍数字化的原则。但也正是版权和质量这两点使得专业社古籍库产品研发步履维艰,其中更重要的原因还是知识产权保护的环境不佳,电子和网络出版市场还不规范,特别是古籍的特殊性增加了知识产权保护的难度。随着社会上古籍数字化的产品越来越多,特别是在知识产权维权诉讼中,中华书局认识到,本版点校本古籍具有强烈市场需求,而研发自有知识产权的产品是保护数字版权的更好方式。
四、未来:数据更新+知识库开发
《中华经典古籍库》将持续更新数据,计划每年推出一辑数据包,持续收录新出版的优秀整理本古籍,在保证质量的基础上有序扩充数据量,同时不断进行数据的修订与完善。此外,人名异称关联表与联机字典也在不断扩充中,将会为用户提供更丰富的服务。中华书局也将不断扩展产品线,通过开发更多的专题库、小型库以满足不同用户的需求。商周铜器铭文知识库将在前期资源整理的基础上逐步实现产品化,而中华书局的第二个大型数据库产品《中华基本史籍知识库》也已经启动,该产品将在古籍库的基础上,收入学术著作及工具书,借鉴“史籍分析系统”项目的建设经验,建立人物、时间、地点等史籍知识元间的关联,可视化地展示其语义关系,为学者提供更为专业的知识服务。“我们的最终目标是系统地完成整理本古籍的数字化,搭建自成体系的知识网络,让知识之间建立链接,打破专家与读者之间的知识和信息壁垒,为社会提供真正有价值的古籍数字化产品。”中华书局希望,《中华经典古籍库》的出版能促进古籍数据库市场完善。中华书局会坚持“专业、优质”的出版理念,稳扎稳打,不盲目跟风,专注于提供最佳的数字服务,为中国优秀的传统文化的有效传播做出实实在在的贡献。
“中华经典古籍库”简介
“中华经典古籍库”是中华书局首次推出的大型古籍数据库产品,第一辑收录了近300种中华书局出版的整理本古籍图书,涵盖经史子集各部,包含了二十五史、通鉴、新编诸子集成、清人十三经注疏、史料笔记丛刊、古典文学基本丛书、佛教典籍选刊等经典系列,总计约2亿字,后期将不断递增文献数据,计划每年推出一辑,供读者选购。
资源优质:整理本+自有版权
相较已有古籍库,“中华经典古籍库”的优势在于资源的优质,所收书目全部解决版权,并都是经过整理的点校本,每本书都汇集了民国以来无数专家的研究成果,本身极具权威性。“中华书局版”的古籍也是学界公认的引用规范本,尤其是二十五史和通鉴等系列,都以中华书局点校本为最高标准。
数据准确:二次编辑+造字处理
“中华经典古籍库”在数据制作的过程中,严格遵守图书出版的标准,不仅有计算机技术的保证,更进行了额外的数字化编辑工作,修改了原书中的一些错误,对每一个标准字符集外的古籍用字都一一处理,保证了这些字在计算机上的检索和显示,因此在一定程度上数据质量相较纸书更优。
功能完备:原书图像对照+自动生成引用格式+人名异称关联检索
“中华经典古籍库”为广大读者提供了丰富的古籍数字化阅读、检索服务,以及必备的辅助工具。数据保留了专名、注释、校勘等全部整理成果,不仅提供了精确的文本数据,更添加原书扫描图像供对照,并能自动生成引用格式,方便读者了解版式信息,省去了读者核对纸书的麻烦,为读者带来便利。产品支持书目检索和全文检索,可以选择在正文、校注、专名、标题等范围内检索,也可以实现在部、类、单书中的检索,更收录了丰富的人名异称,供用户勾选后并列检索。所有检索都支持繁简、异体字关联。更有联机字典和纪年换算等工具辅助用户进行阅读和研究。