当前位置:首页 >> 业界动态







一、项目建设的意义
自《汉书》始,中国正史大多有“艺文志”或“经籍志”。当今《中国历代典籍总目》则是使用最先进的计算机技术,分类整理了中国历史上曾经出现过的文献及目前全世界馆藏的中国古代文献,引入了智能化的手段,借助于“中国古代人物、地点、时间、职官、机构本体知识库”,可以对中国古代学术流变、中国文化发展史进行全方位的知识服务。
中国现存古籍文献占全世界现存的古籍文献的四分之三,中国历史上曾经出现过的典籍文献更是浩瀚如海,《中国历代典籍总目》囊括中国历史上曾经出现过的典籍文献、现存的古籍文献,还将不断加入国家古籍保护计划整理出的古籍文献。该项目一期历时1年9个月,凝结着国家图书馆和北京大学计算机、文献学、文学、历史学等学科人才的智慧与学识,向全世界展示了中国古代人为世界文明发展的贡献,同时也显示了我们在中文信息处理方面的世界领先水平。
该项目在数据整理方面,使用具有自主知识产权的多项技术成果,其中“知识本体”、“古汉语语义分析”属世界首创。在技术应用方面,结合目录学、文献学等学科特点,形成了计算机技术与中文学科研究的融合,其“分层聚类分析”、“专家知识固化”等技术居世界领先水平。该项目在测试期间已引起学术界的高度关注,中国社科院、台湾“中研院”、哈佛大学等单位的专家学者给予高度评价,被誉被“当代国史艺文志”。处在数字化时代,该系统提供计算机的智能化服务,亦被同行称为“国史e文志”。
《中国历代典籍总目》系统是古籍数字图书馆的重要组成部分,可以为图书馆读者提供基础文献知识服务,也是全国古籍普查工作必备的业务工具,更将广泛应用于文化教育事业建设和商业经济发展。
基于知识本体构建古籍文献知识库是《中国历代典籍总目》的系统基点,也是世界首创。国家图书馆和北京大学以知识本体和国际图联《书目记录的功能需求》(FRBR)的标准为基础展开深入研究,以更高的学术视角,针对古籍书目特点,首次在文献领域采用实体关系(ER)分层描述构建古籍文献知识本体。按照古籍文献知识本体结构和时代分布情况,项目组综合分析存世文献著录数据和历史文献著录数据,避免了同类系统只针对存世文献进行检索分析的缺点,为实现“辨章学术,考镜源流”的目标奠定了基础。
二、领先的技术
1. 采用自然语言处理技术,完成古籍书目信息抽取工作。《中国历代典籍总目》系统需要处理的古籍文献目录原数据具有编目体例复杂、数据量大、使用汉字不规范等特点,因此,仅以人工处理数据,难以保证数据质量和项目进度。项目组采用自然语言处理技术,先由计算机完成目录原数据的自动标注和切分,并在此基础上完成信息抽取工作和数据语义规范;然后,计算机通过专家知识自动分析结果中的问题,并以“纵向校对”方式组织数据提交人工审校。经过反复自动分析和人工校对,有效保证数据的质量。截至2009年10月,项目组历时1年10个月共对27部目录书进行处理,完成近210万条书目数据的处理。
2. 基于语义的数据检索。为提高古籍书目检索的准确率和召回率,在数据处理语义规范的基础上,《中国历代典籍总目》系统实现了书名条件的语义检索。此外,为解决古籍分类法体系种类繁多、内容结构复杂、现代人难于掌握的难题,项目组完成了各种古籍分类法语义映射建设,实现了分类扩展检索功能。
3. 专家知识固化与共享。为了使系统能够为更广大的用户服务,帮助用户降低系统使用难度是项目组研发系统的重要关注点。为此,系统首先根据专家知识,按照书目文献的知识体系结构,从不同知识维度组织数据,提供了多种导航功能;其次,系统提供了检索方法保存共享机制,为进一步方便专家知识的共享与传播提供了保障,使该系统成为不仅是专家学者的学术研究工具,而且也是文献书目等专业的教育教学平台。
4. 古籍文献责任者相关性分析。古籍目录中的责任者信息是研究责任者之间学术和社会关系的重要线索。系统以书目数据著录为桥梁建立了责任者之间的联系。在对责任行为分类的基础上,分组研究责任者间的学术和社会关系。如图:以王国维为例,通过分析,与王国维关系度最高的是罗振玉。可以预见,古籍文献责任者相关性分析功能将在学术史研究和社会学研究等诸多领域发挥巨大作用。
5. 古籍文献成书年代分布统计分析。通过按层次描述古籍文献本体,系统能够自动统计分析古籍文献成书年代;通过同类文献的年代分布情况,可以进一步考察学术的发展沿革情况,首次实现了人工无法高质量完成的统计分析任务。以经部易类文献分析为例,在汉代至晋代、南北朝以及唐宋元明清时期,有关易学的文献较多,因而从文献计量学的角度印证了学术史的发展脉络。
6. 古籍书目层次聚类分析。在基于层次的古籍文献本体上完成品种、版本、印次、藏本聚类分析,建立各层次内部以及之间的关系,对于学术发展和书籍史的研究具有重要的作用。通过比对不同学术研究文献品种的版本数量,可以分析学术的发展状况。同时,古籍书目层次聚类分析为文献辑佚提供了重要的数据源线索。
7. 古汉语知识支持。《中国历代典籍总目》系统采用了北京大学数据分析研究中心的最新研究成果——汉字本体知识库,完成了4字节数据加工处理任务,实现了简繁通检、4字节汉字多媒体显示以及4字节汉字全文检索引擎功能的建设,直接支持七万余汉字的检索和分析。
8. 基于用户体验的系统功能建设。系统通过采用AJAX技术,为用户提供了完善友好的用户界面,并实现了用户检索历史跟踪和用户个性化研究服务等功能,充分体现了以人为本的系统建设思想。
三、未来发展
该项目完成了一期建设的设计方案,为二期建设打下了坚实的基础,明确了未来发展的方向。在二期建设中,将完成全部历史上的书目及全球馆藏古籍书目、国家古籍保护计划新著录的书目的入库工作;将建设完善的“中国古籍文献本体”,使之与北京大学研发的“历史人物本体”、“时间本体”、“地名本体”、“职官本体”和“机构本体”融合为一体,形成中国古代文化史研究的神经网络,为现代图书馆从检索服务向咨询服务的转型提供保障;实现“超越原数据”的知识服务,实现“知识主动推送”服务,实现“多学科自动整合”知识服务。