当前位置:首页 >> 业界动态

全唐诗分析系统 全宋诗分析系统 发布时间:2011-9-6 9:20:51   作者:  

  一、产品设计理念

  “全唐诗分析系统”与“全宋诗分析系统”由北京大学数据分析研究中心和北京欣诺格科技有限公司联合研制。

  1998年北京大学中文系承担了国家“九五”211项目——“全唐诗电子检索系统”的研发。项目主持人李铎博士为项目提出了三个目标:一、 使用Unicode编码,使全球任何语言版本的操作系统均可正常使用该系统;二、使用XML标记语言,脱离数据库平台,使用最先进的搜索引擎,实现跨平台的多维度检索;三、 建设开放的、可扩展的模块化结构,可以任意增减数据。此后,研制方吸收借鉴“全唐诗分析系统”的成功经验和先进的设计理念,又设计制作了“全宋诗分析系统”。

  二、 应用领域

  在古代文学研究方面可应用于:诗人风格研究、诗歌流变研究、诗文相关研究、地域文化与诗歌特征研究等。

  在古代汉语研究方面可应用于:古代诗歌语言模式分析、诗歌字及词组频率分析、诗歌语言发展史研究、音韵学相关研究等。

  在古代文献整理方面可应用于:重出诗整理分析、误收诗分析等。

  在古代文学教学方面可应用于:格律诗教学模拟系统研究、诗作评价、诗作相似性分析等。

  在跨学科研究方面可应用于:计算机技术与古代文学相关研究、古代文献数据深层挖掘、古代文献数据自动化整理等。

  三、 典型用户

  目前全球范围内有近100家单位和个人正在使用或已经购买“全唐诗分析系统”与“全宋诗分析系统”,一些典型用户如:中国国家图书馆、中华书局、台湾“中央研究院”、日本首都大学东京中文研究室、北京大学、西北大学、北京师范大学、北京语言大学、哈佛燕京学社、香港中文大学、台湾元智大学、北京珍本书店、北京科普图书有限公司等。

  四、 产品技术创新点

  1. 格律诗自动标注:《全唐诗》57000多首,《全宋诗》254240首,其中格律诗占三分之二,数据量大,人工无法完成。本系统使用计算机自动完成此项工作,为此建设了格律诗模型库、音韵库等知识库,对《全唐诗》、《全宋诗》每一首诗进行多维判断,准确地提取出了全部格律诗。

  2. 重出诗的提取:《全唐诗》、《全宋诗》的编纂中有重出现象,本系统使用比较复杂的算法,由计算机自动提取出全部重出诗,为进一步整理分析《全唐诗》、《全宋诗》打下了基础。

  3. 自作诗分析:本系统使用格律诗模型库、音韵库等知识库,对用户自作的诗进行分析,可以准确地分析出用户自己的诗作是否合律。

  五、 功能特点

  1. 强大的检索功能:两系统提供了全文检索、重出诗检索、诗人小传检索和高级检索。支持严格数据检索和混合模式检索,所谓混合模式是指输入繁体或者简体汉字,均可检索到与之相对应的简体或繁体字,如输入“后”可以检索到“后”与“後”。所谓严格数据检索,即输入“后”只检索“后”,输入“後”只检索“後”。该系统支持人名、别名扩展检索,如输入“杜甫”或“子美”或“杜工部”均可检索到全部杜甫诗作。

  2. 科学的分析功能:系统可以进行字、词组和诗歌格律使用情况的统计和分析。作为智能分析系统,它远远超过了人力统计分析的效率,可以为学术研究提供更多的增长点。

  六、 产品定位

  “全唐诗分析系统”与“全宋诗分析系统”突破了以往全文检索的信息提供模式,在数据深层挖掘和知识发现方面具有开创性意义。其重出诗提取、格律诗标注、字及词组的频率分布统计、用户自作诗的格律分析等带有智能化特点。该系统还提供多维的检索分析方式,为中国古代文学、古代汉语、古文献学等研究领域提供了可靠的分析数据。它的成功研制标志着计算机科学在中文信息处理应用方面由全文检索的信息提供模式开始转向智能分析模式。该系统达到了国际领先水平,在信息处理技术与中国古代文学研究结合方面居国际领先地位。

(来源:古籍新书报 2011年07月)