当前位置:首页 >> 古籍整理论坛 >> 陈力

栏目导航

古籍整理论坛

古籍数字化中的汉字处理问题
----—— 
作者:

  从上世纪80年代中文古籍数字化工作开始到今天,已有二十多年的历史了。从最初简单的计算机录入文本,发展到图像扫描、文本字符识别、全文检索、版式影像还原以及在线字典、词典、年表等辅助工具的研制,人们能够通过磁盘、光盘、网络等途径检索、阅读的古籍就数量而言已非常可观,常见的古籍几乎都已有了数字版本,在使用方面也已经很大程度上改变了传统的图书阅读、翻检的习惯。从事古籍数字化工作的既有学者个人,也有商业机构,还有各藏书机构如图书馆、博物馆以及教学和研究机构。在现有的古籍数字化产品中,或以文献特色胜,或以文献数量胜,或以使用功能胜。可以这样说,在公开的中文文献数据库中,无论是数量还是采用的技术手段,古籍数字化工作所取得的成就都是最为耀眼的。另一方面,古籍作为一种特殊的文献,其数字化工作的复杂程度远远超过一般文献。对古籍数字化的研究,不仅有助于推进古籍数字化工作本身,而且对于其他类型文献的数字化以及文献数字化的基本理论及方法和数字图书馆建设等等都有重要的参考作用,因此,引起了许多学者的关注。

 古籍数字化是数字时代利用数字技术和现代信息技术对古籍进行整理的工作,与传统的古籍整理工作既有相同点,也有不同点;既有老问题,也有新问题。它们之间的不同点和新问题,正是古籍数字化工作必须要考虑和解决的。 古籍数字化工作中所遇到的问题很多,语言文字处理问题是一个最基础也是最重要的问题,下面我们就此问题进行重点讨论。

 在传统的古籍整理工作中,除了需要人脑思考的部分外,语言文字问题并不是太大的问题。而在古籍数字化工作中,语言文字问题就成了一个最为关键、处理起来最为困难的问题了。古籍数字化,首先要将过去抄写、印刷的东西转换为计算机可读并能在屏幕上准确再现的代码,其次要解决数字化另一个最重要的目标:检索、统计以及更高层次的聚类分析和判断,这些功能目标实现的基础都是语言文字。

 在以往的古籍数字化工作中,学术界关注的主要是用繁体字客观再现古籍内容的问题,所要考虑的主要是如何解决计算机系统中汉字字符集是否有足够多的字符来转换与再现古籍文本中字符的问题,以及由于不同数字化项目采用不同的汉字字符编码方式而带来的互不兼容、不能共享资源的问题。目前业界大多采用Unicode作为文字处理的标准,Unicode已经定义了七万多汉字,不久将再扩展二万个汉字,因此,汉字字符不足以及编码混乱的问题已基本上得到了解决。但是,古籍数字化的内容并不只是字符的转换问题,要实现运用数字技术与现代信息处理技术对传统文献通过信息加工、信息重组达到方便使用、知识挖掘的目的,实现数字时代对中华传统文化的继承与弘扬的目的,这才是古籍数字化工作最主要的内容和最重要的目标,而要达到这个目标,还有许多问题需要解决,汉字的处理仍然是一个基础的和关键的问题。

 中国古代汉字基本的构造特点以及使用特点前人曾将其归纳为“六书”,即已见其复杂性,兼之汉字经过了几千年不断的繁化与简化,一字多形,一字多义,一字多音是古代汉字最显著的特征。古代汉字形、音、义的变化,有些是有规则的,有些则是无规则的,加上“通假”等习惯用法以及使用环境不同等等因素,使得汉字与汉语的表现形式非常丰富,同时也就增加了对其变化规律把握的难度。譬如说,古籍数字化工作中所遇到的大量的异形字、避讳字、通假字的处理问题,不是一个简单的字符处理问题,而是关系到能否很好地进行古籍文本的数字转换以及在应用层面上相关功能的实现问题,当然,目前业界普遍采用的Unicode本身也有许多问题。

 关于异形字问题。由于古籍传抄、刊刻的情况千差万别,因此在古籍中不仅有正字与异体字、正字与俗字的问题,还有由于各人审美观念不同或者因抄写刊刻的习惯而随意改变汉字笔划的位置、形状造成的异形字。正字与异体字、俗体字的区别,传统上已经有了共识,相对来说易于处理,而异形字的情况就不同了。在进行古籍数字转换时,操作人员限于水平,不能识别古籍中的异形字,不得不“依样画葫芦”,生造出一些新字。由于每一个汉字都有一个对应的编码,如果将异形字都当作不同的汉字,其结果就是大量生造Unicode表外字,不仅增加了录入的工作量,更重要的是将对检索和资源共享等产生重大的影响,因为使用者在检索时并不清楚某部书中某字的具体写法(甚至一部书中同样的字也有许多种变体),因此实际上无法进行检索或者出现大量漏检。同时,由于大量生造的Unicode表外字,也必然会大大增加数据库在开放、共享方面的困难。

 关于避讳字与通假字问题。避讳是中国历史上一个非常重要的文化现象,过去曾有许多学者对此进行过深入的研究,也有一些相关的研究成果与工具书可资参考。但是,以往学者们所研究的主要是所谓“公讳”、“国讳”即历代帝王(及皇室成员)、圣贤名讳的问题,但古籍数字化工作中所遇到的避讳问题却主要是“私讳”,即作者、传抄者、刊刻者家族的避讳字。前者实际上已经作为一种文化现象而得到了人们的认同,而后者通常只是一家之讳,并未得到社会的认同,特别是在大规模的古籍数字化项目中,此书所避之讳与彼书所避之讳是不同的,甚至不同书中同一个避讳字的避讳方式也各不相同,因此要像“公讳”、“国讳”那样通过建立关联字(词)典来做统一的处理是不大可能的。通假字问题与避讳字的情况相似。由于在古籍中通假字的使用常常是无规律的,有的其实就是古代的错别字,如避讳字的处理一样,在传统的古籍整理工作中,整理者常常会通过注释的方法指出某字是某字的通假字,而在进行大规模的古籍数字化时,通假字的处理就成了一个很大的问题了。关于这两方面的问题,虽然从技术上可以将古籍中所出现的讳字(包括公讳与私讳)、通假字与异体字、异形字等作相同的处理,将它们都编入一个关联字(词)典进行关联检索,但由于关联的面过大,必然会增加检索“噪音”,使检索结果的科学性、准确性大打折扣。例如上海人民出版社、迪志文化出版有限公司推出的《文渊阁四库全书》电子版中,为解决异体字、异形字、简繁字等等的互检问题,引入了“关联字检索”的方法,将本字、异体字、异形字、同义字、通假字、简体字、繁体字甚至形近字等等一并关联检索的办法,这种办法虽然可以避免漏检,但由于其关联字表的不完善,并且缺乏人工智能分析、判断和筛选的机制,却带来了另外的问题,即“噪音”过多。例如,检索乾清宫之“乾清”二字,将同时检索“軋”、“乾”、“干”、“漧”和“清”、“█”、“请”,除了“乾清”二字被查到外,还有与其毫不相干、意义完全不同的“干请”被查到。又如,输入“分类”一词,将同时检索“分”、“兮”、“匪”和“类”、“類”,其结果是,查“分类”与查“匪类”是一样的结果,都是相同的1304条。其中“分”与“兮”根本就是两个不同的字,由于该数据库作了形近字关联,因此也就一并作为检索词来处理了。 关于Unicode的问题。Unicode是目前业界通行的事实标准,它所涵盖的汉字目前已超过了七万个,并且还在不断扩充,因此在古籍数字化时绝大多数机构都采用了Unicode。但是,Unicode本身还存在着不少问题,特别是其字表大为学者所诟病,这给古籍数字化工作带来了一些问题。由于Unicode汉字扩展字符集中的汉字没有经过语言文字学家的规范与正形处理,字符收录与排列的随意性很大,不够科学严谨,既有应该收录而没有收录的问题,也有不该收录而收录的问题。以“█”字为例,此字即“汧”字的异体字。“汧”收录在Unicode汉字字符集的扩充A集中,而“█”在Unicode汉字字符集的基本集、扩充A集、扩充B集中均未收此字符①,但与之情况完全相同的研█、豜█、妍█、鈃█、██却分别都有编码。 要解决上述汉字处理的问题,需要加强两方面的工作:一是作为数字化工作基础的字符处理及相关工具的研发,二是由从事古籍研究的专业人员对需要数字化的古籍进行“预处理”或“后处理”,对古籍文本进行校勘正形。

 关于中文字符集的编制与规范问题,除了国家中文信息化主管部门更加重视Unicode中文字符集的编制,让更多的文字学家直接参与此项工作外,编制与完善相关工具字(词)典,如编纂《汉字关联字典》、《汉字属性字典》等将是一项十分重要的工作。过去,学术界已经作了一些努力,如北京图书馆(即中国国家图书馆)从上世纪80年代起就开始了汉字属性字典的研究,并出版了《汉字属性字典》,其他一些机构和个人也曾进行过这方面的研究,并取得了一定的成果②。

 关于古籍文本的校勘正形,在传统的古籍整理中这是一项必不可少的工作,在进行古籍数字化时,这更是一项必不可少的工作。像前面提到的异形字、私讳、通假字以及古籍抄本、印本中普遍存在的错字,在传统的古籍整理出版工作中,通常是由古籍整理者和专业编辑通过正形、注释、校勘的方式进行处理,而在目前的古籍数字化工作中特别是在大型的古籍数字化项目中,这一环节通常都被省略掉了,由计算机录入人员依样画葫芦造出各种超出Unicode字表外的异形字、缺笔少画的避讳字,其结果就是严重影响检索效果;至于通假字、错字,虽然“忠实”原本并无大错,但由于目前古籍数字化工作的特点是以大型项目为主,在一个大型项目中包含了许多不同的古籍,如果有大量的通假字、错字存在,必然会影响整个数据库的检索和其他功能。同时,许多古籍都不止一种版本,它们之间可能互有优劣,可以互为参考,如果不对数字对象进行文本校勘正形,将会更加大不同版本、数字化与非数字化古籍内容的差异,对古籍的使用甚至中华文化的传承产生严重的不良后果。古籍文本的校勘正形是一项工作量十分浩大的事,在传统的古籍整理中,单对一部古籍进行整理,常常耗时经年。对于大规模的古籍数字化工作来说,其难度与工作量可以想见。所幸与传统印刷方式下一经出版即很难更正的情况不同,数字化产品在制作完成后还可以进行不断的修正、更新,如果是大型网络版数据库,更新的成本非常小。因此,对数字化古籍文本的校勘正形,既可以在数字化工作的前期进行,也可以在后期进行。

 汉字与汉语处理的问题,还与检索、统计、聚类分析与判断等功能的实现有关。对于古籍数字化工作来说,与计算机进行一般的数据检索、统计、聚类分析和判断有很大的不同,它所要处理的对象不是固定不变的数据,而是涉及文化层面的东西,充满着抽象性和不确定性,其难度可想而知。即以文献检索而言,古代的语言文字与现代的语言文字虽然有着一脉相承的关系,但二者在形式或表达方式上如字符、语音、语法、词汇的差异是相当大的。我们且不必细究语言学问题,仅古代汉语中以单音词为主的特点与现代汉语中以复音词(主要是双音词)为主的特点就使二者在全文检索这一数字化文献最重要的功能上具有了很不相同的意义:在进行海量文献检索时,现代汉语用特定的复音词进行检索,其效率大大高于古汉语中单字的检索。从另一个角度来看,古代汉语的单音词(即单字)的检索在许多情况下是非常困难甚至是无意义的。因为,单字检索的必然结果就是命中目标过多,而检索命中目标过多反倒增加了检索者选择的困难③。因此,古籍数字化中的检索以及其他问题还必须根据古籍及中国古代文化的特点来考虑。

 现代数字技术与信息处理技术既给古籍整理与利用带来了许多便利,同时也带来了一些新的问题。一方面,随着数字化技术及现代信息处理技术的应用,我们对文献内容的处理能力大大加强了,技术手段在某种程度上可以部分取代人脑的功能,还能通过快速检索、各种形式的统计等,对海量信息进行处理,为各类使用者提供以前很难实现甚至不可能实现的帮助。另一方面,也应该看到,以往我们强调古籍数字化的优点比较多,但对其带来的问题以及如何解决这些问题则关注不够。古籍数字化给古籍原件的保存、对古籍内容的传播所带来的好处是不言而喻的,数字化强大的检索功能方便了人们查阅资料,但随之而来的问题是:由于数字文献的虚拟化,文献的直观性受到极大的影响。传统阅读方式中的浏览原本是人们获取信息最重要的方式之一,而浏览这种阅读方式是建立在文献的直观性之上的,这也许就是许多人会将数字文献打印出来后再阅读的原因④。也就是说,文献的虚拟化在某种程度上对信息的获取是有负面影响的,并且数字文献因虚拟化而带来的负面影响会随着文献数量的增加而加大。这一点对于中文古籍来说,尤其如此。如何在古籍数字化工作中充分体现数字技术与现代信息技术的优势,减小负面影响,这是古籍数字化工作要解决的重要问题之一。日本京都大学人文科学研究所“21世纪COE东亚世界人文信息学研究教育基地”计划书中提出:以汉字研究为支柱,通过信息学的方法重新构筑汉字文化圈与汉字文化圈相关的人文学研究,使得包括因数字化而失落的所有汉字文献保存与再生⑤。要达到这一目标,虽然会非常困难,但方向无疑是正确的。

   注 ①《大汉和辞典》收字48902,收录了“汧”、“█”;《汉语大字典》收字56000多,也收录了“汧”、“█”。

 ②主要成果有:《汉字属性字典》,北京图书馆编,书目文献出版社,1988年;《汉字属性字典》,傅永和主编,语文出版社,1989年;《国际标准汉字大字典》,北京国安资讯设备有限公司、宁波国联实业有限公司制作,北京大学出版社,1998年;《国际标准汉字大字典》,蓝德康主编,电子工业出版社,1998年。

  ③一般而言,从事语言学和文学研究以及需要就某些特定的字(词)、概念进行研究的学者比较喜欢全文检索,因为他们可以由此进行字频、词频的统计;而对于从事历史与文化研究的学者,则对全文检索的信任和依赖程度要低得多,因为他们所要了解的并不一定是某一个特定的字与特定的词,而是一些历史事件、历史人物及事迹、典章制度甚至一些抽象的东西,他们需要从一些表面上没有联系的文字中寻出其内在的联系,从而做出自己的分析判断。譬如一个研究洪秀全的历史学家在进行研究时,他所需要的关于洪秀全的资料是相当多的,有的可能提到了洪秀全(这可以通过全文检索来实现),有的可能就没有直接提到洪秀全,如果他要完全依赖全文检索,那么必然会遗漏大量有用的资料。

 ④《华尔街日报》(The Wall Street Journal)2002年3月5日的一篇文章《The Story So Far》引述佛瑞斯特研究中心(Forrester Research Inc.)高级分析师丹尼尔•奥布赖恩(Daniel O'Brien)的话说:“电子书阅读起来很痛苦,我知道大多数人如果收到3段以上的电子邮件就会打印出来阅读。”

 ⑤http://coe21.zinbun.kyotou.ac.jp/mokuteki.html.zh,查询于2005年3月6日。