当前位置:首页 >> 古籍整理论坛 >> 祝尚书

栏目导航

古籍整理论坛

试论古籍整理研究数字化、信息化的现状与问题
----—— 
作者:
    随着科学技术的飞速发展,目前人类已进入数字化、信息化时代,这是连小学生都在谈论的话题。古籍整理与研究,作为一门最具中国特色的古老学科和传统学术,在我国建立现代精神文明的伟大事业中占有十分重要的地位,必然成为“信息化时代”的重要构成部分。事实上,我国古籍整理研究的领导机构和学者,早已将数字化、信息化提上议事日程,而数字化、信息化由起步到发展,特别在近十多年来,可谓成绩斐然,但也还存在一些不足和问题。对此,本文拟略作探讨。

一、古籍的数字化、信息化


    古人信息的记录和传播,最早的媒介是甲骨、金石,随后是简帛,不用说都很原始;只有到东汉人蔡伦发明了造纸术,①才使文字载体发生了革命性的进步。到唐末五代,印刷术的发明和广泛应用,又使传播手段实现了一次飞跃。在我国古代的“四大发明”中,造纸术和印刷术荣居二席,可见信息记录和传播在历史上的重大影响。完全可以说,这二“术”大大提升了人类的文明程度。近十几年来,数字化、信息化的迅猛发展,其意义当可与印刷术相提并论,而影响或将更加深远。数字化、信息化也给古籍整理研究带来了重大变化,使这门传统学术焕发出青春。 (一)关于古籍的数字化
    记载信息的符号及其组合关系,就是数据。将大量文字信息转换为数据,就是我们常说的“数字化”。文字信息的数字化,使人类告别了信息记录和传播的“铅与火”时代,而进入“电与光”的崭新世纪。计算机广泛应用于文字处理,在我国还不到二十年的历史,但却使铅字排版这个传统产业消失了,而崛起了“激光照排”的新产业。记得上世纪80年代,一般人对计算机还相当陌生,甚至充满了神秘感,一台在现在看来很低档的电脑,当时简直是宝贝,不仅宠之专房,配置地毯、空调,而且由专人操作,“闲人免进”,颇给人“金屋藏娇”的感觉。那时的计算机价格,也是一般人所不敢问津的。可没过几年,这“宝贝”便开始进入寻常百姓家。于是,计算机古籍整理与研究,也就是古籍数字化的问题,也在古籍整理研究界适时地被提了出来,全国古籍整理出版规划领导小组、高校古委会将其列为重要课题,并多次召开相关的学术会议,不少大学的文献研究所、古籍整理研究所将“计算机辅助古籍整理”列为本科必修课程或硕士研究生的专业方向。应该说,运用计算机进行古籍整理与研究,在近十几年间,取得了很大进步,培养了不少人才。我个人在上世纪90年代初期,也算是赶在大“潮流”之先,买了一台当时“最先进”的“386”,开始用它进行古籍整理与研究。稍后和同仁编纂《中华大典·宋辽金元文学分典》,就全是操作电脑了。尽管现在已到了没有电脑(如偶遇停电)就不愿动“笔”的依赖程度,但较之先进,我的技术还不高,不过也尝到了“数字化”带来的许多甜头。目前,据我所知,在古籍整理研究工作者中,电脑已基本普及。
    文字的数字化与单纯的“打字”不同,它可以随意修改和编辑,而且硬盘储存量特别巨大,你一辈子无论多么“高产”,大概也不可能“写”满一个小容量的硬盘。据我所知,目前的古籍数字化大概有如下三种类型。
    一是电子扫描图版。这是将古籍版面用扫描仪扫描为计算机数据,可以《四库全书》电子版为代表。《四库全书》电子版将规模浩大的《四库全书》扫描制作为一百五十多张光碟,使一般读书之家也可坐拥《四库全书》,可谓“暴富”;其缺点是无法进行全文检索,只能一页页地翻看。
    二是数据库。如《国学宝典》等,近来已有全文检索的《四库全书》(我尚未用)。电子版《四部丛刊》则是两者合一,既有扫描图版,又有数据库,极便使用。检索型更有利于研究,比扫描型进了一大步,但制作成本较高。
    三是电子文本。它为古籍整理研究者所有,普遍保存在个人电脑及众多的“照排部”中。这种电子文本可随意拷贝携带,也可检索。
(二)关于古籍的信息化
    数字化是将文字或版图转换为数据,目的在“记录”;而所谓“信息化”,则是指电脑数据通过互联网进行远距离传输,目的在“传播”。数字化是信息化的基础,信息化是数字的社会共享。互联网在我国的广泛应用,还只是近几年的事。目前的古籍整理研究信息化,也已取得了可喜的成绩,从网站可获得或下载一些相关资料,但就总体论,信息量还较匮乏,尚处于较低的发展阶段。

二、数字化、信息化与古籍整理研究


    充分利用古籍的数字化、信息化,以开创古籍整理与研究的新局面,使之更有效地为现代化建设服务,是古籍整理研究工作者的光荣任务。下面就所见所知,并结合笔者本人的实践,略述数字化、信息化在古籍整理研究中的运用。
(一)数字化、信息化与古籍整理
    数字化、信息化运用于古籍整理,大有可为。目前,许多古籍校点本、校注本、资料汇编、研究论文及专著等都是利用电脑完成的。以古籍校点本为例,电脑可在标点、版本校、注释、辑佚等多方面发挥作用。
    1.将古籍文本录入电脑,可大大减少因修改而反复抄稿的繁重劳动(这种劳动并无学术含量)。前人常说的“几易其稿”,已再没有必要。电脑录入可与古籍标点异步进行,即先在工作本上手工标点,然后再录入;如果校点者自己操作电脑,录入和标点实际上是同步进行。也可用扫描仪获得文本,只是目前的扫描仪功能,对古籍的识别率尚不理想(主要是繁体字、异体字及刻本字形等问题)。
    2.辅助版本校勘。对校、理校固需人工,但所谓“本校”、“他校”,则有时可求助于电脑,比如用检索法从本书、他书寻找判断依据等,很解决问题。
    3.辅助作注。对于古籍校注本,工作量和难度最大的是注释,这当然主要靠注者的知识积累,但电脑也可以帮忙。比如,后人用事常出先秦典籍,或“前四史”、《文选》等书,唐人好用六朝诗句,如此之类,若对上述书籍不很熟悉,或记忆不及,而要一一翻检,那是既费时又麻烦的。若用数据库或电子文本检索,就十分简便。尤其是部分生僻典故,或借用、化用句子的来源,用检索法查询相当有效。
    4.用检索法辑佚、编制年谱(或年表)及附录。
    应当着重说明,作校注主要靠“人”,电脑只是辅助工具。比如古人使事或明或暗,或只取原典的一二字,这需注者判断。如果注者没有广博的学识,凡电脑查不到就以为无出典,那就会漏注。
(二)数字化、信息化与古籍研究
    对于古籍研究,数字化、信息化似乎有更加广阔的空间。
    首先是资料查询和积累,古籍的电子文本提供了极大的方便。老一辈学者教导我们说,你如果用五年时间积累某一研究课题的资料卡片,就可能成为该课题研究的专家甚至权威 (已故王利器先生语)。这无疑是当时的经验之谈。但现在,比如用《国学宝典》,在倾刻之间就能生成某一主题词下的成百种书的资料卡片(当然还需核对原书),快捷如探囊取物。这个速度,是读书然后抄书(做卡片)所无法比拟的。用此法获得资料,有人可能会嗤之以鼻,我个人也曾将信将疑,但当相关资料在倾刻间即可获得时,你又不能拒绝。前不久,我为香港景范教育基金会作《范仲淹研究资料辑录》,翻阅书籍不少,最后与电脑生成的资料卡片相核对,就发现漏了一些,有的书虽经查阅,但却失之交臂。
    其次是建立数据库,进行穷尽式的统计研究。如不少古汉语研究者及博士生的博士论文,就应用此法对专书(如先秦典籍《左传》、《孟子》、《荀子》、《吕氏春秋》、《史记》等)词汇(如同义词、动词等)进行搜集、排比研究,既可达到穷尽的程度,又十分准确。据载,台湾学者也广泛利用资料库检索词学资料(见《文学遗产》2002年第1期)。
    再次是对古代诗、词进行定性、定量研究。如有学者作《宋词作者定量分析》,“对宋代词家的地域分布、进士人数、词作数量分布……作了系统而科学的统计,并进行了定量分析” (亦见《文学遗产》2002年第1期)。也有青年学者用统计法进行诗词的意象研究。这些工作虽也可用手工完成,但那速度与成效是无法比拟的。
    数字化、信息化在古籍整理研究中的实际应用,当然还有一些,如编制目录,加人名、地名直线及书名波纹线,自动生成四角号码索引等。也许还有我所不知的更好的方法,而不止上述诸方面。但专用于古籍整理研究的软件似乎太少。随着技术的进步,特别是应用软件的不断更新和开发,必将打开新局面,总结出更新鲜的经验。

三、古籍整理研究数字化、信息化存在的问题


    在古籍整理研究数字化、信息化的过程中,也还存在不足,遇到一些问题甚至挑战。
    (一)版权问题。已有作家与网站打官司胜诉的案例,可见网上也存在版权。电子文本的公开,可能影响到出版社的销售,又与出版社的出版权发生冲突。曾有人邀我将拙著放到网上,我就有这种担心,犹豫再三,终不敢贸然行事。但如果网上没有足够的信息资源,那就会枯竭、匮乏甚至没有使用价值,成为信息化的障碍。曾见《中华读书报》报道,有人指责《国学宝典》和国学网站侵权。应当指出,《国学宝典》、国学网站很受国学研究(包括文史哲研究及古籍整理)、教学工作者的欢迎。因网站系无偿使用,如何既“无偿”又不侵权,的确是两难选择。有人主张由国家搜集出版社的电子文本,实现资源共享。这个主意不能说不好,只是涉及到经费投入,如果要出版社或个人无偿“捐献”,恐怕又行不通。这个问题亟待研究解决,也许企业化操作、变信息的无偿使用为有偿服务等,是不得已而为之的较好选择。
    (二)重复劳动问题。实现一部书的数字化,需录入电脑,特别要精心校对,然后生成可放心使用的电子文本,其间投入很大。但现在是“各自为战”,重复进行,造成人力、财力浪费不小。极易交换的电子文本,似不应再重复铅版时代的浪费。当我需用某书的电子文本时,曾有这样的设问:可否建立网上电子文本交易市场?古代的木刻版,已有购买、赠送等转让方式,将电子文本转化为特殊商品(实际上就是上面所说的版本使用权)进行交易,似乎也无不可,它为研究者节省的不仅仅是人力财力,更重要的是时间和精力。
    (三)盗版问题。这可谓是电子出版物的“老大难”。有的书使用价值很大,比如目前正在编纂的《中华大典》,有的分典已经出版,但规模大,查阅不便,又价格昂贵,只有较大的图书馆才有力购买,一般读者难以承受。如果制成可检索的光盘,肯定很受欢迎,但怕盗版,出版社只得缩手。国家投巨资编纂的这部书,很难充分发挥其社会效益。加大打击盗版的力度,规范电子出版物市场,才能营造数字化、信息化健康发展的客观环境。
    (四)软件的市场化问题。常见新闻媒体报道古籍整理研究软件开发成功的消息,但在市场上却购不到。究其原因,是这些软件往往为研究者自己开发、使用,并未成为商品,或者没有形成规模生产。这是很可惜的。如何使古籍整理研究软件开发市场化,是亟待解决的问题。
    (五)建立数字化信息化图书馆问题。古籍的数字化、信息化,各大图书馆应是领头羊。不少图书馆也提出了建数字化、信息化图书馆的口号,但与此目标还相去甚远。对古籍整理而论,最令人头痛的是版本校勘。珍、稀版本一般收藏在各大图书馆,要校书就要出差,花费很大。据报道,有关部门正在联合制作基本古籍光盘,固然是大好事,但似乎仍远远不够。如果有一天全部或主要古籍都实现了数字化、信息化,做到古籍资源的全社会共享,坐在家里即可用光盘或通过互联网校勘各种版本,那无疑是古籍整理研究工作者的莫大福祉。当然,要达到这一步,不可能一蹴而就,或者在21世纪会有实现的一天。
    (六)古籍整理研究数字化、信息化,离不开专业古籍出版社的参与。专业古籍出版社欲在21世纪兴旺发达,似宜主动面对数字化、信息化的新形势和新挑战,将电子出版物纳入出版的视野。是否可在出版某书时,同时出版该书的电子版?目前作者所交书稿,大多为电脑数据文本,出版电子版既不难,成本也不高,而读者则得到很大便利,且有更多的选择空间。同时希望力量较强的专业出版社创办古籍整理研究的专业网站。这些出版社一般上与政府部门、下与同行专家学者有着广泛联系,如果能够联合起来共建网站,必将大大推进古籍整理研究信息化的进程。
    以上诸问题及个人的某些思考,也许很不成熟,也许还有更重要的问题没能提出,总之希望能引起讨论和关注,为古籍整理研究的数字化、信息化开辟更加广阔的道路。
    最后,古籍整理研究数字化、信息化,也遭到部分学者特别是个别老专家的质疑,担心这会使人过分依赖高科技手段,越来越“懒惰”,不愿读书,动辄声称“书在网上” (见某学术研讨会的报道),而主张信息化的人群,无疑以中青年特别是青年学者居多。对此,笔者以为担心是有道理的,如果不读书而只依赖检索或网上查找资料,再加入一些似是而非的所谓“论点”,便拼凑成“论文”或“专著”(时下不乏此辈),那很难说是严肃的学术研究。由于网络信息目前还不丰富,用电脑阅读光盘也欠方便,故可能在相当长的时间内,传统的纸质书本将与电子版本、网络并行不悖,甚至读“书”仍将以传统的方式为主。而且,据我的体会,如果完全依赖检索和数据库,几无法进行真正意义上的研究,特别是文学研究更是如此。比如,用数据库或电子文本检索,的确可为研究提供资料,但文学语言千变万化,设主题词并不一定能得到相关资料,更遑论“穷尽”;诗文上下关联紧密,检索难免断章取义不小心就会牛头不对马嘴。但若因此怀疑甚至否定数字化、信息化,回归到“卡片时代”,那显然又不合时宜。笔者以为,电脑不可能替代人脑,数字化、信息化只能是古籍整理研究的辅助手段,就是到电脑“智能”高度发达之后,也是如此。书必须读,电脑检索、网络信息也要利用,两相结合,庶可相得益彰。