当前位置:首页 >> 业界动态

打开“用”与“藏”环环相扣的铁锁 发布时间:2021-6-17 16:22:09   作者:卢 昱  

  40余种珍贵宋元刻本、写本,著名藏书楼嘉业堂、密韵楼的抄本,文澜阁《四库全书》零本……近日,这批珍藏于美国加州大学伯克利分校的中文古籍善本,以数字化方式进驻“汉典重光”古籍平台(网址为https://wenyuan.aliyun.com/home)。

  古籍中那些手写或印刷在薄薄宣纸上的方块汉字,经过数字化,飘起在“云端”,文化积淀又有了新的保存与光大的途径。

  钱钟书的敏锐与远见

  据统计,目前全国各公藏单位拥有古籍总量超过5000万册,需要修复的古籍约1500万册。即使在古籍不再继续遭到破坏的前提下,以当前的修复人才及修复条件计算,要完成全部修复工作仍需数百年。

  古籍文献集文物价值和学术价值于一身。从保护的角度看,古籍应在合适的环境中收藏,尽量减少在普通环境中的时间,降低使用时可能带来的损伤。有测试表明,一部宋元古籍,离开专用书库,置于普通阅览室中供人翻阅一小时,其寿命就会缩短数月。

  从利用的角度看,古籍若沉睡在库房,就无法发挥其价值,而且许多学者的研究与古籍内容息息相关。此时,古籍数字化像一把钥匙,打开了“用”与“藏”环环相扣的铁锁。

  事实上,“古籍”与“数字化”已相遇三十余年。

  古籍数字化,最初扎根在红学研究领域。在1980年国际红学会议上,美籍华裔学者陈炳藻提交《从字汇上的统计论红楼梦的作者问题》,提出用计算机统计《红楼梦》的字词,以辅助确定《红楼梦》尤其是后四十回作者的问题。国外的这些信息激发了国内部分学者的兴趣,他们开始关注并尝试将计算机技术应用于人文研究。

  受此启发,镇江的红学研究者彭昆仑开始利用计算机程序探讨《红楼梦》人物年龄的问题。1985年他调到镇江市科委后,又与东南大学(原南京工学院)合作完成《红楼梦》数据库。此后,深圳大学建成“红楼梦多功能检索系统”。

  1980年前后,钱钟书的女儿钱瑗到英国访学,看到英国学者用电脑储存、查阅莎士比亚的资料。回国后,她把这一信息告诉钱钟书。钱钟书敏锐地意识到这一新鲜事物的价值,让助手栾贵明从事相关研究。

  在钱钟书的指导下,栾贵明主持的课题组先后完成“《论语》数据库”“《全唐诗》速检系统”等课题,并荣获1990年“国家科技进步奖”三等奖。这些都是利用计算机进行人文研究的早期实践。

  当时,古籍数字化还在萌芽状态。在1987年12月人民日报出版社出版的《论语数据库》一书卷首,钱钟书写道:“从理论上来说,计算机和人类使用过的其他工具没有什么性质的不同。它在还未被人广泛使用的时候,除自身尚待完善以外,总会遭到一些抵拒。惯用旧家什的人依然偏爱着他们熟悉的工具。有了纸墨笔砚‘文房四宝’,准还有人用刀笔和竹简;有了汽车、飞机、电报电话,也还有不惜体力和时间的保守者。对新事物的抗拒是历史上常有的现象,抗拒新事物到头来的失败也是历史常给人的教训。”——当前古籍数字化的潮流,可说是对他远见的最好褒奖。

  数字古籍为“母本”代言

  上世纪九十年代后期,古籍文献数据库的建设步入快车道。

  1996年,书同文公司启动的文渊阁《四库全书》电子版是一个标志性工程,被誉为大型中文电子出版工程的典范。该工程动用300名校录人员、60名技术、学术和管理人员,历时三年多完成。

  而今,国家图书馆的“中华古籍资源库”已在线发布超过3.3万部的古籍影像;中华书局的“中华经典古籍库”已发布3000多种、15亿字的点校本古籍;爱如生公司的“中国基本古籍库”收书1万种,既有可供检索的全文,又提供古籍原版图像;像家谱、方志、中医药等专类古籍在多地兴起……

  除了以上大而强的综合数据库,在网络上,很多古籍爱好者,出于热爱和自觉,建立古籍数据库,如“书格”“殆知阁”等,与以上数据库多头掘进,共同成为诸多文史研究者的助手。

  近年来,古籍数字化在服务于学术研究方面,立功颇多。比如中南民族大学王兆鹏主持的“唐宋文学编年系地信息平台”、浙江大学徐永明团队与哈佛大学共建的“学术地图发布平台”、中国社科院刘京臣的“宋代文学地图数字分析平台研究”等值得关注的数字人文成果,其平台的建设离不开数字化古籍的基础作用。

  而数字化之后,古籍“母本”不再需要冒着各种风险“抛头露脸”。与此同时,数字化的古籍,可以走出“深闺”,像孙悟空一般实现七十二种变化,在不同时间满足不同地域读者的阅读需求,实现一对多、点对面、虚对实的变化。

  在山东,古籍数字化的步伐也在同步跟进。据山东省图书馆历史文献部主任、研究馆员杜云虹介绍,省图在2013年发布“山东省图书馆古籍珍本数据库”,收入数字化古籍资源近1000种,共计10万余拍,内容涵盖从明代至民国不同时期、不同类型的经史子集四部类古籍资源;2018年,省图将数字化的馆藏《永乐南藏》1600余部佛经、204592拍、587764页,在网络上公开发布;目前,省图已完成“易学古籍数据库”建设,实现6164种易学古籍书目在线检索和其中900种易学古籍的数字化……

  “现在,古籍普查工作还没有最终完成。我们要摸清家底,古籍数字化不是一朝一夕的事儿,要在保护好古籍的前提下,做好规划,清楚哪些工作是最迫切的,不能零打碎敲地做,更不能盲目开发利用。”杜云虹说。

  对于如何用好“在云端”的古籍宝库,杜云虹分析道:“怎么让古籍里的文字活起来,让大家觉得不很遥远,有很多工作要做。央视的节目《典籍里的中国》,讲述典籍传承文明的故事,是很好的尝试。”

  当阿里涉足古籍

  “电商巨头阿里涉足古籍行业。这在电商行业意味着什么我不清楚,但在古籍领域确实算得上一个大新闻。”网友“人生五味”评价道。

  阿里巴巴达摩院院长张建锋表示,达摩院自2017年起接触古籍数字化领域,2019年正式参与由阿里巴巴公益基金会、四川大学、美国加州大学伯克利分校、中国国家图书馆、浙江图书馆合作开展的“汉典重光”项目,旨在寻觅流散海外的中国古籍并将其数字化、公共化,让普通人也能亲近古籍,通过古籍与先贤对话、与优秀传统文化对话。

  目前,首批20万页古籍已完成数字化,并沉淀为覆盖3万多字的古籍字典,公众可通过“汉典重光”平台翻阅、检索古籍。记者打开平台网页,试着搜索“山东”“济南”等关键词,跳出《战国策》《通鉴纲目》《河防一览》等结果,皆可定点查询、锁定。相较于其他成熟的数据库,“汉典重光”后台的数据量还偏小,在使用时也有一些不够流畅之处。

  新潮的阿里似乎对陈旧的古籍还不太熟悉,但这种“相逢”正探寻着古籍数字化的新路径。

  据悉,古籍数字化大概有以下流程:采集侧,将纸质书变为电子扫描版;生产侧,将电子扫描版变为文字版;应用侧,将文字版变为古籍研学系统,涵盖检索、字典、知识图谱等功能。

  目前,古籍数字化在采集侧、生产侧有两种方法。第一种是纯人工录入,如一本书有10万字,人工把10万字输入计算机。像《四库全书》的编修,就是纸书时代的“人工录入”,当年在乾隆皇帝的主持下,纪昀等360多位高官、学者参与丛书编修,一共用了3800多人、耗时13年才完成。《四库全书》包含3462种书、7.9万余卷、3.6万余册,总字数约10亿。在当下,已很难找到并组织众多精通古文字的专家,如此专注、数十年如一日地来做录入工作。

  第二种是计算机与人工结合,计算机利用文字识别技术提取一部分文字,计算机无法识别的文字则由人类专家手动录入,最终再由人工进行检校。这一技术路线虽探索多年,但始终没能让识别效率大幅提升。原因主要在于:计算机能识得的古籍文字极为有限,若用传统的机器学习方法“教会”计算机海量的古籍文字,得先提供海量的标注数据,用于训练识别模型。而古籍文字没有现成的标注数据,需要懂古文的专业人士手动标注,可能比人工直接录入的工作量更大、成本更高。

  面对海量无标注的数据,如何让AI(人工智能)快速批量识别古籍,始终是古籍数字化领域的技术瓶颈。对此,阿里巴巴达摩院技术团队与四川大学专家联手,在第二种技术方法的基础上,研发了一套全新的识别系统。

  首先是全书检测,把古籍正文中的每个字都抠出来,作为单独的一张图;然后进行聚类,一本古籍总字数可能有10万字,但其中有很多字是重复的,比如“之”“乎”“者”“也”等,聚类就是让机器自动把字形笔画一致的字归为一类,接着再由专家进行标注。原本全部要人工标注10万字的书,经过聚类,只需要对二三千字类进行标注即可,一类字只需标注一次。

  聚类和人工标注,不仅完成了每一类文字的认字过程,还收获了更多新的训练样本,可以继续喂给机器学习。古籍里有很多生僻字、异体字、异形字,出现概率极低,几乎找不到样本。对此,达摩院团队使用字体迁移方法,让机器自动为每个字合成几个新样本,确保单字样本量达到10个,用来训练少样本识别模型。

  从聚类到少样本模型识别,走完一轮,全书70%左右的文字可以被打上正确的标签,余下的部分将从头再来一遍,进行第二轮迭代,又能解决余下文字中的70%。经过两轮迭代,一本书91%的文字可以被识别。如此,通过不断的学习,训练数据越来越多,机器的认字能力也越来越强。

  在复杂的算法养成过程中,人工标注的工作量被大大降低。“经过反复的学习和提升,目前达摩院系统对伯克利20万页古籍的整体识别准确率达到了97.5%。这套人机交互的识别方案,录入效率比纯人工输入提升了近30倍。”张建锋说。

  张建锋表示,守护中华传世典籍,是科技工作者和文化工作者共同的使命。阿里计划将这套技术工具连同古籍数字化平台一并捐赠,交由权威公共机构长期运营;同时,阿里仍将在古籍数字化工作上持续投入人力、物力。

  作者:卢 昱

(来源:大众日报)