业界动态-中华古籍网

当前位置：首页 >> 业界动态

打开“用”与“藏”环环相扣的铁锁 发布时间：2021-6-17 16:22:09 作者：卢昱

　　40余种珍贵宋元刻本、写本，著名藏书楼嘉业堂、密韵楼的抄本，文澜阁《四库全书》零本……近日，这批珍藏于美国加州大学伯克利分校的中文古籍善本，以数字化方式进驻“汉典重光”古籍平台（网址为https://wenyuan.aliyun.com/home）。

　　古籍中那些手写或印刷在薄薄宣纸上的方块汉字，经过数字化，飘起在“云端”，文化积淀又有了新的保存与光大的途径。

　　钱钟书的敏锐与远见

　　据统计，目前全国各公藏单位拥有古籍总量超过5000万册，需要修复的古籍约1500万册。即使在古籍不再继续遭到破坏的前提下，以当前的修复人才及修复条件计算，要完成全部修复工作仍需数百年。

　　古籍文献集文物价值和学术价值于一身。从保护的角度看，古籍应在合适的环境中收藏，尽量减少在普通环境中的时间，降低使用时可能带来的损伤。有测试表明，一部宋元古籍，离开专用书库，置于普通阅览室中供人翻阅一小时，其寿命就会缩短数月。

　　从利用的角度看，古籍若沉睡在库房，就无法发挥其价值，而且许多学者的研究与古籍内容息息相关。此时，古籍数字化像一把钥匙，打开了“用”与“藏”环环相扣的铁锁。

　　事实上，“古籍”与“数字化”已相遇三十余年。

　　古籍数字化，最初扎根在红学研究领域。在1980年国际红学会议上，美籍华裔学者陈炳藻提交《从字汇上的统计论红楼梦的作者问题》，提出用计算机统计《红楼梦》的字词，以辅助确定《红楼梦》尤其是后四十回作者的问题。国外的这些信息激发了国内部分学者的兴趣，他们开始关注并尝试将计算机技术应用于人文研究。

　　受此启发，镇江的红学研究者彭昆仑开始利用计算机程序探讨《红楼梦》人物年龄的问题。1985年他调到镇江市科委后，又与东南大学（原南京工学院）合作完成《红楼梦》数据库。此后，深圳大学建成“红楼梦多功能检索系统”。

　　1980年前后，钱钟书的女儿钱瑗到英国访学，看到英国学者用电脑储存、查阅莎士比亚的资料。回国后，她把这一信息告诉钱钟书。钱钟书敏锐地意识到这一新鲜事物的价值，让助手栾贵明从事相关研究。

　　在钱钟书的指导下，栾贵明主持的课题组先后完成“《论语》数据库”“《全唐诗》速检系统”等课题，并荣获1990年“国家科技进步奖”三等奖。这些都是利用计算机进行人文研究的早期实践。

　　当时，古籍数字化还在萌芽状态。在1987年12月人民日报出版社出版的《论语数据库》一书卷首，钱钟书写道：“从理论上来说，计算机和人类使用过的其他工具没有什么性质的不同。它在还未被人广泛使用的时候，除自身尚待完善以外，总会遭到一些抵拒。惯用旧家什的人依然偏爱着他们熟悉的工具。有了纸墨笔砚‘文房四宝’，准还有人用刀笔和竹简；有了汽车、飞机、电报电话，也还有不惜体力和时间的保守者。对新事物的抗拒是历史上常有的现象，抗拒新事物到头来的失败也是历史常给人的教训。”——当前古籍数字化的潮流，可说是对他远见的最好褒奖。

　　数字古籍为“母本”代言

　　上世纪九十年代后期，古籍文献数据库的建设步入快车道。

　　1996年，书同文公司启动的文渊阁《四库全书》电子版是一个标志性工程，被誉为大型中文电子出版工程的典范。该工程动用300名校录人员、60名技术、学术和管理人员，历时三年多完成。

　　而今，国家图书馆的“中华古籍资源库”已在线发布超过3.3万部的古籍影像；中华书局的“中华经典古籍库”已发布3000多种、15亿字的点校本古籍；爱如生公司的“中国基本古籍库”收书1万种，既有可供检索的全文，又提供古籍原版图像；像家谱、方志、中医药等专类古籍在多地兴起……

　　除了以上大而强的综合数据库，在网络上，很多古籍爱好者，出于热爱和自觉，建立古籍数据库，如“书格”“殆知阁”等，与以上数据库多头掘进，共同成为诸多文史研究者的助手。

　　近年来，古籍数字化在服务于学术研究方面，立功颇多。比如中南民族大学王兆鹏主持的“唐宋文学编年系地信息平台”、浙江大学徐永明团队与哈佛大学共建的“学术地图发布平台”、中国社科院刘京臣的“宋代文学地图数字分析平台研究”等值得关注的数字人文成果，其平台的建设离不开数字化古籍的基础作用。

　　而数字化之后，古籍“母本”不再需要冒着各种风险“抛头露脸”。与此同时，数字化的古籍，可以走出“深闺”，像孙悟空一般实现七十二种变化，在不同时间满足不同地域读者的阅读需求，实现一对多、点对面、虚对实的变化。

　　在山东，古籍数字化的步伐也在同步跟进。据山东省图书馆历史文献部主任、研究馆员杜云虹介绍，省图在2013年发布“山东省图书馆古籍珍本数据库”，收入数字化古籍资源近1000种，共计10万余拍，内容涵盖从明代至民国不同时期、不同类型的经史子集四部类古籍资源；2018年，省图将数字化的馆藏《永乐南藏》1600余部佛经、204592拍、587764页，在网络上公开发布；目前，省图已完成“易学古籍数据库”建设，实现6164种易学古籍书目在线检索和其中900种易学古籍的数字化……

　　“现在，古籍普查工作还没有最终完成。我们要摸清家底，古籍数字化不是一朝一夕的事儿，要在保护好古籍的前提下，做好规划，清楚哪些工作是最迫切的，不能零打碎敲地做，更不能盲目开发利用。”杜云虹说。

　　对于如何用好“在云端”的古籍宝库，杜云虹分析道：“怎么让古籍里的文字活起来，让大家觉得不很遥远，有很多工作要做。央视的节目《典籍里的中国》，讲述典籍传承文明的故事，是很好的尝试。”

　　当阿里涉足古籍

　　“电商巨头阿里涉足古籍行业。这在电商行业意味着什么我不清楚，但在古籍领域确实算得上一个大新闻。”网友“人生五味”评价道。

　　阿里巴巴达摩院院长张建锋表示，达摩院自2017年起接触古籍数字化领域，2019年正式参与由阿里巴巴公益基金会、四川大学、美国加州大学伯克利分校、中国国家图书馆、浙江图书馆合作开展的“汉典重光”项目，旨在寻觅流散海外的中国古籍并将其数字化、公共化，让普通人也能亲近古籍，通过古籍与先贤对话、与优秀传统文化对话。

　　目前，首批20万页古籍已完成数字化，并沉淀为覆盖3万多字的古籍字典，公众可通过“汉典重光”平台翻阅、检索古籍。记者打开平台网页，试着搜索“山东”“济南”等关键词，跳出《战国策》《通鉴纲目》《河防一览》等结果，皆可定点查询、锁定。相较于其他成熟的数据库，“汉典重光”后台的数据量还偏小，在使用时也有一些不够流畅之处。

　　新潮的阿里似乎对陈旧的古籍还不太熟悉，但这种“相逢”正探寻着古籍数字化的新路径。

　　据悉，古籍数字化大概有以下流程：采集侧，将纸质书变为电子扫描版；生产侧，将电子扫描版变为文字版；应用侧，将文字版变为古籍研学系统，涵盖检索、字典、知识图谱等功能。

　　目前，古籍数字化在采集侧、生产侧有两种方法。第一种是纯人工录入，如一本书有10万字，人工把10万字输入计算机。像《四库全书》的编修，就是纸书时代的“人工录入”，当年在乾隆皇帝的主持下，纪昀等360多位高官、学者参与丛书编修，一共用了3800多人、耗时13年才完成。《四库全书》包含3462种书、7.9万余卷、3.6万余册，总字数约10亿。在当下，已很难找到并组织众多精通古文字的专家，如此专注、数十年如一日地来做录入工作。

　　第二种是计算机与人工结合，计算机利用文字识别技术提取一部分文字，计算机无法识别的文字则由人类专家手动录入，最终再由人工进行检校。这一技术路线虽探索多年，但始终没能让识别效率大幅提升。原因主要在于：计算机能识得的古籍文字极为有限，若用传统的机器学习方法“教会”计算机海量的古籍文字，得先提供海量的标注数据，用于训练识别模型。而古籍文字没有现成的标注数据，需要懂古文的专业人士手动标注，可能比人工直接录入的工作量更大、成本更高。

　　面对海量无标注的数据，如何让AI（人工智能）快速批量识别古籍，始终是古籍数字化领域的技术瓶颈。对此，阿里巴巴达摩院技术团队与四川大学专家联手，在第二种技术方法的基础上，研发了一套全新的识别系统。

　　首先是全书检测，把古籍正文中的每个字都抠出来，作为单独的一张图；然后进行聚类，一本古籍总字数可能有10万字，但其中有很多字是重复的，比如“之”“乎”“者”“也”等，聚类就是让机器自动把字形笔画一致的字归为一类，接着再由专家进行标注。原本全部要人工标注10万字的书，经过聚类，只需要对二三千字类进行标注即可，一类字只需标注一次。

　　聚类和人工标注，不仅完成了每一类文字的认字过程，还收获了更多新的训练样本，可以继续喂给机器学习。古籍里有很多生僻字、异体字、异形字，出现概率极低，几乎找不到样本。对此，达摩院团队使用字体迁移方法，让机器自动为每个字合成几个新样本，确保单字样本量达到10个，用来训练少样本识别模型。

　　从聚类到少样本模型识别，走完一轮，全书70%左右的文字可以被打上正确的标签，余下的部分将从头再来一遍，进行第二轮迭代，又能解决余下文字中的70%。经过两轮迭代，一本书91%的文字可以被识别。如此，通过不断的学习，训练数据越来越多，机器的认字能力也越来越强。

　　在复杂的算法养成过程中，人工标注的工作量被大大降低。“经过反复的学习和提升，目前达摩院系统对伯克利20万页古籍的整体识别准确率达到了97.5%。这套人机交互的识别方案，录入效率比纯人工输入提升了近30倍。”张建锋说。

　　张建锋表示，守护中华传世典籍，是科技工作者和文化工作者共同的使命。阿里计划将这套技术工具连同古籍数字化平台一并捐赠，交由权威公共机构长期运营；同时，阿里仍将在古籍数字化工作上持续投入人力、物力。

　　作者：卢昱

(来源：大众日报)