当前位置:首页 >> 业界动态
一页古籍数字化人工6块多 数字古籍能否走入家庭 发布时间:2012-5-7 14:31:55 作者:施晓平 





(来源:苏州日报)







http://news.2500sz.com/news/szxw/2012-5/7_1462357.shtml
你知道珍贵古籍是怎样数字化的吗?苏州图书馆副馆长汪建满、苏州嘉图信息技术有限公司董事长徐伟国,透露了从图片扫描到人工录入文字再到校对、生成数据库等的全过程。
软件没法用,文字只能人工输
古籍的数字化,离不开相关的软件系统。为此,苏州图书馆联合苏州嘉图信息技术有限公司,自主开发了古籍数字化软件系统。
不过,该软件系统是将数字素材加工成数据库的操作平台,古籍的页面原貌图片和文字,还需要一一扫描和输入。
为了保护古籍,书页图片需要用冷光源无边扫描仪,扫描速度很慢,扫描完了还要用软件加工修正,一天只能完成200多页,而现代文献一天可以扫描几千页。
文字的录入更难。古籍上的文字,往往因不按标准写法刻制而很难辨认,像己、已、巳,曰、日,人、入、八……一旦刻得不够规矩,OCR文字识别软件就会判断错误,导致输入电脑的字出错。而古籍中这样的字很多,此外还有大量异体字,所以即使是比较好的本子,录入文字的准确率也不过93%,一般只有70%左右,手抄本就更没法说了。而一旦准确率低于97%,使用这种录入法的意义就不大了。汪建满解释,这是因为校对会特别烦,还不如手工录入。
正因为这样,所以苏州图书馆在对古籍进行数字化的时候,是用两名输入员进行录入的,然后再用电脑软件进行自动比对,一旦出现不同,软件系统就会把不同的字自动翻红,这样就容易发现问题、及时更正了。