海外古籍数字化回归:如何做到“为天下人所用”?
陈力和何梦超讨论古籍数字化方法。(达摩院供图/图)
流散海外八十多年后,文澜阁本《四库全书》中的《宋百家诗存》重现大众视野。
在扫描影像中,这本中国古籍上的水浸、虫噬、霉变历历可见,每一处都是历史的风霜。1790年左右,《宋百家诗存》随《四库全书》入藏杭州文澜阁,清咸丰年间在太平军入杭后散失,1861年左右被嘉业堂收藏。抗战时期,部分嘉业堂藏书流落到了上海,可能被日本人收购,并于1949年辗转到了美国,如今藏于加州大学伯克利分校东亚图书馆。
东亚图书馆收藏了大量中国古籍善本,截至2021年5月18日,其中二十万页被扫描影像、读取文字,以数字化形式回归祖国。
这是海外古籍回归项目“汉典重光”的成果之一。这批数字化古籍善本中既有宋元本,也有明清至民国时期著名学者的稿本、抄本,其中一些是以前很少有人见过的珍贵藏本,比如清文澜阁本《宋百家诗存》。
古籍流散海外的原因多种多样,实体回归几乎是不可能的,比较可行的办法是数字化回归。
此前的古籍数字化平台,大多是展示扫描后的古籍图片,读者只能在这些平台阅读图片,无法就书中内容进行检索分析。此次汉典重光的数字化团队不仅将古籍扫描,还将扫描下来的图片识别转化成了电子文字。搜索某一字词,可以跳转到字词所在书本的具体章节段落。
这些古籍资源将向公众免费开放。阿里达摩院院长张建锋表示,汉典重光古籍数字化平台将被捐赠给权威公共机构长期运营。
“让蒙尘的古籍重焕新生”
四川大学历史文化学院教授陈力是汉典重光项目的古籍专家。陈力的父亲是教历史的,1977年,陈力作为恢复高考的第一届考生,填报的所有志愿都与历史、中文、图书馆相关,最后被省内第一志愿四川大学历史系录取,从此“一辈子都在做这个”,对古籍积累下一份深厚的感情。
在汉典重光项目之前,陈力已经参与过古籍数字化项目。他曾经在国家图书馆工作18年,其中一半的时间分管古籍,经手过哈佛大学燕京图书馆的一个古籍数字化回归项目。2009年,燕京图书馆馆长郑炯文专门从美国飞到中国商量相关事宜,目录都筛选完成了,也做完了一部分书的扫描,但项目最终因为资金、技术等没能达到预期而搁浅。
这次未竟的合作在某种程度上成为汉典重光项目的起源。在哈佛大学访问期间,高晓松看到了燕京图书馆的古籍数字化系统。高晓松创办的杂书馆收藏了几十万种民间古籍,他产生了想让流失的古籍回归的想法,并于2017年10月28日第一次在钉钉上和阿里达摩院秘书长刘湘雯沟通这件事。
达摩院联系上了燕京图书馆,馆长依旧很愿意配合。但哈佛大学是一所私立大学,最后拍板的是哈佛董事会,这件事被董事会否决了。
与燕京图书馆的合作中止后,达摩院团队继续寻找海外古籍回归的机会。他们联系上了四川大学历史文化学院副院长王果,王果找到了陈力。二人很快加入团队,给项目命名为“汉典重光”。“汉典”指中国古籍,“重光”是陈力提出的,意为“让蒙尘的古籍重焕新生”。
在团队讨论中,陈力重点考虑的是项目的可行性——还是得找到愿意合作的海外图书馆。陈力首先联系的是加州大学伯克利分校东亚图书馆原馆长周欣平。周欣平1998年曾到四川大学访问,与陈力进行过古籍数据系统检索功能的讨论。周欣平多次提及“古籍是天下之公器,要为天下人所使用”,如今受到陈力邀约,欣然同意合作。
陈力和王果去伯克利进一步沟通,与周欣平达成共识。在资金落实之前,伯克利那边就开始了工作,并很快提供了十万页的古籍扫描版。
早在十多年前,上海图书馆曾对东亚图书馆的古籍馆藏做了初步整理,编好了目录。但是目录没法代替古籍本身,只有看到全书的原貌才能算是真正了解这本书的历史,比如这次的重点回归书目之一、晚清思想家王韬的《瀛壖杂志》,字迹密密麻麻的手稿,记录的是这位洋务运动先驱人物自1840年代末期所亲历的上海开埠初期发展史。
源自文澜阁的《宋百家诗存》及乾隆朱印。(达摩院供图/图)
和机器一起认字
此前国图与燕京图书馆的合作主要是扫描古籍、回归影像,汉典重光团队更进一步,从单纯的扫描图像变成了内容识别整合,使古籍真正数字化,做到阅读清晰、查询方便,为后续的分析研究打下基础。
团队的算法负责人何梦超2017年参与过古籍OCR(对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程)项目,对北京龙泉寺的十本藏经进行识别。普通的OCR识别在现代印刷文本的使用上已经达到了很高的水平,2017年何梦超参与的《大藏经》项目里也能做到97%的准确率,但放到古籍上面,准确率降到了百分之三四十。
古籍的数字化录入,比现代印刷品的数字化录入难得多。由于古籍本身文字状况的特殊性,古籍数字化无法套用已有的现代汉语词典和机器学习模型,需要团队从头搭建古文数据库和古文字识别人工智能模型。
何梦超去四川大学与陈力探讨,陈力提到古籍文字种类非常多,而何梦超发现,其中很多字都是重复出现的。他想到了单字识别、再聚类的数据收集方法。也就是说,把一册古籍里的字全部切分开来单个识别,然后把形状、笔画类似的字放入一个类别,再让对古文字有所了解的人对聚类进行审核——拎出不属于这个类别的字。最后给这个类别打上标签,也就是这一类图片字的打印版原型。
这是一项庞大的认字工程,几千册古籍,每册几千组文字需要人工审核。人手不够,团队招募对古籍感兴趣、有一定知识的大学生加入。
四川大学历史文化学院2018级本科生张楚珏是第一批加入的,她想借这个机会增加自己对古籍的认识,也补充一点零花钱。
最初,机器识别、分类的单字图片让张楚珏感到疑惑——有的图片里有两个字,有的图片里不是字而是符号。
机器“认错字”的原因是技术团队低估了古籍版式的复杂性。现代印刷品有通用的规范版式,古籍的版式则多种多样,在竖排文字中可能突然出现一些横排文字,同样宽度的空间,有时写着一列大字,有时写着两列小字。在二十万页古籍里就有近百种版式,技术团队将它们一一区分,机器识别准确率大大提高。
版式问题解决之后,进入正式的人工审核环节。古文中的字有很多讲究,同一个字在不同使用情况下、不同朝代不同版本的书籍中,都可能有不同的写法,即一个字可能有多种异体字。比如国家的“国”字,有简体的“国”,繁体的“國”,还有“太平天囯”里没有一点的“囯”。在分组时,一个字的每种异体字都要单独分为一组。
分组后,在电脑上把这些古汉字打出来也是一件难事。常用输入法一般都打不出异体字,就算有也在相当靠后的位置。加入的前两个月里,张楚珏一直都在摸索打古文字的方法。她找到了三个能够检索古文字的字典网站,即便遇到不认识的字,也可以通过检索部首找到这个字。
学生们渐渐驾轻就熟,某个期末周,团队忽然发布了四万字的审核任务,一位男生一人就完成了一万字左右。
在汉典重光技术团队看来比较复杂的古籍版面样式。(达摩院供图/图)
“万里长征第一步”
陈力在图书馆工作多年,收到过不少读者、专家对古籍馆藏的意见,其中最常见的就是关于全文检索,即通过关键字词的搜索来辅助自己的研究。纸质书时代,已经有不少这样的工具书,国内燕京学社给古代具有代表性的文献都编了索引,比如一个字在《尚书》里出现了多少次,都在什么地方。但这样的工具书使用起来依然比较繁琐。
2021年5月18日,汉典重光在中国科技馆举办发布会,会后,包括国家图书馆、浙江图书馆、四川大学图书馆和一些私人馆在内的二十多家机构向该团队发来祝贺,并表示愿意在后续过程中与该团队合作,将自己的馆藏数字化并开放给公众使用。
古籍的数字化最早是从美国开始的。1970年代末,美国线上电脑图书馆中心和图书馆联盟先后推出了《朱熹大学章句索引》《王阳明传习录索引》《戴震原善索引》等数据库。1980年代以后,中国台湾、香港和大陆相继开始了中文古籍数字化项目。
目前中国规模最大的古籍保护计划是2007年国务院提出布置的“中华古籍保护计划”,截至2016年,中国古籍保护网的“全国古籍普查登记基本数据库”已累计发布涉及13个省份及中直系统的96家单位所藏388963部3587347册古籍的普查数据。
计划的又一成果“中华古籍资源库”也于2016年在国图上线,古籍总量超3.3万部。但与大多古籍数字化项目一样,“中华古籍资源库”仅停留在扫描处理提供古籍影像的程度,在内容检索和分析上依然困难,且提供的扫描版本总量也不及全国普查结果的十分之一。
据媒体报道,国家古籍保护中心办公室副研究馆员赵文友做过一个估算,如果将全国尚未数字化的40万个版本的古籍全部数字化,采集、组织、加工、存储、管理等费用大约需要60亿元。而国家古籍保护中心每年用于古籍数字化工作的经费仅1000万元,很多地方图书馆的古籍数字化经费更是捉襟见肘。
在官方组织的古籍影像保护计划之外,国内也有商业公司对部分古籍做过数字化磁盘存储处理,《四库全书》早在2000年就已经有了全套电子版录入的光盘版本,由北京书同文数字化技术有限公司研制,在国内古籍数字化进程中具有里程碑意义。然而,这套磁盘并未能解决生僻字的输入问题,南方周末随机选取的一页,就有22个无法显示的字。
官方项目资金容易短缺,商业公司项目又不可避免涉及盈利,各种条件的掣肘下,古籍数字化的发展一直都没能实现飞跃。此次公益性质的汉典重光平台,在古籍数字化上趟出了一条新路径。
过去古文字录入高度依赖人工,此次的古籍OCR机器学习模型的建立准确率高达97.5%,效率是人工的近30倍。然而,陈力认为目前的汉典重光平台只走了“万里长征第一步”,还有无数难题等待解决。“机器处理有规律的东西好办,无规律的东西就不好办,而古籍无规律的东西居多。”陈力说。比如《瀛壖杂志》手稿,这次的模型系统就还没有办法做到自动识别。书中满篇都是杂乱的批校,毫无规律可言,想要识别还是得进行大量人工干预。“批校的字都很草,人都不一定认得出来,更不用说机器了。古籍识别不是可以一个方法用到底的。”
技术团队也意识到数字化的进步空间还很大,目前97.5%的准确率是基于这样一个前提:训练集和最终的测试数据来自同一批书。如果用目前标注出来的三万字字库去识别一本新的古籍,很可能达不到这个准确率。
即便达到97.5%的准确率,与国家对印刷品万分之二的错误率要求相比,也相差甚远。要提高准确率,需要优化模型算法,更要扩充字库容量,将更多的古文字纳入这个字库。这也是达摩院把汉典重光捐赠给社会的初衷——希望更多的人参与到系统的搭建之中。
“苦恨年年压金线,为他人做嫁衣裳”,这是陈力的微信签名,也是图书馆工作的真实写照。2021年5月底,专家团队和技术团队将再次碰面,商讨古籍数字化的下一步。
南方周末特约撰稿 陆宇婷