环球首页 国内·国际·言论 | 经济·财富·科技 | 社会·文化·生活·其他 | 专栏 | 过刊检索 | 关于我们 | 环球广告
数字化助力古籍回归与再造
  新华网 ( 2021-09-24 07:27:35 ) 来源: 《环球》杂志
 

 

6月17日,国家图书馆古籍修复人员在修复画谱

  通过古籍的数字化和公开化,让古籍在世界范围内免费流通,可以产生高效的新型学术研究环境。同时,通过对古籍图像做文字识别和文化字,也可以建立起庞大的古代文献全文数据库,揭示历史和文明发展的脉络。

《环球》杂志记者/乐艳娜

  “明珠还于合浦”,这是日前广东省立中山图书馆联合国家图书馆(国家古籍保护中心)共同举办的“珠还合浦 历劫重光——《永乐大典》的回归和再造”展览的主题。在这次展览中,让参观者印象最深刻的,恐怕要数《永乐大典》数据库。

  这一数据库利用国家图书馆出版社高清仿真影印的成果,首次集中发布多家国内外收藏机构所藏《永乐大典》的高清彩色图像,辅以图文对照、版式还原、全文数字检索等功能。

  数字化呈现的方式,让《永乐大典》以特别的方式“回归”,并得到了再造。专家表示,尽管古籍数字化仍处于初步探索阶段,但其对古籍的保护和利用已经起到诸多积极作用。古籍这一中国文脉的骨干,经历战乱和天灾留传至今,述说着中华文明绵延数千年的脉络,借助最新的技术手段,完全有可能给我们揭开更多人类文明的秘密。

发现《瀛壖杂志》

  “19世纪以来,不少中文古籍稿钞校本流传到了西方国家,被海外图书馆收藏,其中不乏稀世之作,它们是中华文明的宝贵遗产。中国的学术思想和文化精髓亦借着这些典籍传播推广到西方诸国。今天,我们把一些珍贵罕见的历代稿钞校本编辑重印,以崭新的面貌将这些珍贵文书送回它们的故国,嘉惠学界,并使这些文化珍宝得以传延后世。这是一件重要而有意义的事情。”

  2013年8月,《柏克莱加州大学东亚图书馆藏稿钞校本》由上海古籍出版社正式出版。加州大学伯克利(即柏克莱)分校东亚图书馆馆长周欣平在序言里这样写道。

  他指出,加州大学伯克利分校的中国藏品有三个来源:一是英国人傅兰雅于1896年捐赠的2000余册中文图书,大多是明清刊本,最重要的是他在上海江南制造局主持翻译的100余种西文科技著作;二是华人学者江亢虎于1916年捐赠的1万余册在义和团运动中幸存下来的图书;三是二战后采购的日本三井文库中的10万余册中日韩文古籍善本。

  在这些藏书中,有一套清末文人王韬的《瀛壖杂志》。王韬先后游历英、法、俄诸国,鼓吹维新变法,中法战争时到上海任《申报》编辑。在《瀛壖杂志》中,王韬以体验式的姿态记录了上海的城市变迁与文化转型,该书也因此被称为“缩本上海志”。1989年,上海古籍出版社出版了这一作品,但他的手稿初稿,却直到东亚图书馆这套书出版才被人们得知,原来藏在伯克利。“此稿多有校改增补,且有友人拜读题识,可窥见其成书问世之经历”,周欣平介绍说。

  8年后,“汉典重光”项目使伯克利收藏的中文古籍以数字化的方式“回归”中国,周欣平亲手挑选的首批善本里,就有这套《瀛壖杂志》。

  “汉典重光”海外古籍数字化回归与研究整理平台由四川大学、阿里巴巴集团公益基金会、美国加州大学伯克利分校联合发起,将藏于伯克利的20万页古籍善本数字化,并在平台免费共享,其中包括40余种珍贵宋元刻本、写本,明清至民国时期知名学者的抄本、稿本,以及著名藏书楼嘉业堂、密韵楼的抄本等。

  “我在伯克利,每年都要接待来自世界各地的学者,他们不远万里坐飞机来到这里,舟车劳顿、费时费力,就是要在东亚图书馆查阅古籍善本和特藏资源。如果我们把这些古籍放在网上公开了,任何人在任何时间都可以免费使用,24小时不关门。这将方便读者,大大提高学术研究的效率。”周欣平谈到这次数字化古籍项目时,对《环球》杂志记者表示。

  在他看来,通过古籍的数字化和公开化,让古籍在世界范围内免费流通,可以产生高效的新型学术研究环境。同时,通过对古籍图像做文字识别和文字化,也可以建立起庞大的古代文献全文数据库,揭示历史和文明发展的脉络,“比如,要知道历史上土豆是什么时候被引进中国的,以往需要从浩如烟海的古籍中寻找相关证据,现在通过对海量数据文本的检索,利用机器助力,很快就能找到明确答案,拿出有力证据,开阔视野。”

古籍数字化难题

  在周欣平看来,建立古籍善本数字公共平台,除了方便研究者,最重要的是可以打破资源封闭、文献孤立的局面。“以前传世文献是孤立收藏。不同典藏机构‘井水不犯河水’,这其中还存在各家把自己的古籍藏起来、相互封锁的问题。今天,通过把大规模的传世文献数字化、公开化、社会化,可以凝聚各方力量和资源,打破封闭状态。这不仅会使大量宝贵的公共资源自由流通,惠及社会,还会促进文化传承。在网络化的环境下,大量中华存世文献将得到整体保护和延续。这是我们必须要走的路。”

  这一点为中央文史馆馆员、国家图书馆原常务副馆长陈力所认同。在他看来,中国古籍数字化的探索早在上世纪八九十年代就开始了,已取得了长足进步。最开始,是利用计算机系统进行古籍编目。再往前,要查询古籍,必须本人到藏书机构去翻阅卡片式目录,但是“像国家图书馆,普通古籍有超过一半连卡片目录都没有,意味着读者根本不知道国家图书馆有这些文献”。

  陈力回忆道,他在国家图书馆的第一项工作,就是3年内将164万册普通古籍全部进行计算机编目。“每天都是上百人一起忙,3年后,国家图书馆所有的古籍都能用计算机查询,系统也是向全世界开放的。古籍阅览室的读者原来每天只有几位,有了查询系统后,位子一下子全被坐满。”

  此后,就是对古籍进行数字化扫描,也就是把纸质书图片化,其中最大的工程是把地方志数字化,另外还包括对碑帖、甲骨文、年画、西夏文等的数字化,并开始了对一些书目文本的数字化识别。

  如今,打开中国国家图书馆的网页,专门有一栏是古籍,里面整合了多个数据库,读者可以在此轻松查找多册古籍。国家图书馆还联合了一些社会力量,比如头条新闻,来共同进行古籍数字化建设。此外,一些社会组织也整合了他们能够找到的古籍资料,并进行数字化,比如国内著名的数字图书馆书格,日前迎来了8周年创建纪念日,其汇集的资源大多数来源于海外,包括哈佛大学图书馆、日本国立国会图书馆等,依靠的是这些机构的开放共享机制。

  但这对于专业读者和研究者来说,显然还不太够。据悉,现在全国按照分级保护制度对古籍进行管理,分为国家珍贵古籍、省珍贵古籍和双非(未入选前两项)三级。其中,国家珍贵古籍的整理和数字化做得最好,但这部分古籍的比重很小,相当于金字塔尖,而且对外公开不够。

  “双非”普通古籍的数字化也存在颇多问题。据陈力介绍,除了古籍爱好者和研究者零星的数字化工作外,成规模的古籍数字化主要由三类机构进行:教学和研究机构、图书馆和商业机构。教学和研究机构的数字化对象选择目的性较强,主要是根据教研工作需要来决定目标和方法,比如中国社科院就对《全唐诗》《先秦魏晋南北朝诗》等古籍进行过数字化;图书馆主要对其馆藏进行数字化;商业机构数字化的内容由市场决定,因此常常会选择大型丛书,如《古今图书集成》《四库全书》等。

  陈力告诉《环球》杂志记者,目前中国的古籍数字化存在的一大问题是焦点过于集中,重复建设。古籍的数字化集中于少数常用特别是丛书类的古籍,比如文渊阁《四库全书》就先后有很多机构进行了影像、文本的数字化,像二十五史这类规模稍小但常用的文献,数字版本更多。由于制作单位不同,各自利益不同,古籍数据库往往是封闭的,在技术上很难与其他数据库融为一体,造成知识体系的割裂。而且很多机构自行设定了相关的数字化加工与组织标准,行业缺乏通行的工业标准。

  四川省图书馆古籍部副主任杜鹃也表示,数字化是解决古籍保护存放与利用二者矛盾的根本技术手段之一,但当前国内古籍数字化程度较低。以四川为例,古籍数字化的比例仅为千分之五左右,且数字化文件格式类型多,标准不统一,在分辨率和色彩还原度等方面都没有一致的标准。

“把古文字向量化”

  在缺乏统一标准的情况下,一部分人想的是:先做起来。“汉光重典”就是这样一个颇具野心的项目,它分工明确:采集侧把纸质书变为影印版,数字化生产侧把影印版变为文字版,应用侧为文字版增加检索、字典和知识图谱等研学系统,用现在人工智能的术语来说,就是“把古文字向量化”。

  提到把影印版资料变成文字版,大部分人都能想到OCR,它是指电子设备检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。各大互联网平台推出的这类图像变文字的软件系统,对现代文字的识别率可以达到99.9%。但在古籍图像面前,它的识别率只有40%甚至更低。

  原因是多方面的,首先古籍的载体极为丰富,包括纸、布、竹子、木头、甲骨、石碑,不同载体上的字识别起来差别非常大。其次,就算写在纸上,年代久远的纸张不仅残破变色,而且布满斑点,排列复杂,中间可能还夹杂着各种批注。再次,隶书、楷书、草书、行书等多种手写字体,一个人写同一个字,可能也有多种写法。

  “汉光重典”项目背后的技术人员尝试解决这一问题的方法叫做聚类,就是把同一字的不同写法聚到一起,重复的字不再进行标注,这是这一理念首次用于古籍领域。为此,四川大学专门组织了20多个历史系学生来给字做标注。项目从2019年进行到2021年,3万多字类再加上自适应算法的几轮迭代,才终于使识别正确率达到97.5%。

  识别正确率上升的同时,通过单字检测、无监督单字聚类、小样本学习、主动学习等机器学习方法,一套边识别古籍、边训练模型的系统被建立起来。以一本100万字的古籍为例,如果全靠专家录入,每人1000字/天,需要1000天。如果用这套古籍识别系统,只需要35天,效率提升了近30倍。

  这与许多古籍数字化系统的开发殊途同归,都是在从图像里识别单字,使之变成可编辑可检索的东西。“在此基础上,AI系统还可以做一些系统分析。人的语言使用是有习惯的,可能会经常使用某一个字或词,比如用AI分析《红楼梦》前80回和后40回,就可以通过信息的分析、挖掘和统计来判断后40回到底是谁写的。”陈力说。

  “汉典重光”技术负责人、阿里达摩院视觉实验室负责人徐盈辉告诉《环球》杂志记者,目前全球范围内还有大量中文古籍没有实现数字化,用现存的古籍数据来构建一个超大规模文本的自学习语言模型,还没有办法做到,也就是说现在虽然可以进行单字单词的全文检索,但想要通过单字单词进行相应关联的搜索,挑战仍相当大。

  徐盈辉希望,通过“汉典重光”平台以及其他数据库对公众的免费开放,能够实现全社会一起来研究和解决古籍数字化中的难题,让古籍真正成为传承中华文脉的骨干。

来源:2021年9月22日出版的《环球》杂志 第19期

《环球》杂志授权使用,其他媒体如需转载,请与本刊联系

本期更多文章敬请关注《环球》杂志微博、微信客户端:“环球杂志”

 请注意:



·遵守中华人民共和国有关法律、法规,尊重网上道德,承担一切因您的行为而直接或间接引起的法律责任。
·新华网拥有管理笔名和留言的一切权利。
·您在新华网留言板发表的言论,新华网有权在网站内转载或引用。
·新华网新闻留言板管理人员有权保留或删除其管辖留言中的任意内容。
·如您对管理有意见请向留言板管理员反映。

发表评论: 用户名 密码 匿名

 查看评论
放大字体
缩小字体
打印本稿
查看评论
推荐给朋友:
  相关新闻:
新华网版权与免责声明:

 
凡本网注明"稿件来源:新华网"的所有文字、图片和音视频稿件,版权均属新华社和新华网所有,任何媒体、网站或个人未经本网协议授权不得转载、链接、转贴或以其他方式复制发表。已经本网协议授权的媒体、网站,在下载使用时必须注明"稿件来源:新华网",违者本网将依法追究责任。
本网未注明"稿件来源:新华网"的文/图等稿件均为转载稿,本网转载出于传递更多信息之目的,并不意味着赞同其观点或证实其内容的真实性。如其他媒体、网站或个人从本网下载使用,必须保留本网注明的"稿件来源",并自负版权等法律责任。如擅自篡改为"稿件来源:新华网",本网将依法追究责任。如对稿件内容有疑议,请及时与我们联系。
如本网转载稿涉及版权等问题,请作者在两周内速来电或来函与新华网联系。

订阅本刊
本刊通用网址:环球杂志
  • 如果您对《环球》杂志的稿件有任何意见及建议请与我们联系。
  • 编辑部电话:
    010-63077031
  • E-mail:
    globe1980@vip.sina.com
  • 社址:北京市京原路8号新华社第二工作区
  • 邮政编码:100040
  • 对外合作:
    010-63077015
  • 传真:010-63073516
  • 总 编 辑:冯瑛冰
  • 执行总编辑:卞卓丹
  • 《环球》杂志
    新华通讯社主管
    瞭望周刊社主办
    环球杂志社编辑出版
    ·全彩半月刊
    ·出版日期:每月1日/16日
    ·国内统一刊号:CN11-1273/D
    ·邮发代号:2-511
    ·国外邮发代号:SM341
    ·国内订阅:
    全国各地邮局均可订阅 本刊随时办理邮购
    ·全年订阅价:192.00元
    ·国内零售:
    全国各大中城市报刊摊点/地铁/机场/书店等均有销售
    ·零售价:8.00元
    ·国外总发行:
    中国国际图书贸易总公司(北京399信箱)
    ·海外定价:US $6.00元 HK $25.00