古籍数字化加速:互联网企业按下“快进键”

发布时间:2023-10-30 01:31   内容来源:证券之星   阅读量:8457   

历经千载的古代典籍是中华文明源远流长博大精深的见证,然而资金不足、专职人才匮乏、社会化传播不足,一直被业内认为是古籍保护工作面前的“三座大山”。

古籍数字化加速:互联网企业按下“快进键”

10月28日~29日,第二届东亚古籍数字人文国际研讨会在杭州举行。据银柿财经观察,除科研院校、文保机构,包括字节跳动、汉王科技等国内科技企业正越来越深入地参与到古籍的数字化工作中来。当最传统的文化遇上拥有前沿技术的互联网企业,一切就像被按下快进键,一座座崭新的智慧古籍“大厦”拔地而起。

“古籍数字化保护及活化利用,离不开相关行业和社会各界的共同努力。”浙江大学文学院数字人文研究中心主任徐永明会后表示,希望越来越多的企业与高校开启深度合作,助力古籍保护工作跨越“三座大山”。

解决“藏”“用”矛盾

“我们现在已经在部分古籍中把人名、地名和官职等实体进行标注并关联到百科,同时上线了字典释义功能,只要用鼠标或手指点击不认识的字词,就会显示注释。”王宇是抖音集团企业社会责任部古籍产品负责人,此次研讨会他以“识典古籍”为例,介绍抖音集团古籍公益阅读和协作整理平台的设计。

抖音集团能够以公益方式推进古籍修复和活化,对此王宇用三个“有”进行简要概括了原因:“有技术、有平台能力、有社会责任”。

据了解,“识典古籍”由抖音集团和北京大学数字人文开放实验室联合推出,主要应用了三大技术,包括OCR、自动标点和命名实体识别,并增加简繁体转换、底本影像对照、全文检索等一系列便捷功能。

“作为面向大众的公益性古籍数字化平台,‘识典古籍’的使用是没有门槛的,网友不需要注册登录就可免费使用。”王宇称,目前平台已上线古籍1600余部,主要来自《四部丛刊》、二十四史等,累计用户数已超过1240万。到2025年,“识典古籍”将陆续完成一万种古籍的智能化整理工作,基本覆盖儒家、道家和佛学的核心典籍目录。

在岁月的侵蚀下,千百年前的纸张字迹出现了大大小小的破损,即便再小心翼翼的翻阅对古籍来说都无疑是一次潜在的伤害。而数字化技术与古籍保护修复工作的深度融合,很好地解决了古籍文献的“藏”“用”矛盾,既减少了纸书的磨损,也让珍贵古籍“飞入寻常百姓家”,读者得以亲近古籍,感受中华优秀传统文化的魅力。

汉王科技是国内少数拥有满文、藏文等少数民族文献全谱系识别能力及自然语言能力的AI服务商。汉王数字产品方案总监黄岩岩告诉银柿财经,经过多年的探索实践,自己深切体会到我国的古籍信息化建设已经从最初的原生性保护和再生性保护,逐渐转化为传承性保护,即“把古籍里的知识提炼出来,让大家能够理解、参与进来”,而只有这样,才能产生更多创意或创新性发展空间,真正传承我国古代文明中的神韵与精髓。

跨界合作将成趋势

今年9月,国家图书馆组织第八次古籍数字资源联合发布此次发布国家图书馆馆藏“民族文字古籍特藏”和“各地民族文字古籍特藏”“珍秘公天下”3个新建专题库,新增发布古籍资源1672部(件)。至此,全国累计发布古籍及特藏文献影像资源达13万余部(件)。

而与此相对应的,是匮乏的专职人员。据估算,如果完全依靠人力,古籍数字化全部完成还需上百年时间。

好在人工智能在古籍数字化中的应用大大提升了古籍整理的效率。上海福呈数据科技有限公司总经理陈晓扬告诉银柿财经,目前专业数据加工企业先采用OCR识别底本文字,然后采用古籍整理众包工作模式开展底本校对工作,缓解大型古籍整理项目在人力方面的需求的同时,也解决了地域限制和个体时间分散的难题。

陈晓扬报告现场

在徐永明看来,古籍保护已不再是一个冷门的事业,越来越多的人正为此前行。但在古籍数字化项目评审过程中,他注意到部分内容标引错误较多,这一点也遭到学界广泛批评。对此,徐永明直言,古籍整理是专业性很强的工作,在人工智能高速发展的今天,尽管OCR对版刻古籍的识别率已超过90%,但不能只依靠机器,人文社科学者要积极介入,那样才能更好地利用机器而不是被机器牵着鼻子走,从而保证结果的准确性。

“在古籍保护项目中,我们有优秀的产品经理、设计师、软件工程师来做技术优化和迭代,同时也会邀请古籍保护领域的专家和前辈为项目提供指导。”王宇表示。

研讨会现场

银柿财经注意到,其实在“识典古籍”上线之前,文保机构、科研院校与互联网公司的跨界合作已越来越普遍。

“我们的古籍修复团队共有10多人,有参加过国家省级古籍修复中心组织的专业培训班的,也有从事纸质文献整理及保护工作10余年、拥有丰富古籍数字化实践经验的。”杭州中元数据科技有限公司创始人冯立云介绍说,公司自1999年建立初期就和浙江大学、浙江图书馆等建立了长期战略合作伙伴关系,2021年,公司还特别聘请原浙江图书馆国家级古籍修复中心主管阎静书为指导老师。在阎静书的教学指导下,团队成员参与并独立完成多个文献修复项目。

在古籍数字化的大趋势之下,徐永明最后表示,高校如何培养出兼具技术与学术能力的古典文献学人才,如何形成多学科交叉的课程体系,将是眼下亟需解决的难题。

声明:本网转发此文,旨在为读者提供更多资讯信息,所渉内容不构成投资、建议消费。文章内容如有疑问,请与有关方核实,文章观点非本网站观点,仅供读者参考。

热门图文