字节跳动携手北大 搭建一座特别的“图书馆”

小熊在线 有毒的西瓜 | 2022年03月17日
字节跳动携手北大 搭建一座特别的“图书馆” ......

3月17日,字节跳动向北大教育基金会提供捐赠,全面支持“北京大学-字节跳动数字人文开放实验室”的工作,研发古籍数字化平台,搭建一座古籍“智能化数字图书馆”。双方将携手合作,优势互补,通过古籍数字化,保护、整理珍贵的中华文化资源,并推动这些资源向公众开放。

这个平台将分成两部分:

(1)面向读者的数字化古籍阅读工具

“北京大学-字节跳动数字人文开放实验室”将调动国内外的相关力量,在三年内完成一万种精选古籍的智能化整理工作,基本覆盖儒家、道家和佛学的核心典籍目录,为读者提供开放的古籍“数字图书馆”。另外,通过文本数字化,这些古籍将能够进行全文检索,不再需要一页页从头看起。

(2)开放的古籍数字化智能整理平台

如果你有收藏的古籍,这个平台能够帮你把纸页变成可查找的电脑文本。通过智能平台的文字识别、校对工具,学者和爱好者可以在线上平台一站式完成古籍的整理工作。

另外,平台还将在迅速数字化大量古籍的基础上,对重点文本进行精校,满足专家学者对常用资料的准确度要求。

通过古籍数字化实现“穿越”的背后,离不开科技的支持。让古籍变成可检索的文本一直面临诸多难题。古籍常常字迹不清,存在许多生僻字和异体字,语法、书写规律等也都与现代书籍不同。在“北京大学-字节跳动数字人文开放实验室”中,多种先进技术正逐步解决这些困难:

OCR(光学字符识别)技术类似于一种智能扫描仪,先用电子设备检查纸上每个字的形状,再用字符识别方法,把这些字一个个“认”出来,并转换为电脑能够处理的文本。

句读对于古籍数字化也十分必要。古籍的“标点符号”——句读,与现代汉语差异很大,有的版本甚至没有句读,要靠算法帮忙断句。这需要数字化平台更智能,具有更高的语言处理能力。

实体识别是另一种重要的技术。古籍中存在大量的人名、地名、物品名等“实体”词汇,地方志、中医著作等类别的古籍,也常常具备自己的“专属词库”。要实现古籍搜索,这些实体就会成为检索的关键词,平台将通过算法把这些实体识别出来。

当然,这些技术的实现基础,是庞大的古籍修复与整理工作。这项工作仍然需要通过人工,用一张张纸、一支支板刷来完成。


用户名:  密码:  没有注册?
网友评论:(请各位网友遵纪守法并注意语言文明,评论仅供参考不代表本站立场)