新中国成立以来最大规模的儒学典籍整理项目《儒藏》近日启动数字化。北京大学表示,《儒藏》“精华编”编纂工作已收官,在全本编纂工作开展同时,专业人员将利用人工智能技术,通过“识典古籍”智能整理平台,开展古籍数字化整理工作。目前,《永乐大典》等超1万部古籍已在平台上线。
因为人工智能的加入,此次古籍数字化的速度将提升。整理者把相关文献的影像上传至平台,人工智能会先进行初步整理,标注出不确定的部分,专业人员再进行校对。北京大学数字人文研究中心副主任杨浩说:“专家不再需要花费大量时间用于机械枯燥的校勘异同,更多的精力可以集中在关键环节上,比如对重点或存在争议的标点、词句等做出更有深度的学术判断。”
“识典古籍”平台还开发了协作整理功能,支持以团队的形式开展工作,节省了沟通成本。目前,该平台部分功能已开放,《永乐大典》等超1万部古籍上线,提供图文对照、分词检索、实体百科等服务。
根据规划,《儒藏》工程先编“精华编”,再编全本。“精华编”收录了中、日、韩、越四国历史上最具影响力和代表性的儒学文献,有将近半数是首次校点整理,填补了学术空白。为确保整理文本的可靠性,专家广泛参考各种古籍目录,走访各大图书馆搜集海内外馆藏善本,于2022年整理完成并出版了《儒藏》“精华编”中国部分510种、282册,总字数近2亿字。《儒藏》全本编纂工作已启动。包括“精华编”在内,中国部分计划收书3000余种,约10亿字,将基本囊括我国历史上有价值的儒学文献。
“识典古籍”平台是北大于2022年牵头推出的古籍数字化平台,已具备版式识别、自动标点、结构整理、校勘等涉及古籍整理的全流程功能,能助力专家和机构提高古籍整理效率。