识典古籍是抖音公益与北大合作共建的古籍阅读平台,致力于为用户提供免费公开、稳定、快速、方便的检索和阅读古籍的服务。
目前,平台涵盖390部经典古籍,主要来自《四部丛刊》,共计3000多万字,向公众免费开放。未来三年,识典古籍将陆续完成一万种古籍的智能化整理工作,基本覆盖儒家、道家和佛学的核心典籍目录,届时也将全部免费开放。
平台当前主要使用了三种技术,包括文字识别、自动标点和命名实体识别。文字识别技术,是对古籍的影印版文字进行单个切分,再进行文字识别和顺序识别。自动标点技术,是通过序列标注的方式对古籍自动进行标点划分。命名实体识别技术,则是通过序列标注识别文本中的人名、地名、书籍、时间、官职等信息。
识典古籍页面简洁,识别准确率高,浏览流畅,提供影印底本作为参照,还具备主题词检索和繁简体转换功能。未来,识典古籍将向全社会开放古籍阅读检索研究能力,还将实现全自动整理校对,更高效地实现存量古籍全部数字化。同时,平台也鼓励拥有文献的学者自行上传文献,用户甚至可参与再创作和再阐释,助力古籍文化传承和研究。