汉王OCR-赋能国家档案大数据战略

2019-11-01

10月底,由中国档案学会主办的“全国档案新技术新产品展示会”在京盛大召开。国家档案局局长李明华、副局长付华、中国档案学会理事长段东升、中国档案学会秘书长邓小军、故宫博物院院长王旭东、第一历史档案馆馆长孙森林等领导参与了本次展示会并在“全国档案馆馆长论坛”上做了重要报告。

汉王科技旗下子公司汉王数字携新科研成果“汉王档案全文识别系统”在本次档案展示会上精彩亮相,这是近年来汉王科技在人工智能领域的又一力作。

依托汉王在文档分析与文字识别方面数十年的研发经验和数据样本积累,科研人员利用深度学习技术训练出一套仿照人眼断字的切分模型,并成功解决了档案识别中常见的复杂版式、重度噪音干扰、手写字体、低分辨率图像等高难度识别问题。该系统为档案数据由“图像化”向“文本化”转换提供了捷径,必将成为国家档案大数据战略的关键一环。

2018年10月,国家档案局颁布了《机关档案管理规定》,第四十九条提出“机关应当积极采用数据分析、文本挖掘等新方法,扩展档案开发的力度和深度”。由于全国档案数量巨大,一直以来,档案文本内容数字化都面临着成本高、效率低、周期长的困境。“汉王档案全文识别系统”的推出,可以很好的解决这一长期困扰档案行业的普遍性问题。