攻坚人工智能高难区 汉王科技NLP赛事屡获殊荣

2020-12-31

随着数字经济理念深入人心,各类文本资料的电子化、文本化、结构化需求进一步提升。作为业界早期致力于OCR识别技术研发和应用的公司之一,汉王以手写识别、OCR识别等人工智能图文识别技术为基石,围绕自然语言处理、大数据分析、深度学习等人工智能核心技术,在文本大数据领域深耕拓展,一路向前。

就技术层面来说,文本大数据,主要以OCR识别技术及NLP技术为主线。利用OCR识别技术进行文档电子化,但其产生的只是非结构化的文档,要将海量的电子文档智慧化,就必须将文字信息形成结构化数据,使信息和知识之间形成关联,才能为大数据应用服务,这就要用到NLP自然语言处理技术。NLP研究机器对人类语言处理的问题,从语音识别、信息抽取与检索,到语义理解、人机对话等,被认为是人工智能中高难的部分,也是大量AI智能化应用场景的关键要素。

为寻求突破,汉王科技自2016年起就积极与武汉大学自然语言处理团队合作,共同攻坚核心的NLP技术,建立起了包括文本分类、聚类、结构化数据抽取、知识抽取、知识图谱、文本摘要、机器问答等在内的跨NLP各个子领域的全技术链体系,并取得骄人成绩。在2020年全国知识图谱与语义计算大会(CCKS 2020)“评测任务 面向金融领域的小样本跨类迁移事件抽取”中,汉王挺进赛事前三。而近期举办的第9届NLPCC会议上,汉王科技参赛团队再次进入“开放评测任务3:自动抽取”比赛的前三甲,将汉王在大数据领域的技术前沿与积累展示在众人面前。

在OCR与大数据应用领域,汉王科技的业务可以说是遍地开花。依托在文档分析与文字识别方面数十年的研发经验和数据样本积累,汉王推出新一代人工智能、大数据领域的应用平台,主要利用内嵌的各人工智能模块来实现模式识别和自然语言处理等技术在多领域的落地。从其在档案领域的应用来看,通过深度学习训练出一套仿照人眼断字的切分模型,可成功解决档案识别中常见的复杂版式、重度噪音干扰、手写字体、低分辨率图像等高难度识别问题。该系统为档案数据由“图像化”向“文本化”转换提供了捷径,可以说是国家档案大数据战略的关键一环。

司法领域,通过对卷宗档案的智能分类、卷宗档案的全文识别、卷宗档案的自动抽取及回填、证据要素的自动检出这几大核心能力的部署,解决了“卷宗数据采集”这一困扰行业多年的难题,从而帮助检务人员从繁琐的数据采集录入工作中解放出来。

而在数据已经成为核心资产的金融行业,银行技术部门和数据管理部门遇到的一大难点是各部门面临数据缺失、数据质量等问题,而AI技术,特别是OCR、NLP和大数据技术的运用,可则以实现准确、及时、合理成本的进行数据采集,充分挖掘数据在风控、业务智能化的价值。当前,汉王的OCR技术全面采用深度学习算法,可对脱机手写体汉字、数字及字符串,甚至复印件、低分辨率下的票据分类及内容条目进行高可靠度的机器自动识别,大幅度降低人工成本。应用于银行领域,可以对银行系统存单/储单,内部流转票据等金融票据进行处理,从而有效解决易混淆字符的准确区分、识别区域漂移、重叠等识别难题,如表格形变,打印或填充部分与原文字部分重叠。

此外,汉王的OCR识别技术在古籍识别方面得到应用,借助汉王OCR识别技术可以对古籍进行识别与收录,再辅之以图像的整理与美化,能快速高效地完成古籍保护,有助于推动文化遗产保护和科普的事业。目前,汉王已经成功识别了《水经注》、《明宫词》、满文朱批奏折以及多份地方志及家谱。