同盾人工智能研究院发表文档图像最新研究成果,性能

来源:网易新闻

近日同盾科技人工智能研究院在arXiv上发布了最新研究成果,题为基于文本行的文档图像质量评估框架和文本行图像质量数据合成,该研究成果性能达到国际领先水平,已经被即将于今年9月份举办的第15届国际文档分析与识别大会(ICDAR2019)录用。ICDAR是全球文档图像分析识别领域公认的权威学术会议,从1991年起每两年召开一次。

同盾科技文档图像最新研究成果:性能达国际水平

互联网公司的业务流程中经常需要提交一些文档资料进行审核,随着智能手机的普及,通过手机拍照方式上传文档图像已经成为一种主流方式。同时也导致文档图像的数量迅速增加,人工录入和复核文档资料完成业务已经变得异常艰难,因此文档图像的智能分析和识别也变得越来越重要,这也是智能流程自动化(IPA)的核心技术之一。

比如在健康险核赔中,智能化的流程一般会包括如下几个环节:

文档图像采集:用户采集图像上传

文档图像质量评估:系统实时的进行图像质量评估,如果不清晰就直接要求用户重新上传

文档材料分类:对清晰的文档材料进行自动归类

OCR信息提取:对文档进行检测、定位和识别以提取文档信息

信息结构化:用NLP和知识图谱技术对信息进行结构化

智能核赔:从医、药、病、人等几个不同角度分析风险,并自动理算和核赔。

同盾科技文档图像最新研究成果:性能达国际水平

显然,在上述流程中,如果用户上传资料清晰度很差,将会大大降低文档图像OCR的识别精度,进而影响后续的业务流程。所以,很有必要对文档图像质量进行评估,以防止那些低质量的文档图像被上传。

不同与传统的图像质量评估问题,研究人员发现文档图像质量评估则是对文本行范围内的质量更感兴趣。因此论文作者们提出了一种基于文本行的文档图像质量评估框架,该框架由文本行检测、文本行质量预测和文档图像整体质量评估三个阶段组成。

同盾科技文档图像最新研究成果:性能达国际水平

此外,为了训练文本行质量预测模型,该项目合成了一个文本行图像质量数据集,其中包含52,094个文本行图像,并使用分段函数模拟计算对应的质量标签。该算法在目前最难的文档图像质量评估标准集SmartDoc-QA上表现性能优异,超出目前国际上最好的方法10%以上。

乔俊婧 本文来源:网易科技频道 责任编辑:乔俊婧_NBJ11279

【免责声明】

凡本站注明信息来源:“传智汇”的文章均为原创内容,归本站所有,未经允许,不得转载。如需转载,请与传智汇联系,并注明出处,并带上原文链接,违者将追究法律责任。如本站转载稿涉及版权等问题,请作者在15天内速来电或来函联系。

微信 “扫一扫”,您也可以搜索“传智汇”,添加公众号。了解更多活动资讯,行业信息。

快讯 更多
  • 中新社北京6月3日电 (记者 刘育英)3日,官方消息称,中国将于近期发放5G牌照。中国专家表示,中国5G具备竞争优势,中国一直秉持开放、包容、合作、共赢的理念,与全球产业界携手推进5G发展。

    2019年06月04日 02:00:03
  • 工信部消息称,在技术试验阶段,诺基亚、爱立信、高通、英特尔等多家国外企业已深度参与,在各方共同努力下,中国5G已经具备商用基础。近期将发放5G商用牌照,中国将正式进入5G商用元年。

    2019年06月04日 02:00:02
  • 记者获悉,京东旗下二手商品交易平台“拍拍”将与爱回收战略合并,合并后,京东集团将成为爱回收最大的战略股东,京东拍拍二手总经理王永良将出任爱回收合伙人兼联席总裁职位。

    2019年06月04日 02:00:02