近期,京东AI研究院视觉技术团队在ICDAR 2015 Incidental Scene Text自然场景文字检测竞赛中刷新世界最好成绩,以91.67%的Hmean指标排名第一。继京东AI语音语义技术团队在WikiHop 机器阅读中斩获桂冠之后,视觉技术团队再次在国际顶级竞赛中折桂。早在今年8月,该视觉技术团队同样斩获了ICDAR 2017 MLT竞赛的第一名。
(2019年8月ICDAR 2015竞赛结果榜单,京东人工智能(JDAI)排名第一)
(2019年8月ICDAR2017 MLT竞赛结果榜单,京东人工智能(JDAI)排名第一)
ICDAR(International Conference on Document Analysis and Recognition)作为OCR领域全球最具权威性的比赛之一,被称为OCR领域的“奥斯卡”,竞赛包含一系列自然场景下的文字检测与识别任务,具有挑战性的场景、大量的公开训练与评测数据,以及公正的评测标准,使该赛事成为了全球众多先进学术研究团队评测算法追逐的竞赛。
面对海量信息的今天,我们不仅仅需要高效的甄别出有效信息,有时还要帮助这些信息突破不同载体的限制,“重现”在不同所需的地方。而OCR(光学字符识别Optical Character Recognition),就是利用人工智能范畴中计算机视觉技术对不同载体上的文字进行检测识别,比如:商品信息、身份证、护照、驾驶证、银行卡、发票、营业执照、车牌等不同载体的文字信息。近年来,OCR技术引起了广泛的关注,原先需要人工耗时几分钟的录入工作,现在仅需3-5秒即可完成,显著提升了办事效率并降低成本。
京东集团副总裁、京东人工智能事业部总裁、京东人工智能研究院院长周伯文博士表示:“人工智能的进化速度,不仅取决于算力的提升、算法的迭代,海量丰富的数据更是推动算法进化,让AI逼近真实场景的决定性因素。京东人工智能成长于京东多年来积累的海量真实场景、海量用户需求、海量真实数据打磨而成。目前,京东AI的OCR技术已在京东商城和京东物流中大规模应用,旨在降低成本、提高效率、提升用户体验。而AI在实际场景中的大规模应用,同样会反哺AI的进化,形成良性的正向循环价值。”
除此之外,OCR技术还在被广泛应用到各个领域。从名片、发票、银行卡等票据的数字化到线下实地商店索引,路标路牌识别,再到电商场景中图片、视频文字内容理解与内容安全审核,OCR技术在人们的日常生活中都发挥着越来越重要的作用。在ICDAR 2017 MLT和ICDAR 2015两项自然场景文字检测的两项竞赛中,数据集包含各种复杂的自然场景,如物体遮挡、光照影响、运动模糊等,同时文字多样的尺寸和倾斜角度、严重透视变换、字体颜色变化也富有挑战性。其中,ICDAR 2017 MLT竞赛中甚至包含中、日、韩、拉丁(英、法、德、意)、阿拉伯和孟加拉等9种语言,对算法的泛化能力进一步提出了更高的挑战。
ICDAR2017 MLT和ICDAR 2015文字检测竞赛图片样例
据京东AI研究院研究员介绍:“ICDAR 2017 MLT和ICDAR 2015竞赛中的诸多挑战,我们首先将场景文本检测任务定义为一类实例分割任务,采用深度神经网络提取多尺度的特征;提出文本语义与形状注意力模块,进一步为特征引入了文本语义与形状的监督;再通过铺设密集的锚点框的方式,获取尺寸多变的文本;最后通过全卷积网络获取文本区域。同时,通过分析场景文本的特性,设计了更适用于场景文本检测数字增强方法,并设置了适应场景文本尺寸变化的锚点框与后选框分配策略。”
目前,京东AI已将OCR以及一系列的AI能力上线到到京东人工智能开放平台 NeuHub 之上,旨在将京东通过实战打磨而成的AI能力,向全行业的伙伴、个人开发者等全面开放,携手伙伴共建共享AI的福祉。在2019年618全球年中购物节期间,NeuHub 平台的累计调用量达到 237.66亿次。
与此同时,京东AI在计算机视觉领域的应用远不止于此,据了解京东AI正在快速推进视频领域的AI研究,布局图像及视频领域更广泛的AI应用。例如:利用视频分析技术提高融媒体的内容审核效率,利用计算加速和模型加速降低融媒体生产、审核、编辑和消费的成本,提升用户在5G时代对融媒体的消费体验。
|