您的位置: 小王聊社会 > 多肉

AI综述专栏 | 复杂环境文字识别技术研究及应用进展

2020-02-14来源:小王聊社会
关注微信公众号:人工智能前沿讲习,
重磅干货,第一时间送达


AI综述专栏简介

在科学研究中,从方法论上来讲,都应先见森林,再见树木。当前,人工智能科技迅猛发展,万木争荣,更应系统梳理脉络。为此,我们特别精选国内外优秀的综述论文,开辟“综述”专栏,敬请关注。


作者简介

殷绪成,北京科技大学教授、博导,计算机与通信工程学院副院长、计算机科学与技术系模式识别与人工智能技术创新实验室主任,分别于1999年和2002年在北京科技大学计算机系获得学士和硕士学位,2006年博士毕业于中国科学院自动化研究所,IEEESenior Member,中国图象图形学学会文档图像分析与识别专委会秘书长、中国自动化学会模式识别与机器智能专委会委员、中国计算机学会计算机视觉专委会委员、中国人工智能学会模式识别专委会委员。主要研究领域包括文字识别、模式识别、计算机视觉、机器学习、信息检索和数据挖掘,近5年来在中国计算机学会推荐的国际期刊和会议上以第一作者/通讯作者发表论文五十余篇,连续三届(2013、2015和2017年)荣获国际文档分析与识别大会技术竞赛文本检测和文本识别等8项冠军,连续三年(2015、2016和2017年)荣获国际文本语义检索与问答技术挑战平台BioASQChallenge多项第一名,已经与国内国际著名移动/互联网/IT企业(腾讯、三星、西门子、富士通、科大讯飞、汉王等)进行广泛和深入的合作研究与创新应用。

AI综述专栏 | 复杂环境文字识别技术研究及应用进展

殷绪成


金连文,1991年毕业于中国科技大学无线电系获学士学位,1996年于华南理工大学获博士学位。2006入选教育部新世纪优秀人才。目前为华南理工大学二级教授,博士生导师,兼任中国图像图形学学会常务理事、中国图象图形学学会“文档图像分析与识别专委会”主任、中国自动化学会模式识别与机器智能专委会委员、中国人工智能学会模式识别专委会委员、CCF计算机视觉专委会委员等职。主要研究领域为文档图像分析与识别、手写文字识别、场景文字检测与识别、深度学习、模式识别、计算机视觉等。发表SCI期刊论文50余篇(其中ESI高引论文4篇),主流国际会议论文100余篇,获得发明专利授权43项,作为主要成员荣获省部级科技奖励5次。

AI综述专栏 | 复杂环境文字识别技术研究及应用进展

金连文


导读

文字识别是模式识别的一个重要分支,也是机器学习、人工智能的一个经典主题,其任务是研究如何使计算机能够“识字”,即自动辨识来源于纸质文档、图像视频、照片、触摸屏、手写板或其它设备的文字,在文字录入、人机交互、历史文档检索、网络图像与视频内容安全管理、文化大数据应用、数字移动服务、智慧城市建设等方面具有重要的应用价值。当计算机对通过扫描或拍照得到的图像视频中的文字进行识别时,称为脱机字符识别;当计算机对在线移动轨迹(如手写笔)构成的文字进行识别时,一般称为联机字符识别。

通过几十年的文字识别、文档分析与识别持续研究,特别是近几年模式识别、机器学习、深度学习等新技术与新手段的涌现,复杂环境下的文字识别理论、方法、技术与系统等各方面取得了重要的突破[19; 20; 24]。本文将对近些年来基于图像视频的复杂环境文字识别主要技术进行概述性的总结,并突出复杂环境文字识别技术的重要应用及其关键问题(如大规模网络图像视频的文本识别技术及应用),希望能够引出文字识别技术研究及应用的发展方向。

AI综述专栏 | 复杂环境文字识别技术研究及应用进展

图1. 复杂环境文档图像及文字样本(网络图片、场景图像和网络视频).

这里的复杂环境(如图1所示)是指图像复杂背景(如自然场景图像和网络图片)、或者图像复杂前景(复杂文档本身,如历史文档和自然手写文本)、或动态复杂视频(如网络视频和监控视频)。

本文首先将从三个方面来概述复杂环境文字识别主要技术,包括:

  1. 复杂文档分析与识别技术,
  2. 场景文本检测与识别技术,
  3. 网络图像视频文本识别技术。

然后,我们将讨论复杂环境文字识别技术的典型应用,既大规模网络图像视频的文本识别技术应用;

最后,尝试给出复杂环境文字识别技术的应用趋势。


1.复杂文档分析与识别技术

基于扫描图像的复杂文档识别(历史文档/自由手写文本识别),其任务是对复杂文档图像进行版面分析,提取文本区域,从而进行精准的文字识别,在个人笔记、档案、历史文档、票据的数子化、文化大数据等方面具有重要的应用前景。复杂文本分析与识别技术的挑战性主要来自于历史文档本身的高度复杂性和自由手写文本本身的多样性。

历史文档图像分析与识别的一种核心问题为版面分析。版面分析主要包括文档基线检测、文本行分割和文档页分割。传统方法一般采用自底向上的启发式方法,序列处理上述三个任务,依次对字符、基线、文本行、段落和文档页进行检测、提取与分割[15]。针对复杂历史文档的版面分析,Xu等人提出了基于全卷积网络的多任务版面分析方法,构建统一的全卷积网络模型,同时对上述三个任务进行学习和处理,取得了良好的效果[14]。

自由手写文本行识别是对一个自由手写的文本行或句子同时进行字符切分和识别。由于字符大小、间距不规则,有些字符多部首,有些字符之间粘连等因素,字符切分和识别不能分开进行,否则不能正确切分。一般的做法是对文本行过切分成小的片段,每个片段是一个字符或部分字符,相邻片段合并生成候选字符,用字符识别器对候选字符分类。分类结果与语言上下文、几何上下文(候选字符外形位置特征及相互关系)结合对所有的候选切分方式(路径)进行评价,搜索最优路径得到切分和识别结果。近年来,结合深度学习的自由手写字符及文本识别技术成为主流技术,充分利用卷积神经网络(Convolutional Neural Networks, CNN)的特征学习和递归神经网络(Recurrent Neural Networks, RNN)的序列学习来识别复杂的自由手写文本[28; 29; 30]。

2. 场景文本检测与识别技术

场景文本识别是利用人工智能与模式识别技术,使计算机、智能手机等能够像人一样认识自然界中普遍存在的文字,在数字移动服务、信息检索、智慧城市等方面具有重要的应用价值。一般而言,场景文本具有极大的多样性和明显的不确定性,诸如多语言文字、不同的文字大小、不同的字体、多样的文本与背景颜色、多变的光照与亮度、多方向与形变文本等。近十年来,场景文本检测与识别成为国际国内模式识别、文档分析与识别、计算机视觉等领域的热点研究课题。这里主要介绍近几年基于深度学习的场景文本检测与识别技术。

2.1.场景文本检测技术

基于深度学习方法的自然场景文字检测技术可分为以下几类:字符级、单词级、文本行级和基于目标分割思想的文本检测技术。字符级文本检测技术构建鲁棒性强的字符检测器,提升字符检测的召回率,并利用文本结构分析与学习来进一步完成词和文本行的检测[12; 5]。单词级文本检测技术主要借鉴了近些年基于深度学习的目标检测技术,构建基于深度学习的词检测器,直接在图像中检测词区域。而文本行级文本检测技术,则采用从粗到细的策略检测文本块,利用显著图分析等方法定位出文本行[22]。基于目标分割思想的文本检测技术,利用近些年基于深度学习的目标分割技术,利用分割信息和回归方法,融合注意力机制[3]、文本区域掩码分析[2]、位置敏感信息[7]或区域边界学习[13],来完成场景文本(包括多方向和曲线文本)的检测。

其中,单词级文本检测技术一般又可以分为两个子类:两阶段文本检测和单阶段文本检测技术。两阶段文本检测技术,主要来源于RCNN和Faster RCNN两阶段目标检测方法,包含Region Proposing和RegionClassification两个阶段(RegionClassification又可分为Summarizing和Refining);这类技术根据文本区域的特性,对Region Summarizing/Refining进行针对性的改进,主要方法包括RRPN[8]、DeepTextSpotter[1]和FE-RPN[21]等。单阶段文本检测技术,则借鉴了SSD和YOLO等目标检测方法,把文本定位与目标分类放在同一个阶段进行学习,来检测场景图像中的各类文本,主要方法包括EAST[25]、DDR[4]和RRD[6]等。

2.2.场景文本识别技术

自然场景文本识别方法大体可以分为基于CNN+RNN+CTC的识别方法,和基于Attention机制的识别方法。基于CNN+RNN+CTC的识别方法通过CNN提取特征和RNN时序(空间)信息建模,利用CTC损失函数训练,建立特征与标签的对应关系,来识别词和文本行[27]。基于Attention机制的识别方法,则利用Attention机制,在文本序列识别过程中关注不同区域/不同位置,正确对应特征空间和标签空间的关系。近年来,一些技术利用基于Attention机制的识别方法,结合文本几何特性,来识别自然场景中的不规则文本[17]。

3. 网络图像视频文本识别技术

互联网上存在着海量的文档图像、场景图像、广告图片和复杂视频。图像中的文本检测和文本识别技术,可以使用前面描述的复杂文本识别技术和场景图像文本检测识别技术。这里重点讨论基于跟踪的网络视频文本检测与识别技术。大规模网络图像视频的背景、文字(前景目标)、噪声等复杂性严重制约着基于(单帧)图像的传统文本检测与识别方法的效果;同时,由于文字目标的特殊性,传统视频目标跟踪方法无法适用于视频文本跟踪检测。如何充分利用空间和时间信息,利用跟踪技术提升检测与识别性能,是近些年复杂视频文本检测与识别研究的主要方向[20]。

在视频文本跟踪方面,Zuo等人提出了基于多种多目标跟踪策略融合的文本跟踪方法,能够较好地跟踪自然场景中的文本目标[26]。Yang等人设计了一种基于网络流的视频文本跟踪方法,利用最小代价流算法来关联跟踪不同图像帧中的文本目标[18]。最近,Pei等人重点关注跟踪过程中的模板匹配,把模板匹配看作一个图匹配问题,充分利用目标在不同帧中的关联,解决了复杂场景视频中文本目标匹配错误问题[9]。

在基于跟踪的视频文本检测方面,Tian、Yang等人首次引入多目标跟踪技术,设计了基于多策略融合的文本目标跟踪方法,构建了基于动态规划的场景视频文本检测统一框架,较好地利用文本跟踪与识别结果来提升文本检测性能[10; 16]。Yang等人使用全连接卷积神经网络来检测图像帧中的文本区域,并利用基于网络流的跟踪技术,来跟踪场景视频中的文本目标,最后通过多帧结果的融合来提升文本检测性能[18]。

在基于跟踪的文本检测与识别方面,Tian等人提出了基于贝叶斯理论的网络视频文本检测与识别统一框架[11],基于同一贝叶斯过程,利用最大后验概率估计对信息共享和反馈机制建模,提供了统一的基于跟踪的视频文本检测和识别的系统模型和实现机制,通过文本识别信息来优化文本检测,并以改进后的文本检测提升文本识别效果,较大幅度地提高了端到端场景文本识别系统的整体性能。

4. 大规模网络图像视频的文本识别技术应用

当前,中国互联网国际出口带宽达到了7,320Gbps,腾讯和阿里巴巴平台日活跃图片视频个数都超过了100亿规模。“模式分析难”、“识别精度差”和“处理效率低”是这些超大规模带宽海量网络图像视频文本识别与智能分析的三大核心问题。“模式分析难”是指强关联、非平衡网络图像视频信息等复杂数据的模式分析难度大,一直都是模式识别与机器学习中的基础问题;“识别精度差”是指多噪声、大差异网络图像视频文本检测与识别的精度低、效果差,成为制约技术突破的关键问题;“处理效率低”是指海量图像视频文本识别及分析应用的处理速度慢,距离超大规模实际应用有很大的差距,成为制约技术应用的瓶颈问题。

在超大规模网络图像视频文本识别技术应用系统中,一个核心问题是网络图像视频的复杂性和多变性带来的文本识别及分析的精度挑战,另一个更重要的问题则是网络图像视频的海量规模带来的文本识别及应用的效率(速度)挑战。最近几年,针对前述的“模式分析难”、“识别精度差”和“处理效率低”等核心问题,以大规模网络图像视频文本检测与识别为关键技术,国内构建了多个先进的大规模网络图像视频的文本识别技术应用系统:面向国家网络信息安全的文本识别与信息管理应用系统,和面向互联网(社交媒体)的百亿级日访问规模的文本识别与广告推荐应用系统[23]。

一方面,面向国家互联网及其超大规模带宽海量数据,研制网络多媒体文本识别及内容安全管理实际应用系统的核心关键点包括,如何设计高效率智能分析技术和如何构建大规模集群平台。北京科技大学联合国家计算机网络与信息安全管理中心,建设了面向国家网络信息安全的文本识别与信息管理应用系统(图2),利用基于自适应聚类的文本检测技术和融合特征学习的轻量型文字识别引擎等创新技术,设计了高效率的复杂图像视频文本检测、识别和理解技术;利用管理集群、数据分发集群、智能分析(文本检测、文本识别、信息管理)集群等多并行多集群技术和分布式云计算技术,构建了超大规模并行处理的网络图像视频文本识别与信息管理架构与平台,产生了重大的社会效益。

AI综述专栏 | 复杂环境文字识别技术研究及应用进展

图2. 面向国家网络信息安全的文本识别与信息管理应用系统示意.

经过真实环境数据和在线数据流的大规模应用表明,抽样统计在线业务系统某7天内的处理日志,该系统关键词识别检测准确率超过了90%;在单机(CPU 为E5-2680 v4 2.4GHz)系统环境下,对利用在线系统保存收集的475,540视频帧图像(549.6GB数据流)进行测试,该系统数据吞吐量为364.5Mbps [23]。

另一方面,面向国家经济及互联网经济重要阵地——互联网广告(2017年中国互联网广告市场规模3884亿元人民币),研制新型互联网广告推荐应用系统的关键问题包括,如何设计高性能的文本识别与搜索推荐技术和如何构建社交媒体广告推荐超大规模并发处理平台。北京科技大学联合腾讯公司,研制了高精度高效率网络图片文本识别技术,提出了应用于互联网广告的图像文字、广告内容和用户画像等多模态信息融合模型,设计了基于多维度广告素材内容理解的效果广告实时精准推荐优化技术,结合分布式数据仓库、流式计算、参数服务器、实时存储/建模/推荐等平台,构建了社交媒体广告推荐系统架构及超大型并发处理平台,建设了面向互联网社交媒体的文本识别与广告推荐应用系统,为国内首个面向互联网的融合文本识别与社交广告推荐技术的超大规模实际应用系统,产生了重大的经济效益。

来自中国软件评测中心的测试报告表明,该系统核心技术(融合深度学习的网络图像视频端到端文本识别技术)中文字幕字符识别精度为96.11%、召回率为97.25%、F1值为96.68%;来自中国图象图形学学会科技成果鉴定会现场测试表明,端到端文本识别技术中文字幕字符识别性能(F1值)达到了98.20% [23]。

5. 展望

文字识别、文档分析与识别是模式识别、人工智能中的经典领域,通过几十年的持续研究和技术突破,复杂环境下的文本识别理论、方法、技术与系统等各方面取得了重要的突破,复杂文档/图像/视频文本识别技术将迎来应用的新天地。例如,从车载摄像头所拍摄的街景中自动提取并识别文字,让地图信息更丰富更准确,进行精确的导航;戴着智能眼镜在超市购物,看到心仪商品上的文字,能自动搜索出商品的详细信息。再如,在社交媒体上进行图片与视频内容传输与发布时,实时检测识别图像中的不良文本信息并进行内容管理,构建一个健康干净的互联网大数据环境;在互联网电商平台上,自动识别海量图片/视频中内嵌的文本信息,进行商品的精准搜索和用户的个性推荐。同时,票据识别、地址识别、证照识别、手写档案和历史文档数字化,随着新一代文字识别技术的发展和性能提升,这些人们长期期待的文字识别传统应用将迎来新一轮应用的爆发。

参考文献

[1] M. Busta, L. Neumann, and J. Matas, “Deeptextspotter: An end-to-end trainable scene text localization and recognitionframework,” ICCV, pp. 2223-2231, 2017.
[2] D. Deng, H. Liu, X. Li, and D. Cai, “PixelLink:Detecting scene text via instance segmentation,” AAAI, pp. 6773-6780, 2018.
[3] P. He, W. Huang, T. He, Q. Zhu, Y. Qiao, and X.Li, “Single shot text detector with regional attention,” ICCV, pp. 3066-3074,2017.
[4] W. He, X.-Y. Zhang, F. Yin, and C.-L. Liu, “Deepdirect regression for multi-oriented scene text detection,” ICCV, pp. 745-753,2017.
[5] H. Hu, C. Zhang, Y. Luo, Y. Wang, J. Han, and E.Ding, “WodSup: Exploiting word annotations for character based text detection,”ICCV, pp. 4950-4959, 2017.
[6] M. Liao, Z. Zhu, B. Shi, G.-S. Xia, and X. Bai,“Rotation-sensitive regression for oriented scene text detection,” CVPR, pp.5909-5918, 2018.
[7] P. Lyu, C. Yao, W. Wu, S. Yan, and X. Bai,“Multi-oriented scene text detection via corner localization and regionsegmentation,” CVPR, pp. 7553-7563, 2018.
[8] J. Ma, W. Shao, H. Ye, L. Wang, H. Wang, Y. Zheng,and X. Xue, “Arbitrary-oriented scene text detection via rotation proposals,”IEEE T-MM, published online, 2018.
[9] W.-Y. Pei, C. Yang, L.-Y. Meng, J.-B. Hou, S.Tian, and X.-C. Yin, “Scene video text tracking with graph matching,” IEEEAccess, 6: 19419-19426, 2018.
[10] S. Tian, W.-Y. Pei, Z.-Y. Zuo, and X.-C. Yin,“Scene text detection in video by learning locally and globally,” IJCAI, pp.2647-2653, 2016.
[11] S. Tian, X.-C. Yin, Y. Su, and H.-W. Hao, “Aunified framework for tracking based text detection and recognition from webvideos,” IEEE T-PAMI, 40(3): 542-554, 2018.
[12] S. Tian, Y. Pan, C. Huang, S. Lu, K. Yu, and C.Lim Tan, “TextFlow: A unified text detection system in natural scene images,”ICCV, pp. 4651-4659, 2015.
[13] Y. Wu and P. Natarajan, “Self-organized textdetection with minimal post-processing via border learning,” ICCV, pp.5000-5009, 2017.
[14] Y. Xu, F. Yin, Z. Zhang, and C.-L. Liu,“Multi-task layout analysis for historical handwritten documents using fullyconvolutional networks,” IJCAI, pp. 1057-1063, 2018.
[15] Y. Xu, W. He, F. Yin, and C.-L. Liu, “Pagesegmentation for historical handwritten documents using fully convolutionalnetworks,” ICDAR, pp. 2379-2140, 2017.
[16] C. Yang, X.-C. Yin, W.-Y. Pei, S. Tian, Z.-Y.Zuo, C. Zhu, and J. Yan, “Tracking based multi-orientation scene textdetection: A unified framework with dynamic programming,” IEEE T-IP, 26(7):3235-3248, 2017.
[17] X. Yang, D. He, Z. Zhou, D. Kifer, and C. L.Giles, “Learning to read irregular text with attention mechanisms,” IJCAI, pp.3280-3286, 2017.
[18] X. Yang, W. He, F. Yin, and C.-L. Liu, “A unifiedvideo text detection method with network flow,” ICDAR, pp. 331-336, 2017.
[19] Q. Ye, and D. S. Doermann, “Text detection andrecognition in imagery: A survey,” IEEE T-PAMI, 37(7): 1480-1500, 2015.
[20] X.-C. Yin, Z.-Y. Zuo, S. Tian, and C.-L. Liu,“Text detection, tracking and recognition in video: A comprehensive survey,”IEEE T-IP, 25(6): 2752-2773, 2016.
[21] S. Zhang, Y. Liu, L. Jin, and C. Luo, “Featureenhancement network: A refined scene text detector,” AAAI, pp. 2612-2619, 2018.
[22] Z. Zhang, C. Zhang, W. Shen, C. Yao, W. Liu, andX. Bai, “Multi-orientated text detection with fully convolutional networks,”CVPR, pp. 4159-4167, 2016.
[23] 中国图象图形学学会, “大规模网络图像的文本识别技术及应用,” 科技技术成果鉴定, 中图学鉴字[2018]第001号, 2018.
[24] Y. Zhu, C. Yao, and X. Bai, “Scene text detectionand recognition: Recent advances and future trends,” Frontiers of ComputerScience, 10(1): 19-36, 2016.
[25] X. Zhou, C. Yao, H. Wen, Y. Wang, S. Zhou, W. He,and J. Liang, “EAST: An efficient and accurate scene text detector,” CVPR, pp.2642-2651, 2017.
[26] Ze-Yu Zuo, Shu Tian, Wei-Yi Pei, and Xu-ChengYin, “Multi-strategy tracking based text detection in scene videos,” ICDAR, pp.66-70, 2015.
[27] B. Shi, X. Bai, and C. Yao, “An end-to-endtrainable neural network for image-based sequence recognition and itsapplication to scene text recognition,” IEEE T-PAMI, 39(11): 2298-2304, 2017.
[28] Y.-C. Wu, F. Yin, and C.-L. Liu, “Improvinghandwritten Chinese text recognition using neural network language models andconvolutional neural network shape models,” Pattern Recognition, 65: 251-264,2017.
[29] X.-Y. Zhang, F. Yin, Y.-M. Zhang, C.-L. Liu, andY. Bengio, “Drawing and recognizing Chinese characters with recurrent neuralnetwork,” IEEE T-PAMI, 40(4): 849-862, 2018.
[30] Z. Xie, Z. Sun, L. Jin, H. Ni, and T. Lyons,“Learning Spatial-Semantic Context with Fully Convolutional Recurrent Networkfor Online Handwritten Chinese Text Recognition,” IEEE T-PAMI, 40(8):1903-1917, 2018.
AI综述专栏 | 复杂环境文字识别技术研究及应用进展

本文由小王聊社会整理,内容仅供参考,未经书面授权禁止转载!图片来源图虫创意,版权归原作者所有。