[ICCV 2021] 从二到一:一种带有视觉语言建模网络的新场景文本识别器
发布于 2021-10-17 17:34
一、研究背景
然而上述的方法存在两个缺点,(1)带来额外的计算开销。单独引入语言模型会带来额外的计算量。(2)如何有效的融合两个模型的预测结果。上面两个问题主要源于视觉模型缺少语言能力,受此启发,论文提出使用视觉模型做为基础网络,在训练阶段预测被遮挡的字符,训练视觉模型主动学习视觉上下文中的语言信息。在测试阶段,当存在视觉信息遮挡、噪声大的问题时,视觉模型自适应地考虑视觉空间中的语言信息以进行特征增强,如图1所示。
图1. yi'you已有方法和本文方法的对比
二、 方法原理简述
如图2所示,Vision-LAN模型包括三部分,特征提取网络,掩码语言感知模块(Masked Language Aware Module)和视觉推理模块(Visual Reasoning Module)。训练阶段,通过特征提取网络得到视觉特征,接着MLM模块输入视觉特征以及字符索引,通过弱监督的方法在对应字符索引的位置生成掩码Mask。该模块主要用来模拟视觉信息字符遮挡的情况。VRM模块输入带遮挡的文本图片,通过在视觉空间捕获长距离的信息,预测对应的文本行识别内容。
在测试阶段,移除MLM模块,只使用VRM模块用于文本识别。由于无需额外的语言模型即可获取语言信息和视觉特征,Vision-LAN 可以零计算成本即获得语言信息。
掩码语言感知模块
如图3所示,为了引导掩码模块的学习,设计了两个额外的分支。第一个分支,将特征图和对应的字符mask相乘,得到遮挡字符的特征图;第二个分支,将特征图和1-mask相乘,得到未被遮挡的字符特征图。通过这两个分支使用交叉熵监督训练,使得mask区域只遮挡第i个字符的位置,而不交叠到其它的字符区域。MLM 模块自动生成准确的字符掩码图,而无需额外的注释,具有更大的实际应用价值。
视觉推理模块
如图4所示,视觉推理模块(VRM)通过一个结构同时建模视觉信息和语言信息,通过使用视觉上下文中的字符信息,进而从被遮挡的特征中预测出字符。VRM模块包括视觉语义推理(VSR)和并行预测层(PP)。不同于工作[3]使用Transformer单元进行纯语言建模,VRM中的Transformer单元用于序列建模,不会受单词长度影响。并行预测层用于同时预测文本行内的字符。
三、 主要实验结果
作者通过消融实验验证各个模块的有效性,同时对各个模型的Transformer单元设计进行了对比实验,最后对七个基准数据集以及 OST 数据集进行大量实验,证明了方法的有效性和效率。其中可视化结果对模型学习到的特征进行了更可靠的说明。
表1 验证在MLM模块一个训练批次的遮挡比例影响
表2 验证弱监督两个分支的必要性
图8 模型的可视化识别结果,第一行识别结果为不带MLM模块的识别结果
四、总结及讨论
五、相关资源
参考文献
[1]. Minh-Thang Luong, Hieu Pham, and Christopher D Manning. Effective approaches to attention-based neural machine translation. In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, pages 1412–1421, 2015.
[2]. Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805, 2018.
[3]. Deli Yu, Xuan Li, Chengquan Zhang, Tao Liu, Junyu Han, Jingtuo Liu, and Errui Ding. Towards accurate scene text recognition with semantic reasoning networks. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 12113–12122, 2020.
[4]. Xiaoyu Yue, Zhanghui Kuang, Chenhao Lin, Hongbin Sun, and Wayne Zhang. Robustscanner: Dynamically enhancing positional clues for robust text recognition. eccv, 2020.
[5]. Fangneng Zhan and Shijian Lu. Esir: End-to-end scene text recognition via iterative image rectification. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 2059–2068, 2019.
[6]. Zhi Qiao, Yu Zhou, Dongbao Yang, Yucan Zhou, and Weiping Wang. Seed: Semantics enhanced encoder-decoder framework for scene text recognition. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 13528–13537, 2020.
原文作者: Yuxin Wang, Hongtao Xie, Shancheng Fang, Jing Wang, Shenggao Zhu and Yongdong Zhang
撰稿:马伟洪
专知便捷查看
后台回复“VLAN” 就可以获取《[ICCV 2021] 从二到一:一种带有视觉语言建模网络的新场景文本识别器》专知下载链接
本文来自网络或网友投稿,如有侵犯您的权益,请发邮件至:aisoutu@outlook.com 我们将第一时间删除。
相关素材