[ICCV 2021] 从二到一:一种带有视觉语言建模网络的新场景文本识别器

发布于 2021-10-17 17:34

本文简要介绍ICCV2021 录用论文 From Two to One: A New Scene Text Recognizer with Visual Language Modeling Network。有别于以往的分步两阶段工作需要先进行视觉预测再利用语言模型纠正的策略，该工作提出了视觉语言网络 Vision-LAN，直接赋予视觉模型语言能力，将视觉和语言模型当作一个整体。由于语言信息是和视觉特征一同获取的，不需要额外的语言模型，Vision-LAN显著提高39%的前向速度，并且能够自适应考虑语言信息来增强视觉特征，进而达到更高的识别准确率。

一、研究背景

然而上述的方法存在两个缺点，（1）带来额外的计算开销。单独引入语言模型会带来额外的计算量。（2）如何有效的融合两个模型的预测结果。上面两个问题主要源于视觉模型缺少语言能力，受此启发，论文提出使用视觉模型做为基础网络，在训练阶段预测被遮挡的字符，训练视觉模型主动学习视觉上下文中的语言信息。在测试阶段，当存在视觉信息遮挡、噪声大的问题时，视觉模型自适应地考虑视觉空间中的语言信息以进行特征增强，如图1所示。

图1. yi'you已有方法和本文方法的对比

二、方法原理简述

如图2所示，Vision-LAN模型包括三部分，特征提取网络，掩码语言感知模块（Masked Language Aware Module）和视觉推理模块（Visual Reasoning Module）。训练阶段，通过特征提取网络得到视觉特征，接着MLM模块输入视觉特征以及字符索引，通过弱监督的方法在对应字符索引的位置生成掩码Mask。该模块主要用来模拟视觉信息字符遮挡的情况。VRM模块输入带遮挡的文本图片，通过在视觉空间捕获长距离的信息，预测对应的文本行识别内容。

在测试阶段，移除MLM模块，只使用VRM模块用于文本识别。由于无需额外的语言模型即可获取语言信息和视觉特征，Vision-LAN 可以零计算成本即获得语言信息。

图2. 模型框架介绍

掩码语言感知模块

如图3所示，为了引导掩码模块的学习，设计了两个额外的分支。第一个分支，将特征图和对应的字符mask相乘，得到遮挡字符的特征图；第二个分支，将特征图和1-mask相乘，得到未被遮挡的字符特征图。通过这两个分支使用交叉熵监督训练，使得mask区域只遮挡第i个字符的位置，而不交叠到其它的字符区域。MLM 模块自动生成准确的字符掩码图，而无需额外的注释，具有更大的实际应用价值。

图3. 掩码语言感知模块（MLM）

视觉推理模块

如图4所示，视觉推理模块（VRM）通过一个结构同时建模视觉信息和语言信息，通过使用视觉上下文中的字符信息，进而从被遮挡的特征中预测出字符。VRM模块包括视觉语义推理（VSR）和并行预测层（PP）。不同于工作[3]使用Transformer单元进行纯语言建模，VRM中的Transformer单元用于序列建模，不会受单词长度影响。并行预测层用于同时预测文本行内的字符。

图4. 视觉推理模块（VRM）

模型最终训练的损失包括三部分，MLM模块的Mask识别损失，以及非Mask区域的识别损失，以及VRM模块的识别损失。其中MLM模块的加权比例为0.5。

三、主要实验结果

作者通过消融实验验证各个模块的有效性，同时对各个模型的Transformer单元设计进行了对比实验，最后对七个基准数据集以及 OST 数据集进行大量实验，证明了方法的有效性和效率。其中可视化结果对模型学习到的特征进行了更可靠的说明。

表1 验证在MLM模块一个训练批次的遮挡比例影响

表2 验证弱监督两个分支的必要性

表3 对比MLM模块和其它遮挡策略的影响

表4 对比VRM模块中Transformer单元个数的影响

表5 模型在各大场景文本数据集下的识别性能

图6 论文提出的OST数据集样例

表六模型在OST数据集上的性能对比

图7 MLM模块生成的字符Mask定位可视化效果

图8 模型的可视化识别结果，第一行识别结果为不带MLM模块的识别结果

四、总结及讨论

作为第一个带有语言能力的视觉模型工作，本文提出了一种简洁有效的场景文本识别框架。Vision-LAN实现了从两步识别到一步识别（从二到一）的转变，在一个统一的结构中自适应地考虑视觉和语言信息，无需额外的语言模型。相比于之前的语言模型，VisionLAN在保持高效的同时展现出更强的语言能力。此外，提出了一个新的遮挡场景文本数据集，评估在缺少字符视觉线索的情况下的性能。对七个基准数据集以及 OST 数据集进行大量实验，证明了方法的有效性和效率。

五、相关资源

论文地址：https://arxiv.org/abs/2108.09661

参考文献

[1]. Minh-Thang Luong, Hieu Pham, and Christopher D Manning. Effective approaches to attention-based neural machine translation. In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, pages 1412–1421, 2015.

[2]. Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805, 2018.

[3]. Deli Yu, Xuan Li, Chengquan Zhang, Tao Liu, Junyu Han, Jingtuo Liu, and Errui Ding. Towards accurate scene text recognition with semantic reasoning networks. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 12113–12122, 2020.

[4]. Xiaoyu Yue, Zhanghui Kuang, Chenhao Lin, Hongbin Sun, and Wayne Zhang. Robustscanner: Dynamically enhancing positional clues for robust text recognition. eccv, 2020.

[5]. Fangneng Zhan and Shijian Lu. Esir: End-to-end scene text recognition via iterative image rectification. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 2059–2068, 2019.

[6]. Zhi Qiao, Yu Zhou, Dongbao Yang, Yucan Zhou, and Weiping Wang. Seed: Semantics enhanced encoder-decoder framework for scene text recognition. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 13528–13537, 2020.

原文作者: Yuxin Wang, Hongtao Xie, Shancheng Fang, Jing Wang, Shenggao Zhu and Yongdong Zhang

撰稿：马伟洪

编排：高学

审校：连宙辉

发布：金连文

专知便捷查看