文档智能系列论文核心概念解读

发布于 2022-05-18 09:12

一.前言


文档图像有多个文本条目(Segment)或者词(Word)或者区域(Region),文档智能核心要解决的两个问题是:


  • 预测这些 Segment(Word、Region)的类别:如下,左侧图的 Segment 的类别如绿色的 “Date”

  • 预测它们之间的配对Key-Value的关系,如下,右侧图的配对关系如 “From”  和 “Kevin Narko” 的有配对关系。




以上的业务转成技术问题后为以下三个子问题:
  • 学习 Segment(Word、Region)良好的 Embedding 表示;
  • 基于学习的 Embedding 来进行分类从而实现类别预测;
  • 基于学习的 Embedding 计算相似度来预测配对关系,配对的 Segment(Word、Region)相似度很高;

本文选取这个领域比较有代表性的三篇论文,对里边核心技术做简单介绍,三个模型如下:
  • StrucText
  • LayoutLMv3
  • GraphDoc

以上论文的模型都是通过自监督学习来学习 Segment 、Word 或者 Region 的 Embedding 表示,从而得到一个 Pretrain 模型,Pretrain 模型通过领域类的数据做Finetune 来解决实际的 Segment 等 分类或者 K-V 预测。

二.模型总览

StrucText、LayoutLMv3、GraphDoc 虽然属于不同的模型,但是核心点可以抽象成三部分:
  • 输入特征
  • 特征融合
  • 自监督任务设计

输入特征是指模型都会采用哪些特征做为模型输入,目前这个领域最前沿的模型基本都会采用图像、文本、版式的多模态多种特征;

特征融合是指多个Segment(Word、Region)的输入特征如何相互融合,从而让每个Segment学习一个更有代表性的Embedding,目前基本两种做法:
  • 基于多头注意力的Transformer
  • 基于图论的图卷积 GCN

我们可以获取的文档是海量的,但是带有标注信息的却非常少,所以还有非常关键的一点是:通过文档数据的特点来设计自监督任务

下边将对以上模型的这三个方面进行介绍。

三.StrucText

StrucText的模型整体架构图如下:


输入特征
StrucText 的输入公式如下:

其中 T 代表 文本特征、V代表图像特征、S代表Segment Idx特征、P代表字符长度特征、M代表模态特征。简单总结,就是将图像和文本两类序列特征分别加上S、P、M 特征后再拼接起来作为一个特征序列
T文本特征
文本是通过OCR识别获得,除了文本还会得到文本Segment的坐标 (

本文来自网络或网友投稿,如有侵犯您的权益,请发邮件至:aisoutu@outlook.com 我们将第一时间删除。

相关素材