文档智能系列论文核心概念解读

发布于 2022-05-18 09:12

一.前言

文档图像有多个文本条目（Segment)或者词（Word）或者区域（Region），文档智能核心要解决的两个问题是：

以上的业务转成技术问题后为以下三个子问题：

本文选取这个领域比较有代表性的三篇论文，对里边核心技术做简单介绍，三个模型如下：

以上论文的模型都是通过自监督学习来学习 Segment 、Word 或者 Region 的 Embedding 表示，从而得到一个 Pretrain 模型，Pretrain 模型通过领域类的数据做Finetune 来解决实际的 Segment 等分类或者 K-V 预测。

二.模型总览

StrucText、LayoutLMv3、GraphDoc 虽然属于不同的模型，但是核心点可以抽象成三部分：

输入特征是指模型都会采用哪些特征做为模型输入，目前这个领域最前沿的模型基本都会采用图像、文本、版式的多模态多种特征；

特征融合是指多个Segment（Word、Region）的输入特征如何相互融合，从而让每个Segment学习一个更有代表性的Embedding，目前基本两种做法：

我们可以获取的文档是海量的，但是带有标注信息的却非常少，所以还有非常关键的一点是：通过文档数据的特点来设计自监督任务；

下边将对以上模型的这三个方面进行介绍。

三.StrucText

StrucText的模型整体架构图如下：

输入特征

StrucText 的输入公式如下：

其中 T 代表文本特征、V代表图像特征、S代表Segment Idx特征、P代表字符长度特征、M代表模态特征。简单总结，就是将图像和文本两类序列特征分别加上S、P、M 特征后再拼接起来作为一个特征序列

T文本特征

文本是通过OCR识别获得，除了文本还会得到文本Segment的坐标 (

本文来自网络或网友投稿，如有侵犯您的权益，请发邮件至：aisoutu@outlook.com 我们将第一时间删除。