无监督的视觉表现学习解读

发布于 2021-09-26 21:14

导读

标题:Prototypical contrastrive learning of unsupervised representations

在本文中,提出了原型对比学习(PCL),这是一种自监督的表示学习的新框架,它隐含地将数据的语义结构编码到嵌入空间中。图 1 显示了 PCL,原型被定义为"一组语义相似实例的代表性嵌入"。为每个实例分配了几个不同粒度的原型,并构建了一个对比损失,使样本的嵌入表示与它的对应原型更相似。在实践中,我们可以通过在特征嵌入上执行聚类来查找原型。

论文解读


无监督的视觉表现学习旨在从像素本身学习图像表示,而无需依赖语义注释,而最近的进步主要受实例判别任务的驱动。这些方法通常由两个关键组件组成:图像转换和对比损失。图像转换旨在通过数据增强生成代表相同图像的多个嵌入、补丁扰动或使用动量特征。对比损失以噪声对比估算器的形式,旨在从同一实例中更紧密地采集样本,并从不同实例中分离样本。从本质上讲,实例对比式学习会导致嵌入空间,其中所有实例都分离良好,并且每个实例都局部平滑(即具有扰动的输入具有类似的表示)。尽管实例判别方法性能有所提高,但它们有一个共同的弱点:不鼓励表征编码数据的语义结构。出现此问题是因为从实例角度而言,对比学习将两个样本视为负对,只要它们来自不同的实例,无论其语义相似性如何。这被数千个负样本生成形成对比损失的事实放大了,导致许多负样本对共享类似的语义,但在嵌入空间中被不可取地推开。在本文中,提出了原型对比学习 (PCL),这是一种自监督的表示学习的新框架,它隐含地将数据的语义结构编码到嵌入空间中。图 1 显示了 PCL,原型被定义为"一组语义相似实例的代表性嵌入"。为每个实例分配了几个不同粒度的原型,并构建了一个对比损失,使样本的嵌入表示与它的对应原型更相似。在实践中,我们可以通过在特征嵌入上执行聚类来查找原型。

图1

我们将原型对比学习实现为期望最大化(EM) 算法,其目标是找到最能描述数据分布的深度神经网络(DNN)的参数,通过迭代估计和最大化极大似然函数。特别的,我们引入原型作为额外的隐变量,并通过执行k-means聚类来估计它们在 E 步中的概率。在 M 步中,我们通过最大限度地减少提出的对比损失(即 ProtoNCE)来更新网络参数。在假设每个原型周围的数据分布是高斯分布情况下,最小化ProtoNCE与最大化似然估计等价。在 EM 框架下,广泛使用的实例判别任务可以解释为原型对比学习的特殊案例,其中每个实例的原型是其增强特征,每个原型周围的高斯分布具有相同的固定方差。本文的贡献可以概括为:

  提出原型对比学习,一种用于自监督的代表性学习的新框架,将对比学习和聚类连接在一起。鼓励学习的表示来捕获数据集的层次语义结构。

给出一个理论框架,将 PCL 制定为基于期望最大化(EM) 的算法。聚类和表示学习的迭次步骤可以解释为近似和最大化似然函数。先前基于实例判别的方法在拟议的EM框架中形成了一个特例。

图2

• 提出 ProtoNCE,这是一种新的对比损失,通过动态估计每个原型周围特征分布的密度,改善了广泛使用的InfoNCE。从信息理论的角度为 PCL 提供解释,表明所学原型包含更多有关图像类的信息。


 • PCL 在多个基准上的表现优于实例对比学习,在低资源转移学习方面有显著改进。PCL 还会导致更好的聚类结果。
今天的解读就到这里了,小编期待下期与你再见~

文字 | 汇视威金正峰

视频 | 汇视威金正唤

图片 | 汇视威成德善

编辑 | 汇视威成宝拉

本文来自网络或网友投稿,如有侵犯您的权益,请发邮件至:aisoutu@outlook.com 我们将第一时间删除。

相关素材