【深度学习】简单、高效的微调方法！使用CLIP达成现实场景的无监督微调最优方案...-摩杜云开发者社区

作者丨米格编辑丨极市平台

导读

作者提出了一种简单、高效、有效的微调方法，称为通用熵优化（UEO）。UEO 利用样本级置信度来近似最小化置信实例的条件熵，最大化置信度较低实例的边际熵。

【深度学习】简单、高效的微调方法！使用CLIP达成现实场景的无监督微调最优方案..._最小化

论文地址：https://arxiv.org/pdf/2308.12919.pdf

简介

视觉语言模型（VLM）（如 CLIP）的出现，推动了将其应用于下游监督学习任务的大量研究工作。尽管之前的一些研究已经探索了对 CLIP 进行无监督微调的方法，但它们通常依赖于与真实标签相关的类名形式的先验知识。在本文中，作者假设未标记的数据可能包含来自未知类别的分布外样本，从而深入探讨了一种现实的无监督微调方案。此外，作者还强调了在识别与预定义类标签相关的实例的同时增强分布外检测能力的重要性。

为了解决上述问题，作者提出了一种简单、高效、有效的微调方法，称为通用熵优化（UEO）。UEO 利用样本级置信度来近似最小化置信实例的条件熵，最大化置信度较低实例的边际熵。除了优化文本提示外，UEO 还在 CLIP 的视觉分支中加入了通道仿射变换优化。通过对 15 个领域和 4 种不同类型的先验知识进行广泛实验，作者证明了 UEO 在泛化和分布外检测方面都超越了基准方法。

Introduction

基于大规模的图像-文本对进行预训练的视觉语言模型（VLMs）展示了强大的零样本预测能力，最近受到研究界越来越多的关注。举例来说，CLIP模型利用对比目标，在一个无模态倾向的嵌入空间中拉近配对的图像和文本，推开未配对的图像和文本。随后，CLIP通过匹配测试图像的嵌入和基于提示的文本描述（例如，“一张[CLASS]的照片”和“这是一张[CLASS]的图片”）来进行零样本视觉分类，这使得CLIP仅需要下游任务中所有语义类别的名称就可以完成任务。除了广泛研究预训练阶段外，许多研究集中于通过使用特定任务的标记数据将VLMs适应到特定的下游任务。这种微调范式使VLMs能够弥合数据和任务间的差距，从而在识别任务中提高性能。除了多类别分类，这些开创性的策略还在一系列计算机视觉任务中得到应用，包括序数回归、点云理解和密集预测。

在考虑微调设置时，大部分工作主要集中在全监督和少样本监督学习场景。为了追求标注效率和可扩展性，最近的一些研究深入探讨了VLMs的无监督微调领域，并在性能上明显赶上少样本监督方法。然而，它们仍需要与真实标签相关联的类名的先验知识，限制了它们在各种真实场景中的适用性。为了克服这个限制，本文探索了一种新颖的微调设置，称为无监督通用微调（U-FT）与VLMs，其中预定义的类名列表可能部分重叠于未标记训练数据的真实标签空间。

以图下图所示的例子说明，假设有一个包含三个类别（即“狗”、“猫”和“熊猫”）样本的未标记数据集。然而，提供的预定义类名列表可能不准确，包含四个类别（即“狐狸”、“狗”、“猫”、“猪”）。通常情况下，U-FT要求微调模型在两个方面表现出优越性能，即识别预定义列表中类别的样本（“狗”和“猫”），以及识别不在列表中的类别的样本（“熊猫”），通常称为超出分布（OOD）样本。

鉴于OOD样本的潜在稀缺性，U-FT通过一个新的测试数据集评估泛化能力和OOD检测能力，其中包括OOD样本和来自预定义列表中的样本。通常情况下，设计微调策略时，U-FT面临两个主要技术挑战：

（1）由于可能存在OOD样本，用VLMs拟合整个数据将降低检测OOD样本的能力

（2）将未标记数据的标签分布与预定义分布匹配可能存在风险，因为某些类别可能不存在。

【深度学习】简单、高效的微调方法！使用CLIP达成现实场景的无监督微调最优方案..._类名_02

作者提出了一种名为通用熵优化（UEO）的参数高效方法，旨在解决这些挑战。UEO的目标是在最小化非OOD样本的信息熵的同时，最大化OOD样本的熵。由于预先不知道哪些样本是OOD样本，UEO利用VLMs中未标记数据的置信度作为样本级权重。为了避免通过熵最大化暴露OOD样本带来的潜在风险，UEO采用反向加权策略先聚合预测结果，然后再最大化边际熵。此外，UEO还考虑了CLIP图像编码器中通道级仿射变换的优化，除了文本提示，以确保参数高效性。

总体而言，UEO非常简单，只需要对少数几行代码进行修改。

作者的贡献总结如下：

（1）作者引入了一种新的VLMs无监督微调设置，对未标记数据的标签空间要求很少的先验知识。

（2）除了实现增强的泛化性能，作者同时研究了微调VLMs用于OOD检测的有效性。

（3）作者提出了一种新的参数高效方法UEO，优雅地在未标记数据的熵优化过程中结合了样本级置信度。

（4）通过广泛的实证分析，作者证明UEO在15个不同的下游领域中始终优于现有方法。

Method

1.Preliminary

在本文中,作者采用CLIP\citep{radford2021learning}作为一种代表性的VLM,在本文的无监督普遍微调阶段进行全面应用,因为它是一项开创性的工作,在各种计算机视觉任务中都取得了显著进步。为了简单起见,作者把重心放在图像分类任务上。CLIP模型采用简单的双流体系结构,有图像编码器和文本编码器。每个编码器分别处理来自对应的模态的输入数据。在其预训练阶段,CLIP利用自监督对比学习目标从互联网收集的图像和文本的噪声对学习图像与文本之间的对应关系。因此,配对图像和文本的特征在共享嵌入空间中相似。

为了在下游任务中进行零样本预测,CLIP为每个类别生成提示信息(例如“一张[CLASS]的照片”),将[CLASS]标签替换为对应的类别名称。这个技术旨在减小预训练数据集的文本分布和目标下游任务文本分布之间的差异。然后,作者得到每个类别文本编码的文本嵌入,其中表示目标任务中的类别数量。为了进行预测,作者将输入图像的图像嵌入与文本嵌入集进行比较,并使用softmax操作得到样本属于类别的概率:

其中表示嵌入间的余弦相似度,默认设置。需要注意的是,零样本推断的准确率高度依赖于为预测任务选择的候选类名的质量。

根据MCM的报告，除了在零样本分类方面表现出色外,CLIP在零样本OOD检测上也取得了优秀成绩。特别地,MCM提出最大概念匹配得分为:

由于其强大的零样本分类能力,ID样本与候选列表中的文本描述匹配得分高,反之亦然。形式上,标准的OOD检测函数可以表示为:

其中是一个选择的阈值,这样在实际应用中ID数据的高占比能够高于该阈值。对于被分类为ID的样本,作者直接通过获得类别预测。

2.Problem Setting

给定预先确定的感兴趣类名称列表,无监督普遍微调U-FT的目标是促进预训练VLM适应unlabeled数据。U-FT主要设计目的是增强VLM在两个关键方面的性能:

(1)准确分类属于列表中的“已知”类别的样本(ID泛化);

(2)有效识别超出这些指定类别的样本(OOD检测)。

为更好地理解unlabeled数据,作者将预定义列表的标签空间表示为,unlabeled数据的标签空间表示为。之前的无监督微调方法仅考虑闭集类别偏移情形(即)。然而,还存在三种其他常见的类别偏移情形:部分集()、开集()和开部分集()。由于下游数据的无标签性质,作者事先可能无法知道会出现哪一种情形。因此,作者遵循DANCE提出的“普遍性”概念,探索VLM在unlabeled数据中的普遍适应性。

Evaluation

通常,作者在四种不同类别偏移情形下评估无监督微调后的识别性能。与DANCE使用训练unlabeled数据进行准确率评估不同,作者在评估时采用独立测试集,包含ID和OOD样本。这种选择的动机在于,在闭集和部分集类别偏移情形下,测试集不存在OOD样本无法评估OOD检测性能。此外,DANCE将所有OOD样本视为额外的“未知”类,并计算OS分数,即所有类别平均准确率。最近,许多开集域适应方法采用HOS分数,用调和平均取代简单平均。OS和HOS分数都需要“未知”类的准确率,它高度依赖阈值。作为一种替代方法,作者采用OOD检测领域的普遍做法,并加入另一个广泛采用的度量标准:接收器操作特征曲线下的面积(AUC)。

3. Universal Entropy Optimization (UEO)

为了让CLIP适应unlabeled数据,作者考虑使用香农熵作为优化目标函数。意思是最小化模型对每个实例预测的熵,使它们更接近这些原型在特征空间中的一个。然而,当训练数据包含OOD样本时,熵最小化可能会产生不良后果,削弱了模型拒绝它们的能力。理论上,OOD样本应该与预定义列表中的任何类别都不匹配,因此作者可以使用熵最大化来使模型产生近似均匀预测。但是,在无监督微调场景下由于缺乏知道哪些样本是OOD,这种方法是不可行的。而作者将MCM分数视为样本级权重,以近似实现熵的最小化和最大化。

形式上,熵优化的统一目标写为:

其中表示的小批量,表示的香农熵,代表单调递减函数,如。

此外,在小批量中的正规化权重定义为,在熵最小化时强调自信样本。相比之下,在熵最大化前的正规化权重记为,着重于潜在的OOD样本。

上式中的两个加权熵术语的组合可能在小批量样本间权重表现明显不同时是最优的。如果小批量里没有OOD样本,第二个熵术语可能会通过增加困难样本的熵来破坏适应过程。为缓解这种风险,作者对所有OOD样本的平均预测应用熵最大化:

其中

是小批量中的每个样本预测的加权平均。当小批量中的所有样本具有相同权重时,即,其中表示批大小,目标函数就精确地退化为信息最大化损失。这表明,即使unlabeled数据中不存在OOD样本,优化等式中的第二项也可能有利。

参数效率

在无监督适应过程中,作者采用参数高效的微调范式进行基础模型微调,其中只有少量参数而不是整个模型在微调过程中被修改。具体来说,作者遵循CoOp优化文本提示,即文字句子“[V],[V],...,[V],[CLASS]”中的可学习词向量集合{[V]},这里m表示文本提示的长度。几项前期研究也证明将视觉提示集成到CLIP可以增强基于少量有标签数据的适应性。但是,需要注意这些方法专门适用于基于变换器的视觉分支。在本研究中,作者受TENT启发,提出优化图像分支中的正则化层中的亲和参数,与文本提示的优化相辅相成。

讨论

在本文中,作者提出了一种新的无监督普遍微调(U-FT)设置,它不依赖于下游领域unlabeled数据的先验知识。除了评估识别候选类样本的泛化能力外,U-FT还考虑在微调后改进检测候选类列表外的OOD样本。作者提出通用熵优化(UEO),它利用样本级信心近似地最小化ID样本的熵和最大化OOD样本的熵。UEO是一个简单且参数高效的方法,仅更新少量参数,目标函数中不需要任何超参数。通过全面评估,作者证明UEO在各种类别偏移情形下始终优于现有的无监督微调方法。作者认为,提出的U-FT设置对于VLM转移学习领域是一个有趣且重要的贡献,有潜力引起广泛关注。然而，尽管UEO显示出很大的潜力,但也有一些需要考虑的限制。具体来说,虽然作者成功地在图像分类任务上验证了UEO的有效性,但作者还没有研究过其在语义分割和目标检测等密集预测任务上的应用。

【深度学习】简单、高效的微调方法！使用CLIP达成现实场景的无监督微调最优方案..._数据_03