使用 BLIP 2 来增强多模态数据集

论文原文: Improving Multimodal Datasets with Image Captioning

选择 BLIP 2 的原因

BLIP 2

BLIP 2 的核心组件包括 Frozen Image Encoder、Frozen LLM 以及 Q-Former。它在 Image Captioning 方面表现出了强大的性能,特别是在生成样本的 Diversity 方面,显著超过了 OpenCLIP-CoCa。因此,我们选择 BLIP 2 来提升多模态数据集的效能。

多模态数据集中的挑战

CLIP Score Diversity & Noise

我们常常面临的问题是数据集的规模只有 100-200M,远未达到 Billion 级别。在这种情况下,数据质量的重要性不言而喻。然而,像 DataComp 128M 这样的数据集的 CLIP Score 平均只有 0.2,其中存在大量与文字不相关的图片和噪声。一个直接的解决方法是过滤掉与文字不相关的图片,仅保留 top 30%,但这会导致数据集的规模大幅度缩减,且一定程度上降低了数据的 Diversity。

解决策略

作者在试验和数据分析后,选择了如下策略:

  1. 计算已有数据集的 CLIP Score,保留 top 30% 的图片。
  2. 对剩余的 70% 的图片使用 BLIP 2 生成 caption。
  3. 对生成的 Caption 进行过滤,过滤标准与 Step 1 相同。

这个策略实际上可以看作是对 BLIP 2 进行了一种形式的 knowledge distillation,使模型学习到了 ViT-G 和 BLIP2 数据集 LAION400M 的分布。实际上,当数据集的规模扩大到 400M 以上时,这种策略的效果几乎与直接保留原始数据的 Top 30% 相当。

Comparison

参考文献