Contrasive learning

对比学习, Contrastive Learning是一种自监督学习方法, 核心思想是通过让模型"学会区分"相似和不相似的样本, 从而学习到有用的特征表示. 具体来说, 模型会被训练去最小化相似样本(正样本对)之间的距离, 最大化不相似样本(负样本对)之间的距离, 从而得到对输入数据的区分能力.

以下是对比学习的一些关键点:

  • 自监督: 对比学习不需要额外的人工标注信息, 而是通过数据本身生成训练信号. 例如, 对于一张图像, 可以通过随机数据增强(Augmentation)来得到两张不同变换后的图像, 称为正样本对; 而来自其他图像的增强版本就可以被当作是负样本对
  • 信息压缩: 由于对比学习会倾向于将相似样本投射到更紧凑的空间, 它有助于模型学习到更加具有判别力, 更加泛化的表示
  • 训练目标: 对比学习通常会使用对比损失函数(contrastive Loss)或者InfoNCE损失函数来进行优化, 即让正样本对的表示更加接近, 负样本对的表示更加远离
  • 应用广泛: 除了在图像领域(如SimCLR, MoCo)取得了良好的效果, 对比学习在NLP等领域也有应用, 用于训练文本表示, 预训练语言模型等.