核心技术: 以原创技术体系为根基，SenseCore商汤AI大装置为核心基座，布局多领域、多方向前沿研究，
快速打通AI在各个垂直场景中的应用，向行业赋能。

ECCV 2022 Oral | 无需标注！将CLIP直接用于分割

2022-09-18

Part 1 传统的微调方法破坏了CLIP的开放集能力

正如导读中所提到的，我们发现CLIP在密集预测任务上存在巨大潜力：同时识别多个目标、理解目标间关系、目标不局限于固定词汇集。因此，我们选定语义分割作为目标任务，对CLIP展开探索。

一个自然而简单的想法就是，将CLIP的图像编码器的权重加载到骨干网络，同时将目标物体的单词输入到CLIP的文字编码器中得到词向量，并用这些词向量生成分类器。以DeepLab为例：

Part 2 无需训练的MaskCLIP

有了前车之鉴，我们转而避免引入新的参数并尽量保持CLIP原有的特征空间不变。让我们重新仔细检视一下CLIP的图像编码器，特别是它独特的全局注意力池化层（类似于Transformer的注意力层）：

Part 3 利用MaskCLIP的预测作为伪标签训练分割模型

虽然MaskCLIP避免了对CLIP进行大幅修改从而保证了视觉-语言关联的完整性且不需要任何训练，但是由于CLIP的图像编码器并不是为语义分割设计的（例如ResNet的32倍降采样），大大限制了MaskCLIP的性能。因此我们进而提出MaskCLIP+，如上图所示，其核心思想为将MaskCLIP的预测用作伪标签，训练更适合分割任务的模型（例如DeepLab）。可以预期的是，MaskCLIP+的性能在训练过程中会超过MaskCLIP，这时再使用MaskCLIP提供监督性能将不会继续提升。因此，一旦观察到这种现象，我们在后续的训练中将使用MaskCLIP+为自己提供伪标签，即自学习。

MaskCLIP+可以被自然地用到零样本语义分割任务上：对于提供标签的类别使用标签监督，对于无标签类别，用MaskCLIP提供的伪标签监督。因此，我们提供了与现有SOTA的对比，并发现MaskCLIP+远超现有SOTA，甚至几乎到达全监督模型的水平。

Part 4 实验结果

以上测试图片均来自于网络。我们在不使用任何标注的情况下，测试了MaskCLIP(+)对于诸如：颜色、模糊度、卡通人物、汽车品牌等目标的分割性能。

我们在这张表格中将MaskCLIP+与现有的零样本分割SOTA方法在PASCAL VOC、COCO-Stuff、PASCAL Context上进行了对比。ST为Self-Training的缩写。

相关资料

►项目地址:

https://www.mmlab-ntu.com/project/maskclip

►论文链接:

https://arxiv.org/abs/2112.01071

►开源代码：

https://github.com/chongzhou96/MaskCLIP

您尚未完善信息

完善信息后，即可下载资料

完善信息跳过，继续浏览

您尚未登录

您还未登录，登录方可继续

登录跳过，继续浏览

请选择您认为需要改进的地方：

导航不好用，不方便找到感兴趣的内容
产品介绍信息不够全面
产品介绍信息不容易懂
页面打开速度不快，页面浏览不流畅/有卡顿
页面不够美观
售后服务不好找，体验不好

跳过下一个

您是否能够达到本次网站的访问目的？

是
否
仍在进行中

下一个

您对商汤官网的满意度如何？

非常不满意非常满意

提交

已收到您对商汤官网的评价和建议！

感谢您的耐心反馈~

关闭