InterVl
nternVL的不同使用方式通过灵活组合视觉编码器和语言中间件,InternVL可以支持各种视觉或视觉-语言任务,堪称“瑞士军刀”版基础模型 ,你可以用它:
1.做纯视觉任务的主干网络:InternViT-6B可以替代ViT、ResNet,直接作为骨干网络;
2.替代CLIP:对于对比式任务,我们有两种使用方式,分别是InternVL-C(ontrastive)和InternVL-G(enerative),如图5(a)(b)所示。我们对InternViT-6B的输出特征或者QLLaMA的Query特征做attention pooling得到视觉特征,将QLLaMA的EOS token对应的特征作为文本特征,从而可以支持图文检索等任务;
3.用在LLaVA等视觉对话模型上:对于多模态对话,我们将InternVL作为视觉特征提取器:既可以单独使用InternViT-6B,也可以上图(c)(d)所示,将InternViT-6B与QLLaMA作为整体。
零样本
Loading...