多模态数据 |

简介检索召回多模态表征 OpenClip ModelScope

简介

图片数据Embedding入库。将牧歌数据集通过中文CLIP模型Embedding接口转化为高维向量，然后写入DashVector向量检索服务。

文本Query检索。使用对应的中文CLIP模型获取文本的Embedding向量，然后通过DashVector检索相似图片。

检索召回

多模态表征

ModelScope - 模型列表页

汇聚热门行业和技术资讯，包括技术趋势、应用场景、模型推荐、实践案例等

技术前沿｜一站式解读多模态——Transformer、Embedding、主流模型与通用任务实战_博客-飞桨星河社区

从基础知识到基于PaddleMIX的通用任务实战应用

OpenClip

在向量数据库中存储多模态数据，通过文字搜索图片_openclipembeddingfunction-CSDN博客

文章浏览阅读447次，点赞3次，收藏7次。Chroma 多模态测试下来，效果还是不错，但是目前只支持英文。_openclipembeddingfunction

多模态特征融合：图像、语音、文本如何转为特征向量并进行分类_多变量特征融合模型-CSDN博客

文章浏览阅读1w次，点赞20次，收藏179次。学习多模态的话题可以从深度学习的分类任务出发，因为分类任务是最直观的可以观察到不同模态的数据，通过输入数据到模型中，我们可以看到模型是如何学习到数据的特征向量的，同时分类任务的模型也是实现更复杂任务模型的基础。从分类任务中可以了解到图像、文本、语音在模型的特征向量是什么。以飞浆的多模态视频分类模型为例，这个模型基于真实的短视频业务数据，融合文本、视频图像、音频三种模态进行视频多模标签分类，相比只使用视频图像特征，显著提升了高层语义标签的效果。_多变量特征融合模型

在向量数据中存储多模态数据，通过文字搜索图片，Chroma 支持文字和图片，通过 OpenClip 模型对文字以及图片做 Embedding。本文通过 Chroma 实现一个文字搜索图片的功能。

CLIP（Contrastive Language-Image Pretraining，对比语言-图像预训练）是由OpenAI开发的一种模型，它结合了自然语言处理（NLP）和计算机视觉（CV）来理解和关联文本和视觉数据。CLIP旨在从大量的互联网数据中学习，并能够执行各种任务，例如零样本图像分类、图像到文本搜索和文本到图像搜索，而无需特定任务的数据集。CLIP 有以下特性

对比学习：CLIP使用对比学习方法，模型通过区分匹配和不匹配的图像和文本对进行训练。这意味着它学习将图像与其对应的文本描述对齐，并区分不相关的对。

双分支架构：CLIP包含两个分支：一个用于处理图像，另一个用于处理文本。这些分支通常基于深度学习架构，例如用于图像的Vision Transformers（ViT）或ResNet，用于文本的基于Transformer的模型（如GPT）。

联合嵌入空间：模型将图像和文本投影到共享的嵌入空间中。在训练过程中，它最大化匹配图像-文本对的嵌入相似性，最小化不匹配对的嵌入相似性。

零样本学习：CLIP的一个重要优势是其零样本学习能力。这意味着它可以通过利用类别的文本描述来对在训练中未见过的类别的图像进行分类。

OpenClip 是 Open AI CLIP 的开源实现。

ModelScope

tianchi.aliyun.com

CLIP模型-中文-通用领域-huge

本项目为CLIP模型的中文版本，使用大规模中文数据进行训练（~2亿图文对），旨在帮助用户实现中文领域的跨模态检索、图像表示等。视觉encoder采用vit结构，文本encoder采用roberta结构

multimodal_embedding_one_peace_v1

API详情_模型服务灵积(DashScope)-阿里云帮助中心

前言ONE-PEACE是一个图文音三模态通用表征模型，在语义分割、音文检索、音频分类和视觉定位几个任务都达到了新SOTA表现，在视频分类、图像分类图文检索、以及多模态经典benchmark也都取得了比较领先的结果。另外，模型展现出来新的zeroshot能力，即实现了新的模态对齐，比如音频和图像的对...

本项目为CLIP模型的中文版本，使用大规模中文数据进行训练（~2亿图文对），可用于图文检索和图像、文本的表征提取，应用于搜索、推荐等应用场景。更多技术细节可以参考我们的技术报告和Github开源代码。

CLIP模型是来自OpenAI的经典图文表征模型，其采用双塔模型结构（如下图），利用大规模图文对平行语料进行对比学习，从而能够实现图片和文本的跨模态语义特征抽取。

原始的CLIP模型基于英文图文语料，不能用于中文的图文表征提取场景。本项目以英文CLIP视觉侧参数和中文Roberta参数，作为模型初始化值。基于大规模原生中文图文数据，通过如下图所示的二阶段预训练策略（一阶段仅训练文本侧，二阶段同时训练），实现了CLIP模型的中文化版本。未来将在此持续更新。