什么是向量数据库

本页面旨在通过回答几个问题来让您大致了解腾讯云向量数据库(Tencent Cloud VectorDB)。读完本页后,您将了解腾讯云向量数据库是什么、它是如何工作的、关键概念、为什么使用腾讯云向量数据库、支持的索引和指标、架构和相关连接方式。

腾讯云向量数据库是什么?

随着互联网的普及,越来越多的非结构化数据如电子邮件、图像、音视频和文本等变得普遍。为了让计算机能够理解和处理这些非结构化数据,使用嵌入技术将这些数据转换为向量形式。
腾讯云向量数据库(Tencent Cloud VectorDB)是一款全托管的自研企业级分布式数据库服务,专用于存储、索引、检索、管理由深度神经网络或其他机器学习模型生成的大量多维嵌入向量。作为专门为处理输入向量查询而设计的数据库,它支持多种索引类型和相似度计算方法,单索引支持10亿级向量规模,高达百万级 QPS 及毫秒级查询延迟。不仅能为大模型提供外部知识库,提高大模型回答的准确性,还可广泛应用于推荐系统、NLP 服务、计算机视觉、智能客服等 AI 领域。
notion image

关键概念

如果您不熟悉向量数据库和相似性搜索领域,请优先阅读以下基本概念,便于您对向量数据库有一个初步的了解。更多名词解释,请阅读 关键概念
什么是向量?
向量是指在数学和物理中用来表示大小和方向的量。它由一组有序的数值组成,这些数值代表了向量在每个坐标轴上的分量。
什么是非结构化数据?
非结构化数据,是指图像、文本、音频等数据。与结构化数据相比,非结构化数据不遵循预定义模型或组织方式,通常更难以处理和分析。
什么是 AI 中的向量表示?
当我们处理非结构化数据时,需要将其转换为计算机可以理解和处理的形式。向量表示是一种将非结构化数据转换为嵌入向量的技术,通过多维度向量数值表述某个对象或事物的属性或者特征。腾讯云向量数据库提供的模型能力,目前在开发调试中。具体上线时间,请关注 产品动态
什么是向量相似性检索?
向量检索是一种基于向量空间模型的信息检索方法。向量数据库通过相似度计算方法计算两个向量之间的相似距离来分析它们之间的相关性。如果两个嵌入向量非常相似,则意味着原始数据源也相似。

为什么是腾讯云向量数据库?

腾讯云向量数据库作为一种专门存储和检索向量数据的服务提供给用户, 在高性能、高可用、大规模、低成本、简单易用、稳定可靠、智能运维等方面体现出显著优势。 具体信息,请参见 产品优势

支持哪些索引和指标?

在建表时,需指定向量的 索引类型(如 HNSW 等)与 相似度计算方法。数据库存储的向量将会按照指定的索引类型进行索引。那么,在向量检索时,便会依据索引并使用已选择的相似性计算方法进行匹配,快速高效地获取目标向量。如果不指定索引类型,向量数据库将默认进行暴力搜索。具体支持的索引类型和计算方法的详细介绍,请参见 索引与计算
索引类型
向量数据库支持的向量索引类型大部分采用近似最近邻搜索(ANNS)。目前,支持如下类型。具体信息,请参见 索引与计算
FLAT 索引:向量会以浮点型的方式进行存储,不做任何压缩处理。搜索向量会遍历所有向量与目标向量进行比较。
HNSW 索引:全称为 Hierarchical Navigable Small World, 是基于图的索引,适合对搜索效率要求较高的场景。
IVF 系列:全称为 Inverted File,IVF 系列索引的核心思想是将高维空间划分为多个聚类,并为每个聚类构建一个倒排文件。适用于高维向量数据的快速检索。
相似度计算方法
选择良好的距离度量有助于显著提高分类和聚类性能。根据输入数据形式,选择特定的相似性度量方法,获得数据库最佳性能。目前支持的相似度计算方法如下表所示。
相似性计算方法
方法说明
内积(IP)
全称为 Inner Product,是一种计算向量之间相似度的度量算法,它计算两个向量之间的点积(内积),所得值越大越与搜索值相似。
欧式距离(L2)
全称为 Euclidean distance,指欧几里得距离,它计算向量之间的直线距离,所得的值越小,越与搜索值相似。L2在低维空间中表现良好,但是在高维空间中,由于维度灾难的影响,L2的效果会逐渐变差。
余弦相似度(COSINE)
余弦相似度(Cosine Similarity)算法,是一种常用的文本相似度计算方法。它通过计算两个向量在多维空间中的夹角余弦值来衡量它们的相似程度。所得值越大越与搜索值相似。

腾讯云向量数据库应用示例有哪些?

腾讯云向量数据库可进行高性能向量存储和检索,主要适用于以下应用场景。
大规模知识库:企业的私域数据存储在向量数据库中可构建外部知识库,帮助企业更好地管理和利用自己的数据资源。
推荐系统:向量数据库会基于用户特征进行向量存储与检索,最终筛选用户可能感兴趣的物品推荐给用户。
问答系统:向量数据库会基于问题信息进行向量存储与检索,并返回最相关的问题与对应的答案。
文本/图像检索:向量数据库对输入的图像和文本信息进行向量存储与检索,会找到最匹配输入信息的文本或图像结果。

腾讯云向量数据库是如何设计的?

部署架构:腾讯云向量数据库采用分布式部署架构。客户端请求通过 Load Balancer 分发到各节点上,每个节点相互通信和协调,实现数据存储与检索。
逻辑架构:实例是腾讯云中独立运行的数据库环境,是用户购买向量数据库服务的基本单位。腾讯云向量数据库数据存储的一个实例集群中包括 DatabaseCollectionDocument 三个逻辑层级。其中,一个实例可以包含很多个 Database,一个 Database 可以包含多个 Collection,一个 Collection 可以包含多个 Document。更多信息,请参见 设计架构
Loading...
目录
文章列表
王小扬博客
产品
Think
Git
软件开发
计算机网络
CI
DB
设计
缓存
Docker
Node
操作系统
Java
大前端
Nestjs
其他
PHP