名词解释
‣
数据集(Collection)
Viking DB中的数据集(Collection)相当于关系数据库管理系统中的表。在Viking DB中,数据集是向量数据库原始数据的存储载体,通过创建数据集,将多个业务的向量数据存储到不同数据集中实现存储和管理的目的。
索引(Index)
索引(Index)是有效组织数据的过程,向量库中创建索引可以加速向量的相似度搜索,它根据指定的索引算法和数据结构将向量库中的原始数据进行分组排序,提高相似度搜索的效率和准确性,是驱动向量数据库在短时间内筛选出候选的核心所在。
子索引
索引内部的数据划分方式,根据某个标量字段可以将数据集划分成不同的子数据集,不同的子数据集构建为不同的子索引。子索引互相独立,检索过程互不干扰,实现混合检索时在子索引内检索并减少过滤,从而提升检索性能。比如,根据国家ID将数据集拆分,针对某个国家ID的子索引检索场景,无需对国家ID进行过滤,提升检索性能。
ANN
ANN(Approximate Nearest Neighbor,近似最近邻算法)是一种通过牺牲精度来换取时间和空间的方式从大量样本中获取最近邻的方法,核心思想是通过构建一个近似的最近邻搜索结构来加速最近邻搜索,从而快速找到与查询点最近的数据点,而无需对所有数据点进行计算和比较。
ANN算法是一种高效的最近邻搜索算法,可以在高维空间中快速搜索最近邻。ANN算法具有高效的搜索速度、高效的内存使用和可扩展性等优点,但精度有限、对参数敏感。
KNN
KNN(K-Nearest Neighbors,K 最近邻算法)是一种常见的分类和回归算法,用于解决监督学习问题,该算法核心思想是通过计算数据集中所有数据与已知数据点之间的距离来寻找最近的K个数据点,然后根据这K个数据点的标签来进行分类或回归。
KNN算法是一种简单易用的分类和回归算法,适用于小规模的数据集,具有鲁棒性强和可扩展性等优点,但计算量大,存储空间大,对数据分布敏感。
HNSW
HNSW(Hierarchical Navigable Small World,分层可导航小世界)是一种用于在高维空间中进行 ANN 搜索的数据结构和算法,它是基于图的索引,通过构建一个多层的图结构来加速最临近搜索,适合对搜索效率要求较高的场景。
HNSW 算法使用了分层结构,它构建了一个层次图,其中每个节点代表一组点,边连接距离较近的节点。该图使用 KNN 图的变体构建,其中每个点都连接到它的 k 个最近邻。HNSW 图的层次结构通过减少搜索过程中需要访问的节点数量,可以快速高效地搜索最近邻,无需对所有数据点进行计算和比较。
HNSW算法具有高效的搜索速度、高效的内存使用、可扩展性和支持动态更新等优点,但对参数敏感需要对参数调优,对数据分布敏感。
FLAT
FLAT索引对向量进行无压缩的原始文件存储。搜索时执行暴力检索,遍历整个向量数据库的所有向量与目标向量进行距离计算和比较,查询速度较慢。但是当查询数量较少时,它是最有效的查询方法。
FLAT索引能提供100%的检索召回率,不需要数据做训练,不需要配置任何参数,也不需要占用额外的磁盘空间,其它的索引类型在保存成文件时需要占用额外的磁盘空间。综上,FLAT适用于向量候选集较少,且需要100%查询召回率的场景。
向量字段
向量字段是指在数据库中存储向量数据的字段,在向量数据库中,每个向量都可以表示为一个向量字段,向量字段包含向量的各个维度的值。这种形式的数据可以被看作是一组有序的坐标,具有很好的线性搜索性能。向量字段的使用简化了向量数据的存储和管理,便于进行向量检索和分析。
标量字段
标量字段是指在数据库中存储标量的字段。标量是指只有大小、没有方向的量,例如温度、重量、长度等,标量字段通常只包含一个数值,不像向量字段包含多个数值。在向量数据库中,标量字段通常用于存储与向量数据无关的数据,例如文本的作者等信息。
向量检索
向量检索是一种基于向量空间模型的检索方法,通过计算向量之间的相似度进行检索。在一个给定向量数据集中,向量检索按照某种度量方式(比如内积、欧式距离),对向量构建的一种时间和空间上比较高效的数据结构,能够高效地检索出与目标向量相似的 K 个向量。
混合检索
混合检索兼顾稠密检索和稀疏检索的优缺点,在表征时同时将文本表征稠密向量和稀疏向量,在检索时同时检索两个向量空间,以稠密检索或以稀疏检索为标准检索到一批相关文档。通过这种方式,混合检索既能充分发挥稠密检索在复杂语义关系中的优势,同时也利用稀疏检索的高效性,有效地实现高精度和高效率的检索任务。
标量检索
向量数据库中的标量检索指的是基于标量值的检索方法。在向量数据库中,每个向量都有一个或多个标量值,标量检索可以基于这些标量值进行检索,找到与查询相关的数据。例如文档检索中的作者特征检索。
标量过滤检索
标量过滤检索是指在向量数据库中,同时使用向量检索和标量检索两种方法进行检索。在标量过滤检索中,使用向量检索来匹配向量的相似度,同时使用标量检索来匹配向量的标量值。
非结构化数据检索
非结构化数据检索是指向量数据库支持非结构化原始数据,可以直接通过文本搜索文本。当用户通过文本搜索时,向量数据库通过测量文本之间的距离来确定两段文本的相似程度,返回文本的相似度。该功能适用于重复识别、文本搜索与匹配、问答等场景。
Loading...