金山云-文档中心-概念解释

向量数据库Milvus

查看更多结果

未找到含当前关键字的文档标题

页面目录

全部展开全部收起

产品更新动态

未找到含该关键词的产品

文档中心

向量数据库Milvus

产品简介

概念解释

最近更新时间：2023-12-05 11:51:22



非结构化数据

非结构化数据包括图像、视频、音频和自然语言等信息，这些信息不遵循预定义的模型或组织方式。这种数据类型占据了世界数据的约80%，可以使用各种人工智能（AI）和机器学习（ML）模型将其转换为向量。

嵌入向量

嵌入向量是指通过学习非结构化数据（如电子邮件、物联网传感器数据、社交软件照片、蛋白质结构等）的特征和关系，将数据转换为向量形式。数学上，嵌入向量是由浮点数或二进制数组成的数组。现代的嵌入技术被广泛应用于将非结构化数据转换为嵌入向量。

向量相似度搜索

向量相似度搜索是将向量与数据库进行比较，以找到与查询向量最相似的向量的过程。使用近似最近邻搜索算法加速搜索过程。如果两个嵌入向量非常相似，那么原始数据源也是相似的。

相似度度量

在 Milvus 中，相似度度量用于衡量向量之间的相似性。选择一个好的距离度量方法可以显著提高分类和聚类的性能。根据输入数据的形式，选择特定的相似度度量方法可以获得较好的性能。
对于浮点嵌入，通常使用以下指标：

欧氏距离（L2）：该指标通常用于计算机视觉领域（CV）。
内积（IP）：该指标通常用于自然语言处理领域（NLP）。

在二进制嵌入中广泛使用的度量标准包括：

汉明距离：这个度量标准通常用于自然语言处理（NLP）领域。
Jaccard距离：这个度量标准通常用于分子相似性搜索领域。

索引

索引是一种特殊的数据结构，用于快速查找和访问数据，存储在内存中。索引本身并不存储数据，而是存储指向数据存储位置的指针或键值对。

索引类型

大多数由Milvus支持的向量索引类型使用近似最近邻搜索（ANNS），包括：

FLAT：FLAT最适合于在小规模，百万级数据集上寻求完全准确和精确的搜索结果的场景。
IVF_FLAT：IVF_FLAT是一种量化索引，最适合于在精度和查询速度之间寻求理想平衡的场景。
IVF_SQ8：IVF_SQ8是一种量化索引，最适合于在磁盘、CPU和GPU内存消耗非常有限的场景中显著减少资源消耗。
IVF_PQ：IVF_PQ是一种量化索引，最适合于在高查询速度的情况下以牺牲精度为代价的场景。
HNSW：HNSW是一种基于图形的索引，最适合于对搜索效率有很高需求的场景。
ANNOY：ANNOY是一种基于树形结构的索引，最适合于寻求高召回率的场景。

文档导读

上一篇：应用场景

下一篇：购买与计费

纯净模式常规模式

纯净模式

点击可全屏预览文档内容

计算

办公云

人工智能

其它

网络

云监控

消息队列

应用服务

管理与审计

数据库

大数据

开发者工具

合作与生态

用户中心

存储与云分发

视频云服务

云安全

合规性