最近更新时间:2023-12-05 11:51:22
非结构化数据包括图像、视频、音频和自然语言等信息,这些信息不遵循预定义的模型或组织方式。这种数据类型占据了世界数据的约80%,可以使用各种人工智能(AI)和机器学习(ML)模型将其转换为向量。
嵌入向量是指通过学习非结构化数据(如电子邮件、物联网传感器数据、社交软件照片、蛋白质结构等)的特征和关系,将数据转换为向量形式。数学上,嵌入向量是由浮点数或二进制数组成的数组。现代的嵌入技术被广泛应用于将非结构化数据转换为嵌入向量。
向量相似度搜索是将向量与数据库进行比较,以找到与查询向量最相似的向量的过程。使用近似最近邻搜索算法加速搜索过程。如果两个嵌入向量非常相似,那么原始数据源也是相似的。
在 Milvus 中,相似度度量用于衡量向量之间的相似性。选择一个好的距离度量方法可以显著提高分类和聚类的性能。根据输入数据的形式,选择特定的相似度度量方法可以获得较好的性能。
对于浮点嵌入,通常使用以下指标:
在二进制嵌入中广泛使用的度量标准包括:
索引是一种特殊的数据结构,用于快速查找和访问数据,存储在内存中。索引本身并不存储数据,而是存储指向数据存储位置的指针或键值对。
大多数由Milvus支持的向量索引类型使用近似最近邻搜索(ANNS),包括:
纯净模式