全部文档
当前文档

暂无内容

如果没有找到您期望的内容,请尝试其他搜索词

文档中心

概念解释

最近更新时间:2023-12-05 11:51:22

非结构化数据

非结构化数据包括图像、视频、音频和自然语言等信息,这些信息不遵循预定义的模型或组织方式。这种数据类型占据了世界数据的约80%,可以使用各种人工智能(AI)和机器学习(ML)模型将其转换为向量。

嵌入向量

嵌入向量是指通过学习非结构化数据(如电子邮件、物联网传感器数据、社交软件照片、蛋白质结构等)的特征和关系,将数据转换为向量形式。数学上,嵌入向量是由浮点数或二进制数组成的数组。现代的嵌入技术被广泛应用于将非结构化数据转换为嵌入向量。

向量相似度搜索

向量相似度搜索是将向量与数据库进行比较,以找到与查询向量最相似的向量的过程。使用近似最近邻搜索算法加速搜索过程。如果两个嵌入向量非常相似,那么原始数据源也是相似的。

相似度度量

在 Milvus 中,相似度度量用于衡量向量之间的相似性。选择一个好的距离度量方法可以显著提高分类和聚类的性能。根据输入数据的形式,选择特定的相似度度量方法可以获得较好的性能。
对于浮点嵌入,通常使用以下指标:

  • 欧氏距离(L2):该指标通常用于计算机视觉领域(CV)。
  • 内积(IP):该指标通常用于自然语言处理领域(NLP)。

在二进制嵌入中广泛使用的度量标准包括:

  • 汉明距离:这个度量标准通常用于自然语言处理(NLP)领域。
  • Jaccard距离:这个度量标准通常用于分子相似性搜索领域。

索引

索引是一种特殊的数据结构,用于快速查找和访问数据,存储在内存中。索引本身并不存储数据,而是存储指向数据存储位置的指针或键值对。

索引类型

大多数由Milvus支持的向量索引类型使用近似最近邻搜索(ANNS),包括:

  • FLAT:FLAT最适合于在小规模,百万级数据集上寻求完全准确和精确的搜索结果的场景。
  • IVF_FLAT:IVF_FLAT是一种量化索引,最适合于在精度和查询速度之间寻求理想平衡的场景。
  • IVF_SQ8:IVF_SQ8是一种量化索引,最适合于在磁盘、CPU和GPU内存消耗非常有限的场景中显著减少资源消耗。
  • IVF_PQ:IVF_PQ是一种量化索引,最适合于在高查询速度的情况下以牺牲精度为代价的场景。
  • HNSW:HNSW是一种基于图形的索引,最适合于对搜索效率有很高需求的场景。
  • ANNOY:ANNOY是一种基于树形结构的索引,最适合于寻求高召回率的场景。
文档导读
纯净模式常规模式

纯净模式

点击可全屏预览文档内容
文档反馈