pymilvus创建IVF_PQ向量索引

索引简介

索引的作用是加速大型数据集上的查询。

目前,向量字段仅支持一种索引类型,即只能创建一个索引。

milvus支持的向量索引类型大部分使用近似最近邻搜索算法(ANNS,approximate nearest neighbors search) 。ANNS 的核心思想不再局限于返回最准确的结果,而是仅搜索目标的邻居。 ANNS 通过在可接受的范围内牺牲准确性来提高检索效率。

IVF_PQ索引

索引IndexFlatL2和IndexIVFFlat存储完整的向量。为了扩展到非常大的数据集,Faiss 提供了基于乘积量化的有损压缩来压缩存储的向量的变体。

压缩基于Product Quantizer,应用于要编码的向量的子向量。

Product Quantization是一种有效的量化方法,它通过将高维向量切分为若干子向量,然后分别对子向量进行量化,最终将子向量的量化结果组合成新的低维码本,从而实现数据的压缩。

把向量用质心编码表示,即量化。质心代表聚类中的所有向量。

PQ的主要目的是节省了大量内存。也能提升速度,但并不多。

IVF_PQ 在量化向量的乘积之前执行 IVF 索引聚类。

索引构建参数:

m:乘积量化因子数,表示每个向量被分成多少个子向量

nlist:集群单元数量

nbits:每个向量用多少位表示

使用attu创建IVF_PQ索引

在这里插入图片描述

在这里插入图片描述

使用pymilvus创建IVF_PQ索引

from pymilvus import (connections,Collection,
)collection_name = "hello_milvus"
host = "192.168.230.71"
port = 19530
username = ""
password = ""print("start connecting to Milvus")
connections.connect("default", host=host, port=port,user=username,password=password)coll = Collection(collection_name, consistency_level="Bounded",shards_num=1)print("Start creating index")
index_params = {"index_type": "IVF_PQ","metric_type": "L2","params": {"nlist": 64,"m": 16,"nbits": 8}
}coll.create_index(field_name="embeddings",index_params=index_params,index_name="idx_em"
)print("done")

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/601192.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

NCI SEER breast cancer美国国立癌症研究所数据库乳腺癌生存分析和乳腺癌预测模型(2024年新项目)

​作者Toby,来源公众号:python生物信息学,美国国立癌症研究所数据库乳腺癌生存分析和乳腺癌预测模型 NCI美国国立癌症研究所(NationalCancerInstitute,NCI) 美国国立癌症研究所(NCI)是美国国家卫生研究院(NIH&#xf…

职场必备!微信自动回复神器来袭,让你轻松应对消息轰炸!

随着消息数量的增加,对于个人和企业来说,及时回复消息变得越来越具有挑战性。幸运的是,现在有了微信管理系统,为我们提供了一种解决方案,让您轻松管理和应对客户的消息! 下面,让我们来看看微信…

C语言面试题之判定字符是否唯一

判定字符是否唯一 实例要求 实现一个算法,确定一个字符串 s 的所有字符是否全都不同 实例分析 1、使用一个大小为 256 的bool数组 charSet 来记录字符是否出现过;2、遍历字符串时,如果字符已经在数组中标记过,则返回 false&a…

vue vue3 手写 动态加载组件

效果展示 一、需求背景: # vue3 项目涉及很多图表加载、表格加载 #考虑手写一个动态加载组件 二、实现思路 通过一个加载状态变量,通过v-if判断,加载状态的变量等于哪一个,动态加载组件内部就显示的哪一块组件。 三、实现效果…

USACO 2024 Open Bronze铜组题解

迟到了一个月的题解...... Logical Moos: 啊这题放在铜组T1雀食有点BT...... 首先,我们关注l前第一和r最后那两组。如果这俩有一个是true,那答案肯定也是true。 否则,在l和r外边的都是false。那我们就只用仔细看l和r中间的玩意儿。对于l和…

机器学习中的GBDT模型及其优缺点(包含Python代码样例)

目录 一、简介 二、优缺点介绍 三、Python代码示例 四、总结 一、简介 GBDT(Gradient Boosting Decision Tree)是一种集成学习算法,被广泛应用于机器学习中的回归和分类问题。它由多个决策树组成,每个决策树都通过迭代逐渐提升…

libVLC 提取视频帧

在前面的文章中,我们使用libvlc_media_player_set_hwnd设置了视频的显示的窗口。 libvlc_media_player_set_hwnd(vlc_mediaPlayer, (void *)ui.widgetShow->winId()); 如果我们想要提取每一帧数据,将数据保存到本地,该如何操作呢&#x…

Mac上怎么合并多张图片?

Mac上怎么合并多张图片?上班过的小伙伴都应该知道,合并拼接图片是一件非常重要且经常需要使用到的图片处理技术,将多张图片合并拼成一张之后能够展现出更多的图片内容。在Mac电脑上,合并多张图片是一项常见的任务,无论…

MySQL——查询数据的处理

一、并列 连接两个数据列的值,并进行输出的格式化处理(显示为一种统一的格式) concat( 列 1 格式化字 符 ) mysql> select concat(vend_name, vend_country) from vendors; --------------------------------- | concat(vend_name, ve…

数据库面试题

文章目录 事务未提交和提交事务的4大特征事务的隔离级别并发事务的问题MVVCundo log 和 redo log记录的隐藏字段readview(读视图) 事务未提交和提交 事务未提交时数据存在于数据库系统的缓存中,而在事务提交后,数据才会被写入到磁…

吴恩达深度学习笔记:深层神经网络(Deep Neural Networks)4.5-4.8

目录 第一门课:神经网络和深度学习 (Neural Networks and Deep Learning)第四周:深层神经网络(Deep Neural Networks)4.5 为什么使用深层表示?(Why deep representations?) 第一门课:神经网络和深度学习 (…

突破编程_前端_SVG(基础元素介绍)

1 rect 矩形 在 SVG 中&#xff0c;<rect> 元素用于创建圆形。 &#xff08;1&#xff09;基本语法 <rectx"x坐标"y"y坐标"width"宽度"height"高度"rx"可选&#xff1a;圆角x半径"ry"可选&#xff1a;圆角…