Milvus的存储/计算分离

前言

根据数据面与控制面相隔离的原则,从可扩展性和灾难恢复来看,Milvus由4个相互独立的层组成

访问层

由一系列无状态的代理组成,访问层是系统和用户之间的第一层,它主要是验证客户端请求和规整返回的结果

  • 代理是无状态的,它使用负载均衡组件例如Nginx, Kubernetes Ingress, NodePort和LVS提供统一的服务地址
  • 因为Milvus采用大规模并行处理架构,代理需要在返回给客户端最终结果之前合并和后置处理中间结果

协调服务

协调服务将任务分配给工作节点,它起到系统大脑的作用。它处理的任务包括:集群拓扑图管理,负载均衡,时间戳生成,数据申报和数据管理。

有三种类型的协调者:根协调者,数据协调者,查询协调者

根协调者

根协调者处理DDL和DML请求,比如创建和删除集合,分区或者索引,也会像管理TSO(oracle时间戳)和发布时间心跳

查询协调者

查询协调者管理查询节点的拓扑图和负载均衡,从不断增长的段切换到封闭的段。

数据协调者

数据协调者管理数据节点和索引节点的拓扑图,维护元数据,触发刷新,压缩和索引构建以及其他数据底层操作。

工作节点

类似于人的胳膊和腿,工作节点无脑的执行协调服务的指令和执行代理的DML命令。得益于存储和计算的分离,工作节点是无状态的,当部署在kubernates时,它促进了系统的扩展性和灾难恢复。有三种类型的工作节点

查询节点

查询节点检索增量日志数据,并通过订阅日志代理将其转化为不断增长的段,从对象存储里面加载历史数据,在向量和标量数据中运行混合搜索

数据节点

数据节点通过订阅日志代理检索增量日志数据,处理突变请求,打包日志数据到日志快照,并将他们存储在对象存储。

索引节点

索引节点构建索引,索引节点不需要驻留在内存中,并可以被serverless 框架实现

存储

存储是系统的骨干,负责数据的持久化。它由元数据存储,日志代理和对象存储组成

元数据存储

元数据存储存储元数据的快照,比如集合schema,消息消费的checkpoint。存储元数据要求极高的可用性,强一致性和事务支持。所以milvus选择etcd作为元数据存储。milvus也使用etcd作为服务注册和健康检测。

对象存储

对象存储存储日志文件的快照、标量和向量数据的索引文件,中间查询结果。milvus使用minIO作为中间存储,能非常方便的部署在AWS S3和 Azure Blob,二者都是世界受欢迎的,性价比非常高的存储服务。然后对象存储具有很高的访问延迟,并按查询次数收费。为了提高它的性能和降低费用,milvus计划在内存或者基于SSD的缓存池实现冷热数据分离

日志代理

日志代理是一个发布订阅系统,并支持回放。它负责流式数据的持久化和事件通知。当工作节点从系统崩溃中恢复的时候它也需要确保增量数据的完整性。milvus集群使用pulsar作为日志代理;milvus独立部署使用rocksDB作为日志代理。此外,日志代理可以很容易地被诸如Kafka之类的流数据存储平台所取代。

milvus围绕着日志代理建设,并秉承日志就是数据的理念,所以milvus没有使用物理表而是通过日志持久化和日志快照来保证数据可靠性。

日志代理是milvus的骨干。由于其天生的发布订阅机制,它负责数据持久化和读写分离。上面的图例简单描绘了该机制,该系统分为两个角色,日志代理(维护log sequence)和日志订阅者。前者记录所有改变集合状态的操作,后者订阅订阅log sequence来更新本地数据,并以只读副本的形式提供服务。发布订阅机制还在变更数据捕获(CDC)和全球分布式部署方面为系统的可扩展性腾出了空间。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/705457.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

点量云流分享:关于实时渲染云推流技术

提到云串流或者云推流很多人可能和游戏关联起来,其实这个技术的应用领域不仅仅是游戏,还有云上旅游、考古、智慧园区、智慧城市、虚拟仿真等等行业。其解决的问题是将一些大型的3D应用程序放在云端,程序在运行的时候也是在云端,这…

【Win】一键恢复IE11工具:让旧版浏览器在新系统中重生

微软在2020年8月的时候就已经公告IE11的生命周期终点,多次提醒将在2022年6月15日起不再支持IE 11,呼吁用户尽快转换到Chromium-based Microsoft Edge。微软也陆续终止旗下服务支持这个旧式浏览器。2021年3月,Chrome浏览器已不支持旧IE App。2…

学习Nginx(一):基础

介绍 Nginx是一个高性能的HTTP和反向代理的web服务器,它的设计重点是高并发、高性能和低内存消耗。它常被用于提供静态内容、负载均衡和作为Web服务器。 Nginx具有以下功能和特点: 静态文件服务:作为一个Web服务器,Nginx可以处…

vue3专栏项目 -- 四、前后端结合(上)

一、前后端分离是什么 前面我们一直在和静态数据打交道,虽然流程可以跑个半通,但是静态数据还是给我们造成了诸多不便,现在我们是时候用上后端了。 现在的应用开发模式,自从SPA出现以后,前端和后端可以平行的进行对应…

一文详细解析Google编码规范工具cpplint的下载安装与使用

目录 一、什么是cpplint 二、cpplint能实现的功能 三、cpplint的下载与使用 1、配置python环境 2、安装cpplint 四、cpplint常用命令讲解 1、常用命令查看 2、常用命令详解 3、命令使用方式 五、 cpplint的实用技巧 1、集成cpplint 1.1、修改调用接口. 1.2、直接把…

传输层协议——TCP协议

TCP协议又叫传输控制协议,TCP/IP协议是计算机通信网络中目前使用最多的协议,同时也融入了生活的方方面面,不管是浏览网页使用的http/https协议、物联网设备使用的MQTT/MQTTS协议与下载文件使用的ftp协议、工业以太网中使用的Modbus TCP协议等…

学习笔记-C++

目录 1、何为常量 2、关键字 3、实型 4、水平制表符 5、string字符串 6、C中的三目运算符 7、随机数种子 8、结构体 9、各的区 10、引用 11、函数默认参数 12、函数占位参数 13、函数重载 14、私有属性 15、让另一个类作为本类的成员 16、声明和实现的文件…

【智能算法】最优捕食算法(OFA)原理及实现

目录 1.背景2.算法原理2.1算法思想2.2算法过程 3.结果展示4.参考文献5.代码获取 1.背景 2017年,GY Zhu受到动物行为生态学理论启发,提出了最优捕食算法(Optimal Foraging Algorithm, OFA)。 2.算法原理 2.1算法思想 OFA灵感来源…

压力测试及常用的压测工具!

前言 压力测试是一种评估系统性能的方法,通过模拟大量用户同时访问系统或执行特定操作,以测试系统的负载能力和稳定性。 压力测试可以帮助发现系统在高负载情况下的性能瓶颈、错误或故障,从而提前进行优化和改进。在进行压力测试时&#xf…

多线程-线程安全

目录 线程安全问题 加锁(synchronized) synchronized 使用方法 synchronized的其他使用方法 synchronized 重要特性(可重入的) 死锁的问题 对 2> 提出问题 对 3> 提出问题 解决死锁 对 2> 进行解答 对4> 进行解答 volatile 关键字 wait 和 notify (重要…

如何管理测试计划?测试计划管理都使用哪些在线工具?YesDev

3.2 测试计划 测试计划Testing plan,描述了要进行的测试活动的范围、方法、资源和进度的文档;是对整个信息系统应用软件组装测试和确认测试。 3.2.1 管理测试计划 在测试计划,可以查看、管理和维护全部测试计划。 测试计划列表 点击【测…

Python送你小花花

快到520了,准备好送上你的爱意了吗? 还记得去年从网上模仿了一篇python使用turtle画的小花花程序,当时还没有转行到程序员行业,刚刚入门学习编程,还在纠结是学习python、Java还是C#的时候。 总会被一些猎奇的内容吸引&…