MongoDB事务的理解和思考

  1. 3.2版本开始引入Read Concern,解决了脏读,支持Read Commit

  2. 3.6版本引入Session,支持多个请求共享上下文,为后续的事务支持做准备

  3. 4.0支持多行事务,但4.0的事务只是个过渡的版本

  4. 4.2开始支持多文档事务

1. Mongo的架构

复制集架构

这是最基本的分布式架构,有一个主节点和两个节点。

主节点一般负责写入的功能。用户往主节点中写入数据时,主节点会更新数据表,并将操作信息生成一条oplog,写入到日志文件中。用户可以通过指定writeConcern来控制写入的行为。

从节点一般都只提供读功能,可以用于读写分离。从节点会定时轮询读取 oplog 日志,根据日志内容同步更新数据表,保持与主节点一致。更新完成后,在返回更新时间戳给到主节点。

2. Mongo事务


五种一致性级别

一致性级别

语义

local

从本地读取最新数据,但不保证该数据已被写入大多数副本集成员。数据可能会被回滚

available

从本地读取最新数据,但不保证该数据已被写入大多数副本集成员。数据可能会被回滚

majority

读取已经write majority 的数据。保证数据不会被回滚,但是不一定是本地的最新数据

linearizable

读取已经write majority的数据,但会等待在读之前所有的write majarity确认

snapshot

与关系型数据库中的快照隔离级别语义一致

2.1. write concern

要了解一致性,首先要了解数据是怎么写入的。MongoDB的write concern包含下面3个参数:

参数

含义

取值

w

写操作需要复制并应用到多少个副本集成员才能返回成功

0:不关心成功,立即返回
1:写主成功则返回
majarity:写大多数成功,才返回。比如3个节点中,写2个成功

j

写操作对应的修改是否要被持久化到存储引擎日志中

true or false

wtitmeout

主节点等待足够数量节点确认的超时时间,跟w有关,比如:w是1,则是带主节点确认的超时时间

单位:ms

写流程

先看一下主从同步的写流程图。

  • appliedOpTime:从节点上 Apply 完一批 Oplog 后,最新的 Oplog Entry 的时间戳。

  • durableOpTime: 从节点上 Apply 完成并在 Disk 上持久化的 Oplog Entry 最新的时间戳

  1. 开启 WiredTiger 引擎层的一个事务,这个事务在提交时会顺便记录本次写操作对应的 Oplog
    Entry 的时间戳

  2. 执行 ReplicationCoordinatorImpl::_awaitReplication_inlock 阻塞在一个条件变量,等待N个从节点完成

  3. 被阻塞的用户线程会被加入到 _replicationWaiterList 中,从节点完成后,唤醒该线程

  4. 从节点会不断从主节点上拉取oplog,在执行完后会更新自己的点位信息,同时还会有另一个后台进程,向主节点不断的汇报当前从节点的appliedOpTime 和 durableOpTime。

  5. 主节点的唤醒逻辑中,维护着一个lastOptime,如果 j 为false,则取从节点的appliedOpTime,否则就取durableOpTime

  6. 如果从节点的opTime,大于或者等于主节点的opTime,则认为从节点已经Apply完成

  7. 等待有N个从节点满足条件,则唤醒用户线程。

详细的主从同步原理参考:MongoDB复制集同步原理解析-阿里云开发者社区

从上面的流程可以知道,Mongo的复制是一个异步的过程。不同的节点之间,复制的进度是一样的。在一个从节点上的最新数据,在另一个从节点上,可能就不是最新的了。为此mongo也提供了local 等 其他level来满足各种场景的读需求。

2.2. read concern

mongo的read concern 相比 write concern的实现要复杂的多的。

2.2.1. 快照

在介绍各个level的实现时,先来连接一下mongo中的快照。WiredTiger 为了保证并发事务在执行时,不同事务的读写不会互相 block,提升事务执行性能。采用的是类似PostgreSQL的MVCC的多版本控制方式。而不是像MySQL那样,用回滚段来保存数据。
Oracle数据库和MySQL中的innodb引擎相比较,PostgreSQLMongoDB的MVCC实现方式的优缺点如下。

优点:

  1. 事务回滚可以立即完成,无论事务进行了多少操作;

  2. 数据可以进行高频更新,不必像Oracle和MySQL的Innodb引擎那样需要经常保证回滚段不会被用完,也不会像oracle数据库那样经常遇到“ORA-1555”错误的困扰;

缺点:

  1. 旧版本数据需要清理。PostgreSQL清理旧版本的命令成为Vacuum,MongoDB中则由WiredTiger引擎负责清理;

ORA-1555错误:
产生ORA-01555错误的根本原因是由于UNDO块被覆盖,查询语句不能获取到查询语句发起时刻所构造的数据副本。

2.2.2. 快照的版本号管理

在MongoDB中,Server层用oplog时间戳来标识的顺序,但在WiredTiger中,是用事务ID(基于 Internal Transaction ID)来标识顺序。这两者在实现上毫无关联。在并发的场景下,这会导致Server层提交事务顺序和实际实施的事务顺序不一致。举个例子,Client A像Server层并发提交了两个事务T1和T2,在Server层看到的顺序是,T1先于T2。但在WiredTiger层,实际执行的可能是T2先于T1。

为了解决Server层和WiredTiger的顺序不一致的问题,Mongo引入了事务时间戳机制。Server层可以通过WT_SESSION::timestamp_transaction显式的为WiredTiger的事务指定一个时间戳(commit_ts)。有了这个时间戳,就能实现read as of a timestamp(指定时间戳读)特性。同时,WiredTiger引擎会维护一个majority committed 数据视图,也就是快照。每个快照的commit_ts时间戳被称为majority committed point,简称mcp。

2.2.3. 快照的内存管理

在MongoDB的4.2版本中,多版本的数据还是会存放在cache’中的。如果cache中一些旧的数据不及时清理,就会导致cache被耗光,从而降低性能。为此,WiredTiger提供了一个set_timestamp()函数来让Server层设置自己的Application Timestamp。

这里面时间戳有很多个,这里不展开。作用的话,看描述就能了解个大概了。先来看两个比较重要。

  • oldest
    前面提到,Wired Tiger的多版本数据是在cache中维护的,且每个版本跟一个时间戳关联。cache中不能一直保留所有版本的数据,这会撑爆cache。为此WiredTiger 提供设置 oldest timestamp 的功能,并允许由 Server层 设置该时间戳,来标哪些版本数据是没必要保存在内存中(也就是即使丢弃了,影响读取的一致性)。但这就意味这,Server 层需要频繁(及时)更新 oldest timestamp ,避免让 WT cache 压力太大。
    oldest timestamp的描述中,可以看出,WiredTiger引擎中不会缓存oldest timestamp之前的所有版本,比如活跃事务对应的版本数据,还是要保存的。

  • stable
    表示该时间戳之前的数据都不会被回滚。stable timestamp 对应的快照被存储引擎持久化后,称之为 stable checkpoint
    在3.x版本里,MongoDB的回滚,主要是通过不断的回滚oplog来实现的,但这种回滚的效率很慢。4.0通过引入stable checkpoint,可以通过调用接口,将数据回滚到某一个checkpoint。Server层在数据同步到大多数节点(majarity write),才会更新stable timestamp,而且stable timestamp 之前的数据代表是可以写到checkpoint,之后的则不会,所以这些数据是不会被回滚的。
    同样的,Server层必须频繁的更新stable timestamp,否则就会影响WiredTiger的checkpoint行为,甚至会导致cache不够用。

  • pinned
    当前 WiredTiger 收到新的 oldest timestamp 时,会取oldest_reader(当前的最老的活跃事务,即时间戳最小 )和 oldest timestamp中的 较小者,min(oldest_reader,oldest timestamp), 并赋值 pinned timestamp。当进行历史版本数据的清理时,因为pinned timestamp = min(oldest_reader,oldest timestamp),所以 pinned timestamp 之后的版本不会被清理 ,从而保证了 mcp snapshot 的有效性。

2.2.4. mcp的更新

在了解mcp的更新之前,先了解一下insert的插入流程。Mongo的事务采用的是两阶段(2PC)提交:

  1. Client 向Server层发送一条Insert命令,Server 层收到Insert命令之后会先获取一个锁,并调用LocalOplogInfo::getNextOpTimes() 来给其即将要写的 oplog entry 生成 ts 值。

  2. Server 层会调用 WiredTigerRecoveryUnit::setTimestamp 开启 WiredTiger 引擎层的事务, 后续这个事务中所有的写操作的 commit_ts 都设置为 oplog entry 的 ts

  3. insert 操作在引擎层执行完成后,会把其对应的 oplog entry 也通过同一事务写到 WiredTiger Table 中,之后事务才提交
    在第二步,就可以看到,commit_ts 和 oplog 的ts实际上是一样的。 所以在mcp中的ts实际上就是oplog中的ts。
    然后,再来看一下mcp是怎么更新的。mcp的更新分为主节点和从节点两个角度:

  • 从节点的角度来看:

    • 心跳机制:

      • 默认情况下,每个副本集节点都会每 2 秒向其他成员发送心跳( replSetHeartBeat 命令)

      • 其他成员返回的信息中会包含 $replData 元信息,Secondary 节点会根据其中的 lastOpCommitted 直接推进自己的 mcp

      • 心跳回复中,也包含了节点的lastAppliedOpTimelastDurableOpTime。但是从节点一般都不会用这些来自己更新自己的mcp。总是等待主节点的lastOpCommittedOpTime传过来,然后直接设置。这样就可以尽可能的保证mcp跟主节点一致。

    • 增量同步机制:心跳机制,每2秒发送一次消息,明显是不够实时的

      • 主从同步中,有一个oplog fetcher进程,是不断的从主节点拉取数据的。拉取的信息中就包含了 $replData 元信息。同样的会根据lastOpCommitted推荐mcp。

  • 主节点的角度来看:

    • 心跳机制:可以根据从节点的心跳信息中的计算出mcp

    • oplog增量同步:在主从同步章节中,我们可以知道,从节点是会不断的从主节点上拉取oplog进行同步的。 从节点在apply完oplog之后,会向从节点返回进度。主节点就能通过这些信息来不断的更新自己的mcp。

2.2.5. local/available 实现

available跟local的语义相差并不是很大。主要区别在于,在分片场景下,available 可能会返回孤儿文档。
local 的语义理解起来很简单,但实现上却很复杂,涉及到重新选主,数据回滚和同步等等。这里不展开。后面单独写一篇文章用来说明。

2.2.6. majarity 实现

读取已经majority commited的数据。从前面的mcp的介绍,可以知道,mcp中的都是已经majority commited的数据,直接根据mcp判断即可。

2.2.7. linearizable 实现

linearizable保证线性一致性。既保证能读取到最新的数据(Recency Guarantee),也保证读到数据不会被回滚(Durability Guarantee)。Mongo为了简化linearizable的实现,将linearizable限定在主节点中执行。因为MongoDB的写操作,也只能在主节点中执行,因此将分布式的线性一致性,简化成单机的线性一致性。但还有两个分布式的问题是需要解决的:

  1. 重新选主:当读取过程中,主节点挂了,需要重新选主时。如何保证线性一致性

  2. 如何保证读操作是在最新的写操作之后,并且该写操作不会被回滚
    Mongo用一个牺牲了延迟性的办法来解决这个办法。当Client指定了linearizable Read Concern时,在读取了主节点上最新的数据之后,会再新增一条noop的oplog,并且指定为majority write concern。如果这个noopoplog执行成功,则说明该oplog之前的数据,都已经满足了majority commited了。
    这种实现方式很巧妙,但一个单纯的读操作,会触发写操作,而且,延迟也比较大。

2.2.8. snapshot 实现

snapshotread concern是专门用于多文档事务。如果一个事务涉及到多文档,无论是local还是majority,都会被升级到snapshot。值得注意的是,snapshot 还隐含了majority语义。
在事务开始通过begin transaction创建一个事务, 并生成一个WiredTiger snapshot,然后在整个事务过程中读写都是使用这个事务ID,最后,通过commit transaction来结束事务。
为了保证性能,Mongo的事务也做了一些限制。

  1. 事务的生命周期不能超过 transactionLifetimeLimitSeconds (默认60s),该配置可在线修改

  2. 事务修改的文档数不能超过 1000 ,不可修改

  3. 事务修改产生的 oplog 不能超过 16mb,这个主要是 MongoDB 文档大小的限制, oplog 也是一个普通的文档,也必须遵守这个约束。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/698571.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

OceanBase v4.3特性解析:新功能“租户克隆”的场景与应用指南

熟悉或曾用过OceanBase的朋友,对于“多租户”这一理念定不陌生。OceanBase的租户概念,与我们熟知的传统数据库实例颇为相似。举例来说,OceanBase的租户支持MySQL兼容模式,对于用户而言,选用一个MySQL兼容模式的租户&am…

HTML满屏漂浮爱心

目录 写在前面 满屏爱心 代码分析 系列推荐 写在最后 写在前面 小编给大家准备了满屏漂浮爱心代码&#xff0c;一起来看看吧~ 满屏爱心 文件heart.svg <svg xmlns"http://www.w3.org/2000/svg" width"473.8px" height"408.6px" view…

TiDB学习1:TiDB体系架构概览

1. TiDB体系结构 水平扩容或者缩容金融级高可用实时 HTAP云原生的分布式数据库兼容MySQ 5.7 协议 2. TiDBsever 处理客户端的连接SQL语句的解析和编译关系型数据与 kv 的转化(insert语句)SQL 语句的执行执行 online DDL垃圾回收(GC) 3. TiKV 数据持久化(行存)副本的强一致性和…

一、Windows 环境安装 Visual Studio — 全网最详细教程

目录 一、下载 Visual Studio 软件 二、运行安装程序、选择工作负载 三、完成安装&#xff0c;启动 Visual Studio 四、创建和运行代码 一、下载 Visual Studio 软件 Visual Studio 的下载网站如下&#xff1a; Visual Studio: 面向软件开发人员和 Teams 的 IDE 和代码编辑…

第33次CSP认证Q3:化学方程式配平

&#x1f344;题目描述 为了配平一个化学方程式&#xff0c;我们可以令方程式中各物质的系数为未知数&#xff0c;然后针对涉及的每一种元素&#xff0c;列出关于系数的方程&#xff0c;形成一个齐次线性方程组。然后求解这个方程组&#xff0c;得到各物质的系数。这样&#x…

【脚本】使用脚本备份docker中部署的mysql数据库

v1版本明文密码方式&#xff1a; #!/bin/bash# 定义 MySQL 容器名称和数据库信息 container_name"mysql_container" db_user"root" db_password"your_password"# 定义要备份的数据库列表 databases("database1" "database2"…

回归预测 | Matlab实现SMA-GPR黏菌算法优化高斯过程回归多变量回归预测

回归预测 | Matlab实现SMA-GPR黏菌算法优化高斯过程回归多变量回归预测 目录 回归预测 | Matlab实现SMA-GPR黏菌算法优化高斯过程回归多变量回归预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 Matlab实现SMA-GPR黏菌算法优化高斯过程回归多变量回归预测 1.Matlab实现…

tomcat--java的安装

组成 语言、语法规范。关键字,如: if、for、class等源代码 source code依赖库&#xff0c;标准库(基础)、第三方库(针对某些应用)。由于底层代码太难使用且开发效率低&#xff0c;封装成现成的库JVM虚拟机。将源代码编译为中间码即字节码后,再运行在JVM之上 jdk和jre 概念 j…

win server服务器 关闭危险端口 135,137,138,139,445的方法

通过防火墙来控制 打开控制面板 选择检查防火墙状态 选择高级设置 选择入站规则&#xff0c;再新建规则 选择端口&#xff0c;下一步 选择端口应用于啥协议&#xff0c;再指定端口&#xff0c;再下一步 选择阻止连接&#xff0c;下一步 下一步 给规则别名一下&#xff0c;方便…

解决离线服务器无法加载HuggingFaceEmbeddings向量化模型的问题

由于服务器是离线的&#xff0c;因此我先在本地到huggingface官网下载模型text2vec&#xff0c;然后上传到服务器上运行&#xff0c;报错&#xff1a; (MaxRetryError(HTTPSConnectionPool(host\huggingface.co\, port443): Max retries exceeded with url: /api/models/senten…

C语言 8 函数递归

目录 1. 递归是什么&#xff1f; 2.递归的限制条件 3. 递归举例1 4. 递归举例2 5.迭代 6. 递归举例3 拓展学习&#xff1a; 1. 递归是什么&#xff1f; 递归是学习C语⾔函数绕不开的⼀个话题&#xff0c;那什么是递归呢&#xff1f; 递归其实是⼀种解决问题的⽅法&#xff0c…

2024全新小狐狸AI免授权源码

源码安装说明&#xff1a; 下 载 地 址 &#xff1a; runruncode.com/php/19757.html 1. 在宝塔新建一个站点&#xff0c;选择 PHP 版本为 7.2、7.3 或 7.4。将压缩包上传到站点的根目录&#xff0c;并设置运行目录为 /public。 2. 导入数据库文件&#xff0c;该文件位于 …