PostgreSQL 数据库归档最近被问及的问题问题 与 4 毋 处世学

9c2eb50c91e2d3aba4064337e38168b2.png

开头还是介绍一下群,如果感兴趣PolarDB ,MongoDB ,MySQL ,PostgreSQL ,Redis, Oceanbase, Sql Server等有问题,有需求都可以加群群内,可以解决你的问题。加群请联系 liuaustin3 ,(共1790人左右 1 + 2 + 3 + 4 +5) 4群(300+ 到350将关闭自由申请),另欢迎 OpenGauss 的技术人员加入。

在开始文章前,本人应邀参加12月28日的一场分享活动,这里做做广告。

0c631832641a9a9dd60077f92729d854.png

还是老规矩,技术加生活,先说技术,后说生活的感悟和人生的学习。

在PostgreSQL 中很少被提及的一个问题,归档,而这里经常有人问这个问题,所以需要写一期来说说关于ARCHIVE 的问题。

首先我们需要提出几个问题,

1 为什么要归档,PG中归档了什么

2  什么时间进行归档,归档的原理与频率

3  要怎么在PG中进行归档,归档的方式

在开始研究我们的archive 的问题时我们需要先把archive的知识拉平

首先在pg_wal目录中的日志本身,至少会维护一个当前正在写入的文件,日志中记录了操作中对于数据库的全部更改项,这里需要注意在 archive关闭的状态下,他会将不再使用WAL文件重命名来和重新利用数据库

问题1 ,在PG中WAL日志作为数据库中最核心的日志与保障数据库数据安全的方法,在运行中会产生大量的WAL日志,这里其中包含FULLPAGE  导致的WAL 过大的问题,一般来讲我们认为日志本身的内容占据WAL的数据的内容的30%,而FULL PAGE 的部分占据70%左右的数据,所以PG的WAL归档是一个必须的操作,即时的解决你的磁盘空间重复利用的问题。

在归档中,有一个问题,关于如何触发 archive,这里主要有几点

1   当前的 wal 被写满,并且产生了新的wal文件

2  手动通过pg_switch_wal 来进行数据库的产生新的PG_WAL 文件并且在产生新的PG_WAL 文件后,会对老的WAL 文件产生归档的触发条件。

3  自动设置超时时间archive_timeout 参数并reload 后,到时间会强行进行产生 pg_wal的工作,并且对数据的wal 进行归档。

所有产生数据归档的触发点很多,总结一点产生wal  文件的时候就会触发归档命令。

这里还有一些细节

1 归档如果失败,则归档会持续的被触发,错误日志中会记录归档失败的信息。

2  归档中因为某些原因可以设置, wal_keep_size来解决一些关于日志被归档后,但日志在物理复制中还未被应用而导致的复制中断的问题。

postgres=# show wal_keep_size;

 wal_keep_size 

---------------

 0

(1 row)

3 基于归档的的方式方法,postgresql给出的是一个开放性的方案,在这样的方案中,数据库并没有设定具体怎么去归档,这里比如有传统的方案,S3方案,或者脚本的方案等等,所以归档这个事情是需要自行进行设计和根据自己的情况来进行安排的。

86cbdbbeec4656d6b51675f5a854cb8b.png

4  在归档中,会出现一些问题,比如数据库恢复后,在进行归档发现归档文件中已经有这个文件了,那么归档必然失败,所以需要手动处理一下,将重复的文件进行清理,然后就可以正常归档了。

5  archive timeout 不要设置的太短,太短会强制产生PG-WAL 文件这些文件都会被填充值,造成PG_WAL膨胀的厉害。

通过命令可以查看当前正在使用的日志文件

SELECT pg_walfile_name(pg_current_wal_lsn());

test=# SELECT pg_walfile_name(pg_current_wal_lsn());pg_walfile_name      
--------------------------000000010000000000000003
(1 row)

这里PG通过pg_wal/archive_status 来进行数据的归档判断,并且归档进程每60秒进行一次尝试工作,调用pgarch_archivercopyloop() 来处理每个等待处理的WAL 段,通过archive_command 来进行数据的归档的处理

但归档的问题主要出在一个部分,就是归档中如何判断要进行下一个文件的归档,这里是通过archive_status 来进行判断的,但这里的问题是,每次需要对文件夹里面的文件进行一个遍历如果这里面的文件很多的情况下,会阻碍归档文件流程中的性能。

这里PG15对这个问题进行了梳理和解决,他们根据将文件名保存到数组的放方式来进行判断下一个需要进行归档的文件是那个。

其中的流程是

扫描 archive_status 目录,然后将需要进行归档的日志放到一个数组中,并且将信息提供给archive_command命令或模块,这样减少在目录中扫描的的数量,但仍会发生目录扫描,并存在相关的O(n^2)复杂度。

 通过这项改进,在社区的测试报告中,提到在这项上面提高了20多倍的性能。

写到这里并没有完,实际上我们在数据归档后还需要对归档后的文件进行清理,大多数的情况下,清理归档文件是通过手动,通过归档文件的日期来进行清理,利用磁盘空间和存储有效的数据归档文件。

在一些场合下,比如你没有使用一些高级的备份软件的情况下,你的数据归档最后的清理和留存可能会需要 pg_archivecleanup 命令来进行清理,pg_archivecleanup 本身没是一个非常小的,独立的单个文件,不需要利用postgresql 服务器,源代码400行,他的功能主要有以下函数来完成

initialize , TrimExtension, CleanupPriorWALFile, 

SetWALFileNameForCleanup

初始化是在数据库中调用函数并检测程序初始化中的对象是否是一个文件夹,如果不是则直接报错,同时TrimExtension是将该函数目录的每个文件的后缀都去掉,方便进行以主名来进行数据的清理, CleanupPriorWalFile 函数通过获得对应的wal 的文件名来将进行比较,比当前文件在早的文件都会被清理,这里通过setWalFileNameForCleanup 来进行数据的名的获取。

如果希望pg_archivecleanup 独立工作,可以通过如下的命令来设置,但这里首先需要获得正确的archivelocation的目录。

archive_cleanup_command = 'pg_archivecleanup archivelocation %r'

参考文章:

https://www.percona.com/blog/speed-up-of-the-wal-archiving-in-postgresql-15/

————————————————————————————

最近一直在除了持续学习数据库技术外,提高自己的认知的维度,4毋是最近和冯老师学到的,毋意,毋必,毋固, 毋我

1 毋意: 不要臆想,不要你认为,你觉得,你习惯,你不是事情的核心,庄子:且夫水之积也不厚,则其负大舟也无力,如果你做事,看书,经历不够广,那么你做的事情不能保证大概率在当时当下是对的。

2 毋必:  没有什么是绝对的,包含名人名言,要时刻保持清晰的思考,判断,认知是有局限的。

3 毋固: 没有什么事情是不能进行转换变通的,不要故步自封,不要过早的下结论,对事情在一开始就存在固有的开发和定义,不与时俱进,并同步最新的知识。

4 毋我: 做事不要以自己为中心,要以事情为中心,如何将事情完成好,是关键,而不是把自己摆到事情的前面,为了脸面,为了所谓的自尊

6ac9af48cfaaddea7e01a8591d62e57e.png

97a5d51d367c3f58ff7f60759491eda4.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/307170.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

智慧工地云平台源码 支持二次开发、支持源码交付

智慧工地利用移动互联、物联网、云计算、大数据等新一代信息技术,彻底改变传统施工现场各参建方的交互方式、工作方式和管理模式,为建设集团、施工企业、监理单位、设计单位、政府监管部门等提供一揽子工地现场管理信息化解决方案。 通过人员管理、车辆管…

【产品应用】一体化步进伺服电机在自动稀释仪中的应用

在许多化学实验和生物实验中,稀释是一个关键步骤。为了提高稀释的准确性和效率,自动稀释仪被广泛使用。随着科技的进步,一体化步进伺服电机在自动稀释仪中的应用越来越广泛,大大提高了仪器的性能和效率。本文将详细介绍一体化步进…

Python函数进阶与文件操作

Python函数进阶与文件操作 一、作业回顾 1、格式化输出与%百分号 以下结果中,可以正常输出“50%及格”语句是(B) A、print(“%d%及格” % (50)) => 回答大部分结果(Python这种写法不正确) B、print(“%d%%及格” % (50)) => 正确结果 2、字符串切片 定义一个…

记一次修复外网无法访问vmware里面的虚拟机的网络端口的问题

发现一个奇怪的网络问题,vmware里一个程序的端口通过vmnat穿透出来,然后这个端口就能够通过局域网被其他机器访问,但是另一个网段就没法访问这个端口。使用主机上的其他程序使用开启同样的端口,另一个网段的机器却可以访问。我想不…

盘点 2023 公开的攻击面发现平台

针对可以直接购买并且明码标价的攻击面发现平台进行了对比,结果如下 测试用例: 企业(某制造有限公司)、高校(某职业学院) 测试对象: 零零信安攻击面管理平台 长亭云图极速版攻击面管理平台 …

Hash-based Message Authentication Code(HMAC)

一、引言 在现代信息安全领域,消息认证码(Message Authentication Code,简称MAC)起着至关重要的作用。Hash-based Message Authentication Code(基于哈希的MAC,简称HMAC)作为一种广泛应用的MAC…

二、类与对象(三)

17 初始化列表 17.1 初始化列表的引入 之前我们给成员进行初始化时,采用的是下面的这种方式: class Date { public:Date(int year, int month, int day)//构造函数{_year year;_month month;_day day;} private:int _year;int _month;int _day; };…

【每日一题】收集巧克力

文章目录 Tag题目来源题目解读解题思路方法一:枚举操作数 写在最后 Tag 【枚举】【数组】【2023-12-28】 题目来源 2735. 收集巧克力 题目解读 有长度为 n, 下标从 0 开始的整数数组 nums, 表示收集不同类型的巧克力的成本. nums[i] 表示收集类型 i 巧克力的成本…

多module项目的springboot配置swagger

文章目录 场景效果分析实现ConfigurationProperties 注解 场景 项目使用swagger提供接口文档功能, 下面演示下多module的springboot 项目是怎么配置 效果 分析 通过为每个module设置独立的分组,完成分组切换功能, 下面举个例子 EnableSwagger2 public class SwaggerConfig {Bea…

快速上手:Docker环境下的WordPress安装全攻略

在这篇文章中我会手把手地教你在Linux环境下使用Docker安装WordPress及相关应用。最终,你将会拥有一个安全、支持https的网站。别犹豫啦,跟着我一块儿搞起来吧! 一、登录服务器 在之前的文章中有提到如何使用ssh命令登录到我们之前在AWS申请…

嵌入式SOC之通用图像处理之OSD文字信息叠加的相关实践记录

机缘巧合 机缘巧合下, 在爱芯元智的xx开发板下进行sdk的开发.由于开发板目前我拿到是当前最新的一版(估计是样品),暂不公开开发板具体型号信息.以下简称板子 .很多优秀的芯片厂商,都会提供与开发板配套的完善的软件以及完善的技术支持(FAE),突然觉得爱芯…

亚信安慧AntDB数据库——通信运营商核心系统的全面演进

AntDB数据库源自通信运营商核心系统,经过15年的平稳运行和不断演进,成功跟随通信技术的升级步伐,逐步迈向5G时代,并且在这期间完成了8次大版本的迭代,为行业树立了技术领先的典范。其独特之处在于具备超融合架构&#…