使用 JuiceFS 快照功能实现数据库发布与端到端测试-编程知识

使用 JuiceFS 快照功能实现数据库发布与端到端测试

news/2025/2/19 6:47:48/文章来源:https://www.cnblogs.com/JuiceData/p/18547938

今天的博客来自 JuiceFS 云服务用户 Jerry，他们通过使用 JuiceFS snapshot 功能，创新性地实现了数据的版本控制。Jerry，是一家位于北美的科技公司，利用人工智能和机器学习技术，简化用户购买汽车和家庭保险的比较及购买流程。

在软件开发领域，严格的测试和受控发布已经成为几十年来的标准做法。但如果我们能将这些原则应用到数据库和数据仓库中会怎样？想象一下，能够为数据基础设施定义一套带有测试用例的标准，自动应用于每个新的"发布"，以确保客户始终看到准确和一致的数据。这将会极大改善数据质量。

01 挑战：为什么端到端测试在数据管理中并不常见

这个想法看似直观，但端到端测试在数据管理中并不常见，因为它需要数据库或数据仓库具备克隆或快照的功能，而大多数数据系统都不提供这一功能。

现代数据仓库本质上是随时间变化的有组织的可变存储，我们通过数据管道对其进行操作。数据通常在生成后立即对最终客户可见，没有"发布"的概念。当没有这个发布概念，对数据仓库进行端到端测试就没有多大意义。因为无法确保测试所看到的内容就是客户将看到的内容，这些数据在不断因为数据管线的修改而变化。

所以问题的核心，就是要在实现一种数据发布的机制，这种机制能够把某一个时刻数据仓库的状态提取成一个“快照“，并且控制这个”快照“对最终用户的可见性。这样，这个快照就成为一个”发布工件“，我们控制它什么条件、什么时间最终可以让用户看见。

02 现有方法及其局限性

一些团队在数据仓库之上开发了版本控制系统。他们不直接修改最终用户查询的表，而是为变更创建新版本的表，并使用原子交换操作来"发布"表。虽然这种方法在某种程度上有效，但它带来了重大挑战：

高效实施"创建和交换"模式并不容易；
确保涉及多个表的一致性（例如，验证订单表中的每一行在价格表中都有对应行）需要将多个表的变更"打包"成一个"事务"，这也具有挑战性，不仅仅实现这种模式是困难的，这种模式也要求数据管线被相对严格的编排。

03 解决方案：由 JuiceFS 支持的 ClickHouse 数据库克隆

我们开发了一个系统，利用 JuiceFS snapshot 功能将 ClickHouse 数据库"克隆"为副本。这种方法在我们早前的文章 "低成本读写分离：Jerry构建主从ClickHouse架构" 中有详细介绍。

它的工作原理如下：

我们在 JuiceFS 上运行 ClickHouse 数据库，JuiceFS 是一个由对象存储服务（OSS）支持的 POSIX 兼容共享文件系统。
JuiceFS 提供了一个实现 git 分支语义的"快照"功能。
使用简单的命令如 juicefs snapshot src_dir des_dir，我们可以创建 src_dir 在那一刻的克隆。

这种方法使我们能够轻松地从运行中的实例复制/克隆 ClickHouse 实例，创建一个可以被视为"发布工件"的冻结快照。

04 使用数据库克隆实施端到端测试

有了这种机制，我们可以对 ClickHouse 副本运行端到端测试，并根据测试结果控制其可见性。

现在可以使用常见的单元测试框架（我们使用 pytest ）开发、组织和迭代数据端到端测试。这种方法使我们能够将数据可用性和可靠性的基础设施和业务标准编码成数据测试。

一个典型的测试是表大小测试，它有助于防止由意外或临时表损坏导致的数据问题。还可以定义业务标准，以保护数据报告和分析免受数据管道中可能导致数据错误的意外更改的影响。例如，用户可以在一列或一组列上强制唯一性以避免重复——这在计算营销成本时是一个关键因素。

在 Jerry，这种架构在近几个季度中发挥了至关重要的作用，有效防止了几乎所有可能暴露给最终客户的 P0 级数据问题。

这种方法不仅限于 ClickHouse。如果在 JuiceFS 之上运行任何类型的数据湖或湖仓，采纳本文描述的发布机制可能会更容易。

05 结论

通过将现代软件开发实践引入数据管理世界，我们可以显著提高数据质量、可靠性和一致性。数据库克隆和端到端测试的结合为确保客户始终看到正确的数据提供了强大的工具集，就像他们期望在经过充分测试的软件发布中看到正确的功能一样。

下图展示了我们的数据库发布和端到端测试过程的工作流程。

这个架构的诞生标志着我们在缩小软件开发与数据管理之间的差距方面迈出了重要一步，为数据领域的创新和质量保障开辟了全新的可能性。

希望这篇内容能够对你有一些帮助，如果有其他疑问欢迎加入 JuiceFS 社区与大家共同交流。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/834034.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

xshell免费版下载安装

1.官网免费的许可证 2.下载地址https://www.xshell.com/zh/free-for-home-school/ 3.下载完正常安装即可，可以直接使用邮箱进行注册，没有限制

多线程篇线程相关知识

一、线程状态线程是 cpu 任务调度的最小执行单位，每个线程拥有自己独立的程序计数器、虚拟机栈、本地方法栈。线程状态包括：创建、就绪、运行、阻塞、死亡。二、线程状态切换三、阻塞唤醒过程阻塞以下三个方法的调用都会使当前线程阻塞，该线程将会被放置到对该 Object 的…

打造高效电商团队：项目管理工具选对了吗？

在竞争日益激烈的电商行业，商家和运营团队需要面对多维度的挑战——从活动策划、产品上架，到物流协调和售后服务，每个环节都需要精确管理和无缝衔接。如何在高强度的竞争中脱颖而出，实现团队协作效率的提升？项目管理工具正逐渐成为电商企业的必备利器，助力团队优化流程、…

人员背带夹佩戴识别智慧矿山一体机违规抽烟识别软硬一体化矿山智能解决方案

在当今这个快速发展的数字化时代，智慧矿山的建设已经成为矿业领域转型升级的重要方向。为了实现矿山的智能化、自动化和信息化提出了一套全面的解决方案，人员背带夹佩戴识别智慧矿山一体机旨在通过技术创新和系统集成，打造一个高效、安全、环保的智慧矿山环境。以下是对智慧…

数据采集第四次作业

代码链接：第四次数据采集实践作业码云链接作业① 1 作业要求熟练掌握 Selenium 查找HTML元素、爬取Ajax网页数据、等待HTML元素等内容。使用Selenium框架+ MySQL数据库存储技术路线爬取“沪深A股”、“上证A股”、“深证A股”3个板块的股票数据信息。候选网站：东方财富网：…

使用css 画三角形的三种方法

使用纯css 绘制三角形方法一使用边框实现先实现一个div 四个粗边框不同颜色保留左右和下边框设置左右边框为颜色为 transparent<body><div class="div1"></div><div class="div2"></div> <div class="div3&…

代码分析工具小结

本文介绍了用于C++代码的分析工具，包括3款静态分析工具和3款动态分析工具。此文总结在平时开发过程中使用到的代码分析工具，分为静态分析和动态分析两个部分，本文只介绍Windows平台的工具。静态代码分析 CppCheck CppCheck是一款经典的C/C++静态代码检查工具，笔者最开始使…

成为行动上的巨人

总是看到别人的微博，有学习到，有被感到到，有醍醐灌顶到，也有被大开脑洞的时候。今天有了自己的博客，记录学习中的点点滴滴，也希望自己不再是只在知识的边缘磨磨蹭蹭，而是挖掘进去，进而能够知其然又知其所以然。希望笔记成为自己知识的沉淀和积累，也希望能够帮助到那…

a-modal打开页面报错Ancestor with aria-hidden

报错信息Blocked aria-hidden on an element because its descendant retained focus. The focus must not be hidden from assistive technology users. Avoid using aria-hidden on a focused element or its ancestor. Consider using the inert attribute instead, which w…