读数据工程之道:设计和构建健壮的数据系统24获取数据的方式

news/2025/1/20 1:48:06/文章来源:https://www.cnblogs.com/lying7/p/18502460

1. 数据库直连

1.1. 数据可以通过网络连接直接从数据库中通过查询和读取的方式来获取

1.2. 使用ODBC或JDBC进行的

  • 1.2.1. JDBC和ODBC长期以来是数据库数据获取的黄金标准,但对于许多数据工程应用程序来说,这些连接标准已经开始显示出它们年头已久

  • 1.2.2. 许多数据库现在支持本地文件导出,绕过了JDBC和ODBC,直接以Parquet、ORC和Avro等格式导出数据

  • 1.2.3. ODBC使用一个部署在客户端的驱动程序,将标准的ODBC API翻译成向不同数据库发出的命令

  • 1.2.4. 利用ODBC驱动的应用是一个数据获取工具

    • 1.2.4.1. 数据获取工具可以通过许多小的查询或单一的大查询来拉取数据
  • 1.2.5. ODBC驱动程序是基于操作系统和计算机架构提供的原生二进制文件

  • 1.2.6. 一个Java驱动程序作为标准JDBC API和目标数据库的本地网络接口之间的转换层连接到一个远程数据库

  • 1.2.7. JDBC提供了非凡的数据库驱动程序可移植性

  • 1.2.8. Python生态系统提供翻译工具,允许Python代码与运行在本地JVM上的JDBC驱动程序通信

2. 变更数据捕获

2.1. 面向批处理的变更数据捕获

  • 2.1.1. 根据最后一次从表中捕获变更的行的时间来设置过滤器的时间戳

  • 2.1.2. 这个过程允许我们拉取数据变更并增量更新目标表

2.2. 连续变更数据捕获

  • 2.2.1. 连续变更数据捕获捕获表的所有历史,并可以支持近实时数据获取,无论是用于实时数据库复制还是为实时流分析提供数据

  • 2.2.2. 连续变更数据捕获不是通过运行定期查询来获取一批表的变化,而是将每一次对数据库的写入作为一个事件

  • 2.2.3. 基于日志的变更数据捕获

    • 2.2.3.1. 数据库的二进制日志按顺序记录了数据库的每一次变化

    • 2.2.3.2. 一个变更数据捕获工具可以读取这个日志并将事件发送到一个目的地,比如Apache Kafka Debezium流平台

2.3. 变更数据捕获和数据库的备份

  • 2.3.1. 变更数据捕获可以用来在数据库之间进行备份:事件被缓冲到一个数据流中并异步地写入第二个数据库

  • 2.3.2. 同步复制通常要求主数据库和副本是同一类型的

    • 2.3.2.1. 同步复制的优点是从数据库可以通过作为一个读副本来分担主数据库的负载,读查询可以被重定向到副本

    • 2.3.2.2. 查询会返回与主数据库相同的结果

    • 2.3.2.3. 读副本通常用于批量数据获取模式,以允许大量扫描运行的同时不使主生产数据库过载

  • 2.3.3. 异步变更数据捕获复制的优势在于松耦合的架构模式

    • 2.3.3.1. 虽然副本可能比主数据库稍有延迟,但对于分析应用程序来说通常不是问题,而且事件现在可以写入不同的目的地

    • 2.3.3.2. 运行变更数据捕获复制的同时将事件引导到对象存储和流分析处理器

2.4. 考虑因素

  • 2.4.1. 变更数据捕获也不是没有代价的

  • 2.4.2. 消耗各种数据库资源,如内存、磁盘带宽、存储、CPU时间和网络带宽

  • 2.4.3. 在生产系统上开启变更数据捕获之前,数据工程师应该与业务开发团队合作进行测试,以避免出现操作问题

  • 2.4.4. 要么只在非工作时间运行这类查询,要么使用读副本以避免给主数据库带来负担

3. API

3.1. API是一个重要性和受欢迎程度不断提高的数据

3.2. 趋势

  • 3.2.1. 许多供应商为各种编程语言提供API客户端库,消除了API访问的大部分复杂性

  • 3.2.2. 现在有许多数据连接器平台可以作为SaaS、开源或托管开源的形式存在

  • 3.2.3. 数据共享的出现​,即通过标准平台(如BigQuery、Snowflake、Redshift或S3)交换数据的能力

3.3. 当无法使用数据共享且必须直接使用API访问的时候,不要重复发明轮子

4. 消息队列和事件流平台

4.1. 消息队列和事件流平台是从网络和移动应用程序、物联网传感器和智能设备获取实时数据的普遍方法

4.2. 消息是在单个事件层面上处理的,并且是短暂的

  • 4.2.1. 一旦消息被消费,它就被确认并从队列中删除

4.3. 流将事件获取到一个有序的日志中

  • 4.3.1. 日志会在你期望的时间内一直存在,允许在不同的范围内对事件进行查询、聚合,并与其他流结合,以创建可以发布给下游消费者的新的变换

4.4. 批量获取通常涉及静态工作流(获取数据、存储数据、转换数据和提供数据服务)​,而消息和流是动态的

4.5. 获取可以是非线性的,数据被发布、消费、重新发布和重新消费

4.6. 当设计你的实时获取工作流时,请记住数据如何流动

4.7. 实时数据管道的吞吐量

  • 4.7.1. 消息和事件的流动应该有尽可能小的延迟,这意味着你应该提供足够大的分区(或分片)带宽和吞吐量

4.8. 管理你的流平台可能需要大量的开销

  • 4.8.1. 考虑为你的实时获取管道使用托管服务,将你的注意力集中在如何从你的实时数据中获得价值

5. 托管数据连接器

5.1. 建议使用托管连接器平台,而不是自建和管理连接器

6. 使用对象存储移动数据

6.1. 对象存储是一个公有云中支持存储海量数据的多租户系统

  • 6.1.1. 使得对象存储成为在数据湖、团队之间、组织之间转移数据的理想选择

6.2. 对象存储是处理文件交换的最理想和最安全的方式

6.3. 公有云存储实现了最新的安全标准,具有强大的可扩展性和可靠性,接受任意类型和大小的文件,并且提供高性能的数据移动

7. 电子数据交换(EDI)

7.1. 有些古老的文件交换方式,如通过电子邮件或闪存驱动器

7.2. 一些数据源由于IT系统过于老旧或人类过程限制,不支持更现代的数据传输手段

8. 数据库和文件导出

8.1. 导出查询可以按照查询键值范围或一次查询一个分区分解成若干个较小的导出

8.2. 读副本也可以减轻数据库负载

  • 8.2.1. 如果导出每天发生很多次,并且与源系统的高负载时间段相吻合,那么读副本就特别合适

8.3. 主要的云数据仓库对直接文件导出进行了高度优化

9. 常见文件格式的问题

9.1. CSV不是一种统一的格式

  • 9.1.1. CSV的默认分割符是英语中最常见的字符——逗号

  • 9.1.2. CSV也没有对模式信息进行原生编码或直接支持嵌套结构

  • 9.1.3. 自动检测是许多云环境中提供的便利功能,但不适合用于生产环境的获取

  • 9.1.4. 工程师应该在文件元数据中记录CSV编码和模式细节

9.2. 更加强大的导出格式包括Parquet、Avro、Arrow和ORC或JSON

  • 9.2.1. 对模式信息进行原生编码,并且可以无须特别干预地处理任意字符串数据

9.3. 对于列式数据库,列式格式(Parquet、Arrow、ORC)允许更有效的数据导出,因为列可以在格式之间直接转码

9.4. Arrow文件格式被设计为直接将数据映射到处理引擎内存中,在数据湖环境中提供高性能

10. 命令行

10.1. 命令行(shell)是一个你可以通过执行命令来获取数据的接口

10.2. 命令行可以用来为几乎所有的软件工具编写工作流,而且命令行脚本仍然被广泛用于数据获取过程

10.3. 云供应商通常提供强大的基于CLI的工具

11. SSH

11.1. SSH不是一种获取策略,而是一种与其他获取策略一起使用的协议

11.2. SSH可以与SCP一起用于文件传输

11.3. SSH隧道被用来允许安全、隔离地连接到数据库

11.4. 应用程序数据库不应该直接暴露在互联网上

  • 11.4.1. 工程师可以设置一个堡垒主机,即一个可以连接到相关数据库的中间主机实例

  • 11.4.2. 这台主机暴露在互联网上,只能从指定的IP地址到指定的端口进行最小的访问

12. SFTP和SCP

12.1. SFTP对许多企业来说仍然是一个实际的选择

12.2. SCP是一个通过SSH连接运行的文件交换协议

  • 12.2.1. 在配置正确的情况下,SCP可以成为一个安全的文件传输选项

  • 12.2.2. 建议增加额外的网络访问控制(深度防御)来加强SCP的安全性

13. Webhook

13.1. 使用Webhook时,数据提供者定义了一个API请求规范,但是数据提供者进行API调用,而不是被调用

13.2. 数据消费者负责提供一个API服务端供数据提供者调用

13.3. 消费者负责获取每个API请求中的数据,并对数据进行聚合、存储和处理

13.4. 基于Webhook的数据获取架构可能很脆弱,难以维护且低效

13.5. 使用适当的工具,数据工程师可以建立更强大的Webhook架构,并降低维护和基础设施成本

14. 网络接口

14.1. 用于数据访问的网络接口对数据工程师来说仍然是一个现实的选择

15. 网络抓取

15.1. 网络抓取通过梳理网页的各种HTML元素自动从网页上抽取数据

15.2. 网络抓取对数据工程生命周期的处理阶段有着有趣的影响

15.3. 问问你自己,你是否应该进行网络抓取,或者是否可以从第三方获得数据

15.4. 要注意你行为的法律影响

15.5. 网页会不断地改变HTML元素结构,更新你的网络抓取程序会变得很麻烦

16. 用于数据迁移的传输设备

16.1. 对于海量的数据(100TB或更多)​,直接通过互联网传输可能是一个缓慢而高成本的过程

16.2. 最快最有效的数据传输方式不是通过网络,而是通过卡车来移动数据

16.3. 通过物理的“装硬盘的箱子”发送数据的能力

  • 16.3.1. 只需订购一个存储设备(称为传输设备)从你的服务器上加载数据,然后把它送回可以帮你上传数据的云供应商

16.4. 如果你的数据规模在100TB左右,那么建议你使用一个传输设备

  • 16.4.1. 用半挂车送来的传输设备

16.5. 传输设备对于创建混合云或多云很方便

16.6. 当数据量很大时,物理传输设备是一个更便宜的选择

16.7. 请记住传输设备和数据迁移服务是一次性的数据获取,不建议用于持续的获取工作

17. 数据共享

17.1. 数据共享已经变成了消费数据的一种流行方案

17.2. 数据提供者会向第三方用户免费或有偿提供数据

17.3. 以只读方式共享,这意味着你可以将这些数据集与你自己的数据(以及其他第三方数据集)整合,但你没有数据的所有权

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/823976.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

记 Kylin 麒麟系统安全中心拦截导致 dotnet sdk 找不到 OpenSsl 构建失败

错误信息如下 System.TypeInitializationException: The type initializer for Crypto threw an exception.---> System.DllNotFoundException: Unable to load shared library libSystem.Security.Cryptography.Native.OpenSsl or one of its dependencies. In order to he…

Zlibrary镜像网址及官网客户端app合集(持续更新)

Zlibrary镜像网址及官网客户端app合集(持续更新) Zlibrary数字图书馆介绍Zlibrary(简称 Z-lib)是一个影子图书馆,收录了超 1045 万本书籍和 8483 万篇文章,Zlibrary用户可以通过网络在该平台上下载所需的书籍和文章等资源,对于有大量文献资料需求的人来说,Zlibrary提供…

数据采集与融合技术实践作业3

102202143 梁锦盛 1.中国气象网信息爬取 爬取这个网站中的所有图片,控制总页数(学号尾数2位)、总下载的图片数量(尾数后3位)等限制爬取的措施 一、作业代码与展示 1.编写spider代码文件 import scrapy from urllib.parse import urljoin from scrapy.pipelines.images …

Bluetooth Audio Receiver使用(Win10)

Bluetooth Audio Receiver有时失灵重置设置即可

Tauri(一)——更适合 Web 开发人员的桌面应用开发解决方案 ✅

背景 我们最近决定开发一个开源的桌面端应用程序(先卖个关子,会尽快推出,敬请期待!关注一下不迷路!),并选择了 Tauri 作为技术方案。可能只有少部分人了解过它,感兴趣的朋友们可以一起深入探讨! Tauri 介绍官方网站:https://tauri.app/ (v2.0) GitHub:https://git…

Zlibrary入口电子图书馆官网最新可用镜像网址(持续更新)

Zlibrary电子图书馆介绍 Zlibrary 是全球最大电子数字图书馆之一,藏书丰富,有超 982 万册电子书及 8483 万余篇学术期刊文章。其涵盖经典文学、理工学科、人文艺术、学术论文等广泛领域,能满足各类求知者阅读学习需求。Zlibrary如一座知识宝库,为人们探索知识提供广阔资源,…

MASM的使用和DOS调试(微机原理课程作业)

1、指令 ———————————————— t:执行下一条语句。 u:查看汇编代码。 g:跳转到该内存所对应的语句 r:查看寄存器的内容(后可直接接寄存器的名称,就只查看该寄存器的内容)。 d:后接内存地址,查看该地址后面 8 * 16 个字节空间的地址(每行 16 个字节,共 8…

24山东省赛wp

24山东省赛wpmisc ezpic 在这个通道可以看到二维码扫一下能看到前半flag010里看到后半flag简单编码根据提示有,我们可以找到rot系列的rot13和rot47,尝试一下就有flag了pwn epwn 这回真是ezpwn了( 检查保护IDA找到漏洞函数gets和偏移量以及后门函数于是可以快乐的写exp了 from p…

Animal Controller文档——General

General 在General选项卡中,你会找到可以修改的最常用参数(AC)。Parameters Player如果设置为true,该Animal将是你的主角。 这将使用单例模式,并设置静态值:Animal.isPlayer.Value = true;。这样,Respawn System和CheckPoints将知道在Animal死亡时应该重生哪个主Animal(…

VUEDjango开发-1-环境搭建

一、使用pyenv,安装python,创建虚拟环境 pyenv是管理python版本的神器,官方链接:github.com/pyenv/pyenv,在macOS、Linux、Windows上均可以安装使用。 使用自动脚本一键安装 curl https://pyenv.run | bash配置SHELL环境 对于Zsh,运行如下命令,把pyenv命令安装到 ~/.zsh…

总线协议系列——USART协议初探

前言 概述 USART全名Universal Synchronous/Asynchronous Receiver/Transmitter,也即通用同步/异步串行接收/发送器。是一种异步全双工点对点总线架构,其总共需要TX传输线、RX接收线和GND共地线。如果两个USART硬件没有自主供电VCC,还需要VCC线 电路特性 USART总线采用推挽输…

Meterpreter生成被控端并进行远程控制

Meterpreter生成被控端并进行远程控制 Meterpreter简介 Meterpreter是kali中自带的用于渗透测试和漏洞利用的工具,它的本质上是一种payload, 允许使用者使用命令行执行命令的生成及执行 生成木马 msfvenom -p windows/x64/meterpreter/reverse_tcp lhost=本机的ip lport=5000…