亚马逊云科技Zero ETL数据库,助力企业走向数据驱动的业务增长之路

aa4303098ac74a38a74a390869a5a0c0.png据Forrester研究,相对于数据应用不够成熟的公司,那些有效获取业务洞察的公司,有高达8.5倍的可能性实现至少20%的收入增长。然而,要实现这一增长,需要简化一项流程——在数据分析前管理和准备好数据。这就是为什么亚马逊云科技正在构建“Zero ETL的未来”,如此一来,客户可以更多地专注于从数据中创造价值,而不是花精力在准备数据上。 

 

ETL的挑战

什么是ETL?ETL是提取(Extract)、转换清洗(Transform)、加载(Load)的过程,也是数据工程师用来整合来自不同来源的数据的过程。ETL过程可能伴随着挑战性高、耗时长和成本高的问题。首先,它需要数据工程师手动编写自定义代码;接下来,DevOps工程师必须部署和管理基础设施,以确保数据管道能够与工作负载一起扩展。如果数据源发生变化,数据工程师必须手动改代码并再次部署。这个过程可能需要几天的时间,然而与此同时,数据分析师无法进行交互式分析或构建可视化的界面看板,数据科学家无法构建机器学习(ML)模型或进行预测,导致最终用户无法做出基于数据的决策。

此外,构建或更改数据管道所需的时间,可能会导致数据不适用于近实时的场景,比如检测欺诈交易、发布在线广告和追踪乘客列车的时刻表。在这些情况下,改善客户体验、抓住新的业务机会或降低业务风险的机会可能就这样错过了。

反之,当企业可以快速、无缝地集成来自不同来源的数据时,他们对自己的客户和业务有了更好地理解,那么企业就可以更有信心地进行数据驱动的预测,改善客户体验,并在整个业务中推广数据驱动的洞察。

 

亚马逊云科技正在将

“Zero ETL”的愿景变为现实

亚马逊云科技一直在朝着实现“Zero ETL”的目标稳步前进。他们听到了客户的反馈,希望能够直接将流式数据接入他们的数据存储中进行分析,而无需去研究复杂的ETL过程。

通过Amazon Redshift流式数据摄入功能,企业可以配置Amazon Redshift直接接入来自流式服务Amazon MSK(Managed Streaming for Apache Kafka)或Amazon Kinesis的高吞吐量流式数据,并让它们在几秒钟内进行近实时分析。可以连接到多个数据流,并将数据直接注入Amazon Redshift,而无需在Amazon Simple Storage Service(Amazon S3)中进行暂存。运行分析后,可以通过云原生、无服务器的商业智能(BI)服务Amazon QuickSight,让整个企业从业务洞察中获益。通过Amazon QuickSight Q,用户可以轻松直观地获得业务洞察,这个功能能方便用户使用自然语言提出关于他们数据的业务问题,并通过数据可视化快速获得结果。

在实现Zero ETL的过程中,亚马逊云科技还提供了一项重要功能,即能够在无需移动数据的情况下查询各种数据源。通过使用Amazon Redshift和Amazon Athena中的联邦查询,企业可以对存储在他们的事务型数据库、数据仓库和数据湖中的数据进行查询,从而获取来自多个数据源的洞察,而无需移动数据。数据分析师和数据工程师可以使用他们熟悉的SQL命令来连接多个数据源,以便进行快速分析,并将结果存储在Amazon S3中以供日后使用。这种灵活的方法简化了数据摄入过程,避免了复杂的ETL流程。

在2022年亚马逊云科技re:Invent大会上,亚马逊云科技推出了Amazon Aurora与Amazon Redshift的Zero ETL集成。

亚马逊云科技从客户那里了解到,他们在构建和管理事务型数据库与数据仓库之间的ETL管道上花费了大量的时间和资源。举个例子,假设有一家全球制造公司,在十几个国家拥有工厂,并使用一系列Aurora数据库集群管理每个国家存储订单和库存数据。当公司高层想要查看所有订单和库存时,数据工程师必须为每个Aurora集群构建单独的数据管道,将数据整合到一个中心数据仓库中,以便数据分析师可以查询整合后的数据集。为了实现这一点,数据集成团队必须编写代码来连接到12个不同的集群,并分别管理和测试12个生产环境管道。团队部署代码后,还需要不断监控和调整该管道以优化性能,而且一旦有任何变化,就需要在12个不同的地方进行更新。这是一项非常重复冗长的工作。

 

Amazon Aurora和Amazon Redshift

之间不再需要定制的ETL管道

Aurora与Amazon Redshift的Zero ETL集成将Aurora的事务数据与Amazon Redshift的分析能力结合在一起。这样一来,构建和管理Aurora与Amazon Redshift之间的定制ETL管道的工作量大大减少。

和传统系统中的“数据孤岛”不同,用户必须在统一分析和性能之间做出权衡;而现在数据工程师可以将多个Aurora数据库集群中的数据复制到同一个或新的Amazon Redshift实例中,以获得跨多个应用程序或分区的全面洞察。Aurora中的更新会自动连续地复制到Amazon Redshift,这样数据工程师就可以几乎实时地获取最新的信息。整个系统是无服务器的,可以根据数据量的大小动态地上下扩展,因此,企业无需管理基础设施。现在,企业可以在Aurora中真正实现快速、规模化地事务分析以及Amazon Redshift中的可扩展分析,所有这些功能都集成在一个无缝的系统中。通过几乎实时访问事务数据,企业可以充分利用Amazon Redshift的分析能力,如机器学习、物化视图、数据共享,以及对多个数据存储和数据湖的联邦访问,从事务及其他数据中获取洞察。

持续提高Zero ETL的性能是亚马逊云科技的持续性目标,例如,亚马逊云科技的早期就使用Zero ETL预览版的客户观察到,他们的Amazon Aurora MySQL数据库每分钟产生数十万个事务,这些事务在不到10秒的时间内就能出现在他们的Amazon Redshift数据仓库中。在这之前,他们将数据从ETL管道移动到Amazon Redshift的过程需要超过2个小时的延迟时间。通过Aurora和Redshift之间的Zero ETL集成,他们现在可以实现几乎实时的分析。

Zero ETL使数据工程师能够在使用过程中直接集成服务并直接查询各种数据存储,从而使他们能够专注于从数据中创造价值,而不是花费时间和资源来构建数据管道。亚马逊云科技将继续致力于构建Zero ETL未来,助力企业走向数据驱动的业务增长之路。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/15047.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java动态规划LeetCode1137. 第 N 个泰波那契数

方法1:通过动态规划解题,这道题也是动态规划的一道很好的入门题,因为比较简单和容易理解。 代码如下: public int tribonacci(int n) {//处理特殊情况if(n0){return 0;}if(n1||n2){return 1;}//定义数组int[]dpnew int[n1];//初…

随机数检测(三)

随机数检测(三)- 块内最大游程检测、二元推导检测、自相关检测、矩阵秩检测 3.8 块内最大游程检测方法3.9 二元推导检测方法3.10 自相关检测3.11 矩阵秩检测 如果商用密码产品认证中遇到问题,欢迎加微信symmrz或13720098215沟通。 3.8 块内最…

uniapp - [全端兼容] 多选弹框选择器,弹框形式的列表多选选择器组件插件(底部弹框式列表多选功能,支持数据回显、动态数据、主题色等配置)

前言 网上的教程都太乱了,各种不兼容且 BUG 太多,注释也没有很难进行改造。 本文 实现了 uniapp 全端兼容的弹框多选选择器,从底部弹出列表项进行多选(可回显已选中和各种主题色、样式配置), 您可以直接复制代码,稍微改改样式就能用了。 如下图所示,数据列表(支持接口…

23 | MySQL是怎么保证数据不丢的?

以下内容出自《MySQL 实战 45 讲》 23 | MySQL是怎么保证数据不丢的? binlog 的写入机制 1、事务执行过程中,先把日志写到 binlog cache,事务提交的时候,再把 binlog cache 写到 binlog 文件中。 2、一个事务的 binlog 是不能被…

C++的范围for语句详解 附易错实例

💯 博客内容:C读取一行内个数不定的整数的方式 😀 作  者:陈大大陈 🚀 个人简介:一个正在努力学技术的准前端,专注基础和实战分享 ,欢迎私信! 💖 欢迎大家&…

Linux开发工具【gcc/g++】

Linux开发工具之【gcc/g】 上文我们已经学习了vim编辑器的相关操作和使用,已经可以在Linux下编写代码了,有了代码就需要编译运行,此时就需要用到Linux中的编译工具gcc/g了,其中gcc是C语言的编译器,g是C的编译器&#…

分销架构总结

概述 对于过往分销系统的经验总结。视角上会不区分实物及虚拟服务的分销。 分销定义:将产品从生产者转移到消费者。 分销职责:获客,服务(售前,售中,售后)。核心是通过不同分销渠道将产品能卖出去。 在整体分销网络…

go-zero的rpc服务案例解析

go-zero的远程调用服务是基于gRpc的gRPC教程与应用。 zero使用使用gRpc需要安装protoc插件,因为gRpc基于protoc插件使用protocol buffers文件生成rpc服务器和api的代码的。 gRPC 的代码生成还依赖 protoc-gen-go,protoc-gen-go-grpc 插件来配合生成 Go…

小程序本地生活

2023年7月1号 感觉就是视频要快点看不完 不然哪天接口又失效了 Page({/*** 页面的初始数据*/data: {// 存放轮播图的数据swiperList:[],// 存放九宫格的数据gridList:[]},/*** 生命周期函数--监听页面加载*/onLoad(options) {this.getSwiperList()this.getGridList()},// 获…

YApi-高效、易用、功能强大的可视化接口管理平台——(二)YApi 分组权限

YApi 分组权限 认识 YApi角色划分项目权限分组权限分组操作创建分组项目列表添加成员分组删除 认识 YApi YApi 是一个开源的接口管理平台,可以方便地管理和测试 API 接口,支持接口文档自动生成、Mock 数据生成、接口测试和接口监控等功能。YApi 支持多人…

cmake列表

目录 cmake多行注释 求list长度 demo 获取list的值 demo 插入list demo 追加list demo 查找列表中的字符 demo 删除list list向前删除和向后删除数据 demo 字符串反转 demo 特殊操作 Readinglist(LENGTH <list> <out-var>)list(GET <list> &…

C++图形开发(11):小球碰到方块的判定

文章目录 1.有哪些情况&#xff1f;1.1 小球在方块左侧1.2 小球在方块上面1.3 小球在方块右侧 2.解决 1.有哪些情况&#xff1f; 今天来实现下小球碰到方块的判定 那么我们首先要明确的就是在什么时候&#xff0c;小球会碰到方块&#xff1f; 1.1 小球在方块左侧 第一个就是…