据Forrester研究,相对于数据应用不够成熟的公司,那些有效获取业务洞察的公司,有高达8.5倍的可能性实现至少20%的收入增长。然而,要实现这一增长,需要简化一项流程——在数据分析前管理和准备好数据。这就是为什么亚马逊云科技正在构建“Zero ETL的未来”,如此一来,客户可以更多地专注于从数据中创造价值,而不是花精力在准备数据上。
ETL的挑战
什么是ETL?ETL是提取(Extract)、转换清洗(Transform)、加载(Load)的过程,也是数据工程师用来整合来自不同来源的数据的过程。ETL过程可能伴随着挑战性高、耗时长和成本高的问题。首先,它需要数据工程师手动编写自定义代码;接下来,DevOps工程师必须部署和管理基础设施,以确保数据管道能够与工作负载一起扩展。如果数据源发生变化,数据工程师必须手动改代码并再次部署。这个过程可能需要几天的时间,然而与此同时,数据分析师无法进行交互式分析或构建可视化的界面看板,数据科学家无法构建机器学习(ML)模型或进行预测,导致最终用户无法做出基于数据的决策。
此外,构建或更改数据管道所需的时间,可能会导致数据不适用于近实时的场景,比如检测欺诈交易、发布在线广告和追踪乘客列车的时刻表。在这些情况下,改善客户体验、抓住新的业务机会或降低业务风险的机会可能就这样错过了。
反之,当企业可以快速、无缝地集成来自不同来源的数据时,他们对自己的客户和业务有了更好地理解,那么企业就可以更有信心地进行数据驱动的预测,改善客户体验,并在整个业务中推广数据驱动的洞察。
亚马逊云科技正在将
“Zero ETL”的愿景变为现实
亚马逊云科技一直在朝着实现“Zero ETL”的目标稳步前进。他们听到了客户的反馈,希望能够直接将流式数据接入他们的数据存储中进行分析,而无需去研究复杂的ETL过程。
通过Amazon Redshift流式数据摄入功能,企业可以配置Amazon Redshift直接接入来自流式服务Amazon MSK(Managed Streaming for Apache Kafka)或Amazon Kinesis的高吞吐量流式数据,并让它们在几秒钟内进行近实时分析。可以连接到多个数据流,并将数据直接注入Amazon Redshift,而无需在Amazon Simple Storage Service(Amazon S3)中进行暂存。运行分析后,可以通过云原生、无服务器的商业智能(BI)服务Amazon QuickSight,让整个企业从业务洞察中获益。通过Amazon QuickSight Q,用户可以轻松直观地获得业务洞察,这个功能能方便用户使用自然语言提出关于他们数据的业务问题,并通过数据可视化快速获得结果。
在实现Zero ETL的过程中,亚马逊云科技还提供了一项重要功能,即能够在无需移动数据的情况下查询各种数据源。通过使用Amazon Redshift和Amazon Athena中的联邦查询,企业可以对存储在他们的事务型数据库、数据仓库和数据湖中的数据进行查询,从而获取来自多个数据源的洞察,而无需移动数据。数据分析师和数据工程师可以使用他们熟悉的SQL命令来连接多个数据源,以便进行快速分析,并将结果存储在Amazon S3中以供日后使用。这种灵活的方法简化了数据摄入过程,避免了复杂的ETL流程。
在2022年亚马逊云科技re:Invent大会上,亚马逊云科技推出了Amazon Aurora与Amazon Redshift的Zero ETL集成。
亚马逊云科技从客户那里了解到,他们在构建和管理事务型数据库与数据仓库之间的ETL管道上花费了大量的时间和资源。举个例子,假设有一家全球制造公司,在十几个国家拥有工厂,并使用一系列Aurora数据库集群管理每个国家存储订单和库存数据。当公司高层想要查看所有订单和库存时,数据工程师必须为每个Aurora集群构建单独的数据管道,将数据整合到一个中心数据仓库中,以便数据分析师可以查询整合后的数据集。为了实现这一点,数据集成团队必须编写代码来连接到12个不同的集群,并分别管理和测试12个生产环境管道。团队部署代码后,还需要不断监控和调整该管道以优化性能,而且一旦有任何变化,就需要在12个不同的地方进行更新。这是一项非常重复冗长的工作。
Amazon Aurora和Amazon Redshift
之间不再需要定制的ETL管道
Aurora与Amazon Redshift的Zero ETL集成将Aurora的事务数据与Amazon Redshift的分析能力结合在一起。这样一来,构建和管理Aurora与Amazon Redshift之间的定制ETL管道的工作量大大减少。
和传统系统中的“数据孤岛”不同,用户必须在统一分析和性能之间做出权衡;而现在数据工程师可以将多个Aurora数据库集群中的数据复制到同一个或新的Amazon Redshift实例中,以获得跨多个应用程序或分区的全面洞察。Aurora中的更新会自动连续地复制到Amazon Redshift,这样数据工程师就可以几乎实时地获取最新的信息。整个系统是无服务器的,可以根据数据量的大小动态地上下扩展,因此,企业无需管理基础设施。现在,企业可以在Aurora中真正实现快速、规模化地事务分析以及Amazon Redshift中的可扩展分析,所有这些功能都集成在一个无缝的系统中。通过几乎实时访问事务数据,企业可以充分利用Amazon Redshift的分析能力,如机器学习、物化视图、数据共享,以及对多个数据存储和数据湖的联邦访问,从事务及其他数据中获取洞察。
持续提高Zero ETL的性能是亚马逊云科技的持续性目标,例如,亚马逊云科技的早期就使用Zero ETL预览版的客户观察到,他们的Amazon Aurora MySQL数据库每分钟产生数十万个事务,这些事务在不到10秒的时间内就能出现在他们的Amazon Redshift数据仓库中。在这之前,他们将数据从ETL管道移动到Amazon Redshift的过程需要超过2个小时的延迟时间。通过Aurora和Redshift之间的Zero ETL集成,他们现在可以实现几乎实时的分析。
Zero ETL使数据工程师能够在使用过程中直接集成服务并直接查询各种数据存储,从而使他们能够专注于从数据中创造价值,而不是花费时间和资源来构建数据管道。亚马逊云科技将继续致力于构建Zero ETL未来,助力企业走向数据驱动的业务增长之路。