ADF - [01] 概述

news/2024/11/29 17:42:56/文章来源:https://www.cnblogs.com/houhuilinblogs/p/18577240

题记部分

 

001 || 简介

  Azure Data Factory (ADF) 是微软 Azure 云平台提供的一种数据集成服务,它允许用户创建、安排和管理数据管道,以实现从不同来源抽取数据、转换数据并加载到目标存储的过程。这个过程通常被称为 ETL(Extract, Transform, Load)。

 

 

002 || 适用场景

【1】数据迁移:将数据从一个系统迁移到另一个系统,例如从本地数据库迁移到云端。

【2】数据整合:聚合来自多个异构数据源的数据,为分析或报告准备统一的数据集。

【3】实时处理:虽然ADF主要用于批处理,但也可以与Azure Stream Analytics等服务结合适用来处理近实时数据流。

【4】机器学习工作流:通过与Azure Machine Learning集成,可以构建包含训练模型步骤的数据管道。

【5】企业级BI解决方案:支持复杂的企业级商业智能(BI)应用,如数据仓库填充、报表生成等。

 

 

 

003 || 作用

使用ADF可以:

【1】创建管道(Pipeline),从不同的数据存储(Azure Storage,File,SQL DataBase、Azure Data Lake等)中提取数据。

【2】处理和转换原始数据,获得一个结构化的数据。

【3】把处理之后的数据发布到数据存储(Azure Synapse Analytics),供商业智能(BI)应用程序使用。

 

 

004 || 关键组件

 

管道(Pipeline)

  数据工厂包含一个或多个Pipeline,管道是Activity的逻辑分组,一个管道作为一个工作单元,管道中的Activity作为一个整体来执行任务。管道中的Activity对数据执行动作。管道使用户可以把多个Activity作为一个整体进行管理,而不必单独管理每个Activity,管道中的Activity可以连接在一起按照顺序串联执行,也可以单独以并发方式执行。

 

 

活动(Activity)

支持三种类型的活动:数据移动活动、数据转换活动和控制流活动。

  • 数据移动活动:用于把数据从源数据存储赋值到接收数据存储,来自任何源的数据都可以写入到任何接收器。
  • 数据转换活动:用户对数据进行转换处理
  • 控制流活动:控制流负责对管道活动进行控制,包含按照顺序连接活动、在管道级别定义参数、进行循环控制等。

 

 

数据集(Datasets)

  数据集代码数据中的数据结构,这些结构指向或引用在活动中使用的数据(输入或输出),也就是说,一个活动使用零个或多个数据集作为输入,使用一个或多个数据集作为输出。数据集(Dataset)类似于数据的视图,只是简单地指向或引用在活动中用于输入地数据源或者用于输出地数据目标。在创建Dataset之前,必须创建Linked Service,把数据连接到数据工厂。Linked Service就像连接字符串,定义数据工厂如何和外部资源进行连接。而Dataset代表的是数据的结构(Schema),而Linked Service定义如何连接到数据。

 

连接(Connection)

  连接有两种类型:Linked Services 和Integration runtimes,Linked Services是基于Integration runtimes的连接服务。

  Integration runtime(IR)是Azure数据工厂在不同的网络环境中进行数据集成的组件,连接服务(Linked Service)类似于连接字符串,用于定义ADF连接到外部资源时所需要的连接信息,连接服务定义如何连接到外部数据源,而数据集代表外部源数据的结构。

 

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/843539.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用Powershell运行脚本报错的处理方法

最近在一台办公电脑上运行powershell脚本时报错如下: 系统上禁止运行脚本。有关详细信息,请参阅 https :/go.microsoft.com/fwlink/?LinkID=135170 中的 about_Execution_Policies。 所在位置 行:1 字符: 1 + .\CreateFolders.ps1 + ~~~~~~~~~~~~~~~~~~~ + CategoryInfo : S…

20222408 2021-2022-2 《网络与系统攻防技术》实验七实验报告

1.实验内容 1.1实验内容简述 (1)应用SET工具建立冒名网站。 (2)利用ettercap完成DNS欺骗攻击。 (3)结合应用两种技术,使被攻击者会通过域名访问到冒名网站。 (4)结合攻击过程,提出具体防范方法。 1.2学习内容简述 (1)学习SET工具和ettercap工具的使用。 (2)理解A…

Vulnhub sick0s1.1

0x01:端口扫描 主机发现 nmap -sn 192.168.231.0/24全端口扫描 nmap --min-rate 10000 -p- 192.168.231.14122ssh,3128squid-http,但8080http是关闭的Squid 是一个高性能的开源代理服务器软件,它支持多种协议,包括 HTTP、HTTPS、FTP 等。它通常用于以下几种用途: 1、Web代…

Gemini

Gemini: 大规模DNN芯片阵列加速器的布局和架构 摘要 chiplet概要目标Chiplet(芯片阵列)技术允许在单一加速器上集成不断增加的晶体管的数量,在前摩尔定律时代获得了更高的效果,体现了在快速AI迭代进步中需要的大量算力。 但是,这样也引进了更高昂的大包开销,以及大量的d2…

hhdb数据库介绍(10-19)

监控 智能物理拓扑 物理拓扑图主要以服务器为视角展示集群组件与服务器的所属关系,同时可查看服务器资源的使用情况以及各集群组件服务运行状态。使用前需保证为集群服务器配置了可用的SSH连接信息,否则只能查看当前服务器与集群组件的所属关系,无法查看服务器与组件程序的状…

IDEA 2024.3 安装激活教程(至2099年)

IntelliJ IDEA简介 IntelliJ IDEA是一款非常强大的Java集成开发环境(IDE),由JetBrains公司开发。它提供了丰富的功能和工具,帮助开发者更高效地编写、调试和部署代码。 要求 在开始之前,请确保您的计算机满足以下系统要求:操作系统:Windows、macOS或Linux 处理器:至少1 GH…

证书安装后为什么还显示证书无效

在数字化时代,网络安全和数据保护变得尤为重要。SSL/TLS证书作为保护网站和用户数据安全的重要工具,其正确安装和有效性是网站运营者必须关注的问题。然而,有时候即使证书已经安装,用户仍然会遇到“证书无效”的提示,这可能由多种原因引起。本文将探讨在证书安装后,为何用…

windows下netstat及网络查看工具的使用

1.打开cmd: win+R 输入cmd 2.查看工具相关指令可以看到相关指令能配置查看的内容 3.查看相应内容 例如我想查看当前主机UDP协议所使用的端口: netstat -ano -p UDP同理查看TCP所使用的端口: netstat -ano -p TCP二、windows 自带的网络监视工具的使用 1.打开资源管理器 快捷键…

CTP行情和交易接口的初始化流程

目录行情接口初始化交易接口初始化行情接口初始化mdapi->Init(); 初始化行情接口的工作线程初始化之后,线程自动启动,并使用注册的地址向服务端请求建立连接。综合交易平台接口都有独立的工作线程如果开发者在进行可视化程序的开发,请务必注意线程冲突的问题。api启动,I…

数字电子技术的课设,交通灯倒计时

想知道这个要怎么实现30,5,20的倒计时,这个只能实现,20,5,10的,请问要怎么修改,谢谢

C++下的gRPC与protobuf使用和介绍

目录gRPC允许定义四类服务方法流是会结束的stream(流式传输)编写流程客户端使用 ClientReader客户端使用 ClientWriter客户端使用 ClientReaderWriter服务器端gRPC允许定义四类服务方法一元RPC:客户端发送一次请求,等待服务端响应结构,会话结束,就像一次普通的函数调用这…

uniapp 微信小程序 子组件行内样式通过父组件参数获取

uniapp中正常按vue写法没问题,但是编译成微信小程序时,style中会变成[object object],如下图 子组件可以通过计算属性处理一下传进来的style对象,代码如下<template><div><div>我是自定义组件</div><div :style="generateStyle">00{{t…