【Azure 架构师学习笔记】-Azure Data Factory (5) --Data Flow

本文属于【Azure 架构师学习笔记】系列。
本文属于【Azure Data Factory】系列。
接上文【Azure 架构师学习笔记】-Azure Data Factory (4)-触发器详解-事件触发器

前言

Azure Data Factory, ADF 是微软Azure 的ETL 首选服务之一, 是Azure data platform中的一种PaaS, 托管的, Serverless的服务。通过把ETL功能封装在各种类型的Pipeline中并按需执行,从而实现数据的传输和转换。
我们常说的ADF,准确的叫法是ADF instance, 常规用法是搭配装有Self-hosted integration runtime(SHIR) 服务的VM,进行源和目的地之间的数据传输, 但是也支持不用SHIR 的情况,就是使用自带的Azure IR, 由于ADF 本身并不能完全实现所有功能,或者没有必要重复造轮子,所以很多时候ADF 是通过某些特定的activity去调用外部服务,完成一些需要更加专业的服务才能实现的功能。比如借助Databricks activity调用Azure Databricks来实现数据科学方面的需求。
除此之外,上面提到的SHIR 有自身的限制,它主要支持ADF 里面的copy 活动,简单来说就是实现ETL中的E 和L 部分,如果需要实现T, 那么就要用到ADF 里面其他的activity,这些activity大部分都不支持SHIR, 需要使用Azure Integration Runtime Azure IR/AIR) 来实现。
简而言之:
SHIR-> Copy data活动
Azure IR-> Data Flow 活动。
如下图所示:

在这里插入图片描述

Data Flow

Data Flow 活动和Copy Data活动在使用方面大同小异,只是Data Flow能支持更多的功能,它们其中一个明显的区别就在于Integration Runtime上。前面提到SHIR 和AIR,SHIR通过把服务安装在Windows VM上从而搭建一个对外操作的桥梁。而Azure IR(AIR)则借助Azure自己的IR 来操作,这个AIR 有个缺点就是只能操作Azure内的资源,如果要访问外部,则需要使用SHIR 或者第三种不常用的IR:SSIS IR。
如下图所示,当使用Data Flow时,可以选的都是AIR, ADF 有个默认的AutoResolveIntgrationRuntime的AIR, 也可以自己创建,如下面的Managed Virtual Network。 然后选择Compute Size,也就是集群大小。顺带说一句,AIR 底层就是使用Azure Databricks的集群来进行运算。

在这里插入图片描述
当然当你浏览下图中其他活动时,可以从箭头放下去查看对应的可选IR, 每个活动都有一些不一样的配置。
在这里插入图片描述

Data Flow注意事项

费用

由于Data Flow使用AIR ,也就是Databricks 集群,一旦使用了集群,费用就是一个关键点。集群如果选择不对或者没有在闲时及时关闭,那么扣费相当可观。本人就见过几百美金一夜用光的情况。

由于Data Flow集群用的是ADB的集群,所以跟Databricks的配置类似,不需要用的时候及时停掉,这样可以很大程度降低费用。
在这里插入图片描述

安全性

由于Data Flow使用AIR, 而AIR 默认通过公网访问Azure内的资源,所以从企业级应用而言,并不安全,这就要对这个链接进行改造,可以参考我的另外一篇文章:【Azure 架构师学习笔记】-Azure Data Factory (5)-Managed VNet

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/130977.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MongoDB——centOS7环境Mongodb权限管理(图解版)

目录 一、MongDB权限概述1.1、MongDB权限概述1.2、MongDB权限列表 二、Mongodb权限管理示例2.1、创建账号2.1.1、创建管理员用户2.1.2、开启认证2.1.3、创建普通账号 一、MongDB权限概述 1.1、MongDB权限概述 mongodb是没有默认管理员账号,所以要先添加管理员账号…

2023版 STM32实战9 RTC实时时钟/闹钟

RTC简介 实时时钟是一个独立的定时器。RTC模块拥有一组连续计数的计数器,在相应软件配置下,可提供时钟日历的功能。修改计数器的值可以重新设置系统当前的时间和日期。 注意事项 -1- 要手动配置中断寄存器 -2- 需要等待写操作完成 -3- 时钟闹钟中段…

【Python 零基础入门】基础语法

【Python 零基础入门】第四课 基础语法 【Python 零基础入门】第四课 基础语法怎么写 Python 代码缩进注释Python 标识符规则Python关键字代码行和块导包 字符串操作字符串连接字符串的其他常用方法 循环for 循环while 循环 判断语句比较运算符逻辑运算符if 判断三元表达式brea…

机器学习(21)---召回率(recall)、精度(precision)和准确率(accuracy)

文章目录 1. 分布不平衡的数据集2. TP、TN 、FP 、FN3. 混淆矩阵4. 各自的计算公式5. 例题应用 1. 分布不平衡的数据集 1. 精度(precision)和召回率(recall)是衡量机器学习模型性能的重要指标,特别是数据集分布不平衡的…

《鱿鱼游戏》杀入体验店 SandboxVR未能复制神话

曾经火爆全网的剧集《鱿鱼游戏》这回真的变成游戏了,而且还是能身临其境去玩的那种。 9月底,沉浸式游戏社交公司Sandbox VR与全球知名流媒体Netflix合作,将《鱿鱼游戏》搬入VR体验店,用线下场地VR的方式,重现123木头人…

Android Fragment中使用Arouter跳转到Activity后返回Fragment不回调onActivityResult

Fragment中通过路由跳转到Activity 跳转传递参数 通过Arouter跳转 Postcard postcard ARouter.getInstance().build(RouterConstant.ACTION_TRANSMANAGERACTIVITY1);Bundle bundle new Bundle();bundle.putInt("code", 404);postcard.with(bundle); //设置bundlef…

点云模板匹配

点云模板匹配是一种在点云数据中寻找特定形状或模式的方法。它通常用于计算机视觉和三维图像处理中,可以应用于物体识别、姿态估计、场景分析等任务。点云模板匹配的基本思想是将一个称为模板的小点云形状与输入的大点云进行匹配,以找到最佳的对应关系。…

【Java】什么是API

API (Application Programming Interface,应用程序编程接口) Java中的API 指的就是 JDK 中提供的各种功能的 Java类,这些类将底层封装起来,我们不需要关心这些类是如何实现的,只需要学习这些类如何使用即可,我们可以通过帮助文档…

Maven 依赖管理

Maven 一个核心的特性就是依赖管理。当我们处理多模块的项目(包含成百上千个模块或者子项目),模块间的依赖关系就变得非常复杂,管理也变得很困难。针对此种情形,Maven 提供了一种高度控制的方法。 可传递性依赖发现 …

【运维】一些团队开发相关的软件安装。

gitlab 安装步骤 (1) 下载镜像,并且上传到服务器 https://mirrors.tuna.tsinghua.edu.cn/gitlab-ce/yum/el7/gitlab-ce-16.2.8-ce.0.el7.x86_64.rpm (2)rpm -i gitlab-ce-16.2.8-ce.0.el7.x86_64.rpm (3)安装成功后…

安卓 kotlin-supportFragmentManager报红

如果你继承baseActivity 请查看 是不是继承 AppCompatActivity