hadoop00_大数据技术介绍

news/2024/7/6 18:14:31/文章来源:https://www.cnblogs.com/istitches/p/18269840

生态架构

img

数据导入

离线方式处理的数据,需要通过 ETL 模块实现导入到大数据存储系统进行存储;其中 Sqoop 是常见的抽取结构化数据工具,而 Flume、LogStach 是用于抽取结构化、半结构化数据的工具。

数据存储

大数据的数据存储系统,最常见的包括分布式文件系统 HDFS;如果需要使用 NoSQL 的功能,HBase 是基于 HDFS 实现的一个分布式 NoSQL 数据库。

通用计算

存储的数据通过 MapReduce/Spark 框架进行实时计算,这些计算任务通过资源管理框架 Yarn 进行调度,从而将任务分发到数据存储 HDFS 中。

数据分析

在通用计算引擎如 MapReduce/Spark 编写处理任务的基础上,如果进行迁移就会带来很多问题,比如原始使用 SQL 进行数据处理任务,此时迁移到大数据平台。需要用 MapReduce/Spark 来替换原来的 SQL 业务,实现起来比较困难。

由此引入了 Hive,它实现了 SQL 转化为 MapReduce 任务,减少了数据仓库迁移成本;同理 Pig 和 Hive 类似,但它是将 MapReduce 封装为自己的 API,使用起来比原生 MapReduce 更加易用。

大数据实时流处理

数据采集

非结构化数据/半结构化数据:

  • Flume、Logstash;
    结构化数据:
  • 监控数据库预写日志,或者 CDC/OGG 等工具进行实时抽取。

实时抽取的数据会进入到消息队列中,完成削峰和解耦的功能,然后进行实时数据计算。

数据计算

  • Spark Streaming:将实时任务转化为离线批处理任务进行处理,原理就是将一定时间间隔内的数据,转换为离线批处理任务。只要时间间隔够短就可以近乎于实时处理。
  • Flink:有自己的计算引擎,能进行真正意义上的实时计算。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/731770.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

高级计算机网络--计算题

1.有如下的四个/24地址块,试进行最大可能的聚合 212.56.132.0/24 212.56.133.0/24 212.56.134.0/24 212.65.135.0/24主要区别在第三字节 1000 0100 1000 0101 1000 0110 1000 0111所以最长相同前缀为 1000 0100 为132212.56.132.0/22 2.一个UDP用户数据报的数据部分为4192B,…

猿人学第一题逆向

下xhr断点观察堆栈调用信息,发现没有异步任务 直接一步一步往下跟这个地方很可疑下断点看看 大概率是这个地方 扣代码点击查看代码 window = global;var hexcase = 0; /* hex output format. 0 - lowercase; 1 - uppercase */ var b64pad = ""; /* base-64…

linux(双系统电脑)缩小根目录分区、给/home单独分区的简单方法

linux(双系统电脑)缩小根目录分区、给/home单独分区的简单方法​ 电脑配置:x86_64,有1T的固态硬盘。Windows 10+kali linux双系统电脑。 $ uname -r 6.1.0-kali5-amd64在操作之前有 300G 作为一整个根目录安装 kali,文件系统 为 ext4,没有给 /home 单独分区。现在整个根目录…

5_Spring Bean Scope 失效分析

Scope作用域 1. Scope类型有哪些 截至目前为止,Spring 目前有如下几种scope:singleton: 从ioc容器中返回的都是同一个对象 prototype: 从ioc容器中可以返回多个对象 request: 该类型的bean的生命周期就和request请求一样,每当有request请求发送过来,就会创建一个bean对象放入…

Profibus DP主站转Modbus模块连接马达保护器案例

在工业自动化控制系统中,Profibus DP和Modbus是常见的通信协议,在同一现场还有可能遇到Modbus协议,ModbusTCP协议,Profinet协议,Profibus协议,Profibus DP协议,EtherCAT协议,EtherNET协议等。本案例介绍了如何使用Profibus DP主站转Modbus模块(XD-MDPBM20)来实现与马…

platform 设备驱动实验

platform 设备驱动实验 Linux 驱动的分离与分层 代码的重用性非常重要,否则的话就会在 Linux 内核中存在大量无意义的重复代码。尤其是驱动程序,因为驱动程序占用了 Linux内核代码量的大头,如果不对驱动程序加以管理,任由重复的代码肆意增加,那么用不了多久Linux 内核的文…

ENVI深度学习V1.0操作教程

软件试用:https://www.cnblogs.com/enviidl/p/16275745.html计算机环境要求:https://www.cnblogs.com/enviidl/p/16309506.html教程下载链接:https://pan.baidu.com/s/15D3c6MXTAnN3STfKuzUg1g 提取码:hek6目录 ENVI Deep Learning V1.0操作教程 1 ENVI Deep Learnin…

ENVIDeepLearning1.1新功能预览

ENVI Deep Learning 1.1 Tech Preveiw目前已经发布,仅在内部测试。迫不及待的要跟大家分享一下新的功能,应该跟1.1正式版没有太大区别。 此版本包含了几个关键改进和新功能:多要素/多类别支持。 新增项目管理功能,用于管理训练图像和ROIs。 训练过程中的状态信息显示改进。…

利用ENV/深度学习工具提取防尘网覆盖信息

为扬尘治理和保护环境,城市的裸露地表、易扬尘物料等要求覆盖防尘网。防尘网一般由聚乙烯材料制作的网状物,颜色主要为黑色和绿色。 本文介绍利用遥感影像和ENVI深度学习工具快速提取防尘网覆盖信息,数据和处理环境如下: 数据源:标准景高分二号3.8米4波段多光谱数据,16bi…

数理方法考前必背

特殊函数 勒让德多项式 前几个勒让德多项式 \[\begin{aligned} P_{0}(x) & = 1 \\ P_{1}(x) & = x=\cos \theta \\ P_{2}(x) & = \dfrac{1}{2}\left(3 x^{2}-1\right)=\dfrac{1}{4}(3 \cos 2 \theta+1) \\ P_{3}(x) & = \dfrac{1}{2}\left(5 x^{3}-3 x\right)=…

机器人建模与控制复习总结

数学补充 符号约定 (1) 一般大写字母的变量表示矢量或矩阵,小写字母的变量表示标量 (2) 左上标和左下标表示变量所在的坐标系 如:\(^AP\)表示坐标系\(\{A\}\)中的位置矢量;\(_B^AR\) 是确定坐标系\(\{A\}\)和坐标系\(\{B\}\)相对关系的矩阵;无左上、下标的位置矢量一般是世…

润生商团出行打车模块(环境安装)2

微服务认证最佳方案 BFF(Backends For Frontends)是“服务于前端的后端”的简称。它的核心思想是在设计后端微服务API接口时,考虑到不同设备的需求,为不同的设备提供不同的API接口。 在没有BFF层的情况下,客户端需要直接访问服务器的公共接口。而在引入BFF层后,客户端不再…

工程热力学复习总结

热力学系统 热力学状态:某一瞬间系统所呈现的宏观物理状况 状态参数:描述物系所处平衡状态的宏观物理量 状态参数是宏观量,是大量粒子的统计平均效应,只有平衡态才有状态参数。状态参数是热力系统状态的单值函数,物理上与过程无关,数学上其微量是全微分。状态参数分类有:…

ENVIDeepLearning1.1正式版发布

ENVI DL 1.1 包含许多重大改进,以提高可用性和训练性能。多类别架构(Multiclass Architecture)深度学习标记工具(Deep Learning Labeling Tool)集成TensorBoard(可查看训练状态)测试系统支持状态其他更新编程申请试用1 多类别架构(…

塑性力学复习总结

基本概念 弹性和塑性 弹性:若外力不大,则外力除去后变形可以全部恢复。这种性质称为材料的弹性,这种可以全部恢复的变形是弹性变形。这时称物体处于弹性状态。 塑性:当外力超过一定限度,则物体将产生不可恢复的变形。这种变形不可恢复的性质称为塑性,不随应力消失而恢复的…

嵌入式计算技术复习总结

嵌入式系统基本概述 定义 从应用角度来看,嵌入式系统是为了特定任务而设计的专用计算机系统,这些任务可以包括控制、监视或者辅助操作机器和设备。从系统构成角度来说,嵌入式系统通常是包含微处理器、存储器、输入/输出(I/O)设备、以及可能还有一个或多个专用设备的计算机系…

ENVIDeepLearning1.1.2新特性介绍

ENVI Deep Learning 1.1.2正式发布,适配ENVI 5.6。训练模型工具新增应用增强(Augmentation)的选项,可以扩充训练样本数据,提高训练和提取精度。 系统要求ENVI Deep Learning 1.1.2 使用 TensorFlow 1.14 和 CUDA 10,这两者均已包含在安装包中。ENVI Deep Learning 对软硬…

java动态加载字节码

java动态加载字节码 java字节码 Java字节码指的是JVM执行使用的一类指令,通常被存储在.class文件中。 URLClassLoader 利用URLClassLoader可以加载远程/本地class文件 在学习完类加载机制,我们知道URLClassLoader是AppClassLoader的父类 正常情况下,Java会根据配置项sun.boo…

模拟集成电路设计系列博客——7.4.5 多比特Σ-Δ ADC

7.4.5 多比特Σ-Δ ADC 尽管1bit过采样ADC有着可以实现高线性度的优点,但其也有一些缺点。例如,动态范围小;1bit过采样ADC可能会由于反馈中的高度非线性出现不稳定;还有闲音(idle tones)的问题,即当输入信号接近直流或者是一个幅值为很小的正弦波时,在输出端就会产生一…

Java逐层解析JSON:揭秘流式解析器的魅力与实战

哈喽,大家好,我是木头左!一、深度理解JSON和流式解析 在Java的世界里,处理JSON数据是一项常规且重要的任务。随着Web服务和移动应用的兴起,JSON作为一种轻量级的数据交换格式,其简洁和易用性使其成为前后端交互的首选。但当遇到大型复杂的JSON数据时,传统的解析方法可能…