hadoop00_大数据技术介绍

news/2024/7/6 18:14:31/文章来源:https://www.cnblogs.com/istitches/p/18269840

生态架构

数据导入

离线方式处理的数据，需要通过 ETL 模块实现导入到大数据存储系统进行存储；其中 Sqoop 是常见的抽取结构化数据工具，而 Flume、LogStach 是用于抽取结构化、半结构化数据的工具。

数据存储

大数据的数据存储系统，最常见的包括分布式文件系统 HDFS；如果需要使用 NoSQL 的功能，HBase 是基于 HDFS 实现的一个分布式 NoSQL 数据库。

通用计算

存储的数据通过 MapReduce/Spark 框架进行实时计算，这些计算任务通过资源管理框架 Yarn 进行调度，从而将任务分发到数据存储 HDFS 中。

数据分析

在通用计算引擎如 MapReduce/Spark 编写处理任务的基础上，如果进行迁移就会带来很多问题，比如原始使用 SQL 进行数据处理任务，此时迁移到大数据平台。需要用 MapReduce/Spark 来替换原来的 SQL 业务，实现起来比较困难。

由此引入了 Hive，它实现了 SQL 转化为 MapReduce 任务，减少了数据仓库迁移成本；同理 Pig 和 Hive 类似，但它是将 MapReduce 封装为自己的 API，使用起来比原生 MapReduce 更加易用。

大数据实时流处理

数据采集

非结构化数据/半结构化数据：

Flume、Logstash；
结构化数据：
监控数据库预写日志，或者 CDC/OGG 等工具进行实时抽取。

实时抽取的数据会进入到消息队列中，完成削峰和解耦的功能，然后进行实时数据计算。

数据计算

Spark Streaming：将实时任务转化为离线批处理任务进行处理，原理就是将一定时间间隔内的数据，转换为离线批处理任务。只要时间间隔够短就可以近乎于实时处理。
Flink：有自己的计算引擎，能进行真正意义上的实时计算。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/731770.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

高级计算机网络--计算题

高级计算机网络--计算题

1.有如下的四个/24地址块，试进行最大可能的聚合 212.56.132.0/24 212.56.133.0/24 212.56.134.0/24 212.65.135.0/24主要区别在第三字节 1000 0100 1000 0101 1000 0110 1000 0111所以最长相同前缀为 1000 0100 为132212.56.132.0/22 2.一个UDP用户数据报的数据部分为4192B，…

阅读更多...

猿人学第一题逆向

猿人学第一题逆向

下xhr断点观察堆栈调用信息，发现没有异步任务直接一步一步往下跟这个地方很可疑下断点看看大概率是这个地方扣代码点击查看代码 window = global;var hexcase = 0; /* hex output format. 0 - lowercase; 1 - uppercase */ var b64pad = ""; /* base-64…

阅读更多...

linux(双系统电脑)缩小根目录分区、给/home单独分区的简单方法

linux(双系统电脑)缩小根目录分区、给/home单独分区的简单方法

linux(双系统电脑)缩小根目录分区、给/home单独分区的简单方法电脑配置：x86_64，有1T的固态硬盘。Windows 10+kali linux双系统电脑。 $ uname -r 6.1.0-kali5-amd64在操作之前有 300G 作为一整个根目录安装 kali，文件系统为 ext4，没有给 /home 单独分区。现在整个根目录…

阅读更多...

5_Spring Bean Scope 失效分析

5_Spring Bean Scope 失效分析

Scope作用域 1. Scope类型有哪些截至目前为止，Spring 目前有如下几种scope:singleton: 从ioc容器中返回的都是同一个对象 prototype: 从ioc容器中可以返回多个对象 request: 该类型的bean的生命周期就和request请求一样，每当有request请求发送过来，就会创建一个bean对象放入…

阅读更多...

Profibus DP主站转Modbus模块连接马达保护器案例

Profibus DP主站转Modbus模块连接马达保护器案例

在工业自动化控制系统中，Profibus DP和Modbus是常见的通信协议，在同一现场还有可能遇到Modbus协议，ModbusTCP协议，Profinet协议，Profibus协议，Profibus DP协议，EtherCAT协议，EtherNET协议等。本案例介绍了如何使用Profibus DP主站转Modbus模块（XD-MDPBM20）来实现与马…

阅读更多...

platform 设备驱动实验

platform 设备驱动实验

platform 设备驱动实验 Linux 驱动的分离与分层代码的重用性非常重要，否则的话就会在 Linux 内核中存在大量无意义的重复代码。尤其是驱动程序，因为驱动程序占用了 Linux内核代码量的大头，如果不对驱动程序加以管理，任由重复的代码肆意增加，那么用不了多久Linux 内核的文…

阅读更多...

ENVI深度学习V1.0操作教程

ENVI深度学习V1.0操作教程

软件试用：https://www.cnblogs.com/enviidl/p/16275745.html计算机环境要求：https://www.cnblogs.com/enviidl/p/16309506.html教程下载链接：https://pan.baidu.com/s/15D3c6MXTAnN3STfKuzUg1g 提取码：hek6目录 ENVI Deep Learning V1.0操作教程 1 ENVI Deep Learnin…

阅读更多...

ENVIDeepLearning1.1新功能预览

ENVIDeepLearning1.1新功能预览

ENVI Deep Learning 1.1 Tech Preveiw目前已经发布，仅在内部测试。迫不及待的要跟大家分享一下新的功能，应该跟1.1正式版没有太大区别。此版本包含了几个关键改进和新功能：多要素/多类别支持。新增项目管理功能，用于管理训练图像和ROIs。训练过程中的状态信息显示改进。…

阅读更多...

利用ENV/深度学习工具提取防尘网覆盖信息

利用ENV/深度学习工具提取防尘网覆盖信息

为扬尘治理和保护环境，城市的裸露地表、易扬尘物料等要求覆盖防尘网。防尘网一般由聚乙烯材料制作的网状物，颜色主要为黑色和绿色。本文介绍利用遥感影像和ENVI深度学习工具快速提取防尘网覆盖信息，数据和处理环境如下：数据源：标准景高分二号3.8米4波段多光谱数据，16bi…

阅读更多...

数理方法考前必背

数理方法考前必背

特殊函数勒让德多项式前几个勒让德多项式 \[\begin{aligned} P_{0}(x) & = 1 \\ P_{1}(x) & = x=\cos \theta \\ P_{2}(x) & = \dfrac{1}{2}\left(3 x^{2}-1\right)=\dfrac{1}{4}(3 \cos 2 \theta+1) \\ P_{3}(x) & = \dfrac{1}{2}\left(5 x^{3}-3 x\right)=…

阅读更多...

机器人建模与控制复习总结

机器人建模与控制复习总结

数学补充符号约定 (1) 一般大写字母的变量表示矢量或矩阵，小写字母的变量表示标量 (2) 左上标和左下标表示变量所在的坐标系如：\(^AP\)表示坐标系\(\{A\}\)中的位置矢量；\(_B^AR\) 是确定坐标系\(\{A\}\)和坐标系\(\{B\}\)相对关系的矩阵；无左上、下标的位置矢量一般是世…

阅读更多...

润生商团出行打车模块（环境安装）2

润生商团出行打车模块（环境安装）2

微服务认证最佳方案 BFF（Backends For Frontends）是“服务于前端的后端”的简称。它的核心思想是在设计后端微服务API接口时，考虑到不同设备的需求，为不同的设备提供不同的API接口。在没有BFF层的情况下，客户端需要直接访问服务器的公共接口。而在引入BFF层后，客户端不再…

阅读更多...

工程热力学复习总结

工程热力学复习总结

热力学系统热力学状态：某一瞬间系统所呈现的宏观物理状况状态参数：描述物系所处平衡状态的宏观物理量状态参数是宏观量，是大量粒子的统计平均效应，只有平衡态才有状态参数。状态参数是热力系统状态的单值函数，物理上与过程无关，数学上其微量是全微分。状态参数分类有：…

阅读更多...

ENVIDeepLearning1.1正式版发布

ENVIDeepLearning1.1正式版发布

ENVI DL 1.1 包含许多重大改进，以提高可用性和训练性能。多类别架构（Multiclass Architecture）深度学习标记工具（Deep Learning Labeling Tool）集成TensorBoard（可查看训练状态）测试系统支持状态其他更新编程申请试用1 多类别架构（…

阅读更多...

塑性力学复习总结

塑性力学复习总结

基本概念弹性和塑性弹性：若外力不大，则外力除去后变形可以全部恢复。这种性质称为材料的弹性，这种可以全部恢复的变形是弹性变形。这时称物体处于弹性状态。塑性：当外力超过一定限度，则物体将产生不可恢复的变形。这种变形不可恢复的性质称为塑性，不随应力消失而恢复的…

阅读更多...

嵌入式计算技术复习总结

嵌入式计算技术复习总结

嵌入式系统基本概述定义从应用角度来看，嵌入式系统是为了特定任务而设计的专用计算机系统，这些任务可以包括控制、监视或者辅助操作机器和设备。从系统构成角度来说，嵌入式系统通常是包含微处理器、存储器、输入/输出(I/O)设备、以及可能还有一个或多个专用设备的计算机系…

阅读更多...

ENVIDeepLearning1.1.2新特性介绍

ENVIDeepLearning1.1.2新特性介绍

ENVI Deep Learning 1.1.2正式发布，适配ENVI 5.6。训练模型工具新增应用增强（Augmentation）的选项，可以扩充训练样本数据，提高训练和提取精度。系统要求ENVI Deep Learning 1.1.2 使用 TensorFlow 1.14 和 CUDA 10，这两者均已包含在安装包中。ENVI Deep Learning 对软硬…

阅读更多...

java动态加载字节码

java动态加载字节码

java动态加载字节码 java字节码 Java字节码指的是JVM执行使用的一类指令，通常被存储在.class文件中。 URLClassLoader 利用URLClassLoader可以加载远程/本地class文件在学习完类加载机制，我们知道URLClassLoader是AppClassLoader的父类正常情况下，Java会根据配置项sun.boo…

阅读更多...

模拟集成电路设计系列博客——7.4.5 多比特Σ-Δ ADC

模拟集成电路设计系列博客——7.4.5 多比特Σ-Δ ADC

7.4.5 多比特Σ-Δ ADC 尽管1bit过采样ADC有着可以实现高线性度的优点，但其也有一些缺点。例如，动态范围小；1bit过采样ADC可能会由于反馈中的高度非线性出现不稳定；还有闲音（idle tones）的问题，即当输入信号接近直流或者是一个幅值为很小的正弦波时，在输出端就会产生一…

阅读更多...

Java逐层解析JSON：揭秘流式解析器的魅力与实战

Java逐层解析JSON：揭秘流式解析器的魅力与实战

哈喽，大家好，我是木头左！一、深度理解JSON和流式解析在Java的世界里，处理JSON数据是一项常规且重要的任务。随着Web服务和移动应用的兴起，JSON作为一种轻量级的数据交换格式，其简洁和易用性使其成为前后端交互的首选。但当遇到大型复杂的JSON数据时，传统的解析方法可能…

阅读更多...

推荐文章

最新文章