【架构七】Hadoop-编程知识

【架构七】Hadoop

什么是Hadoop?

Hadoop是一个存储系统+计算框架的软件大数据处理框架。
![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/4d3d1347acd54373ab38690b40b5aa5c.png

Hadoop的核心，说白了就是HDFS和MapReduce，HDFS为海量数据提供了存储，而MapReduce为海量数据提供了计算框架。HBase是一个分布式的、面向列的开源数据库。属于Nosql。

Flink和MapReduce都是用于大数据处理的计算框架，两者的区别？

Flink:是一个分布式计算框架，可以处理海量数据，既可以处理海量数据，也可以做实时流处理。
Flink和MapReduce是两种不同的大数据处理框架。
MapReduce适用于离线批处理任务，具有较高的延迟和较差的迭代计算能力。
Flink是一个流处理框架，适用于实时和近实时数据处理，具有较低的延迟、支持迭代计算和有状态处理等特点。

CDH与Hadoop?

CDH是一个强大的商业版数据中心管理工具。CDH是Hadoop众多分支中的一种，是开源且免费的。
（1）提供了各组能够快速稳定运行的数据计算框架，如Spark；【Apache Spark（通常简称为Spark）是一个开源的大数据处理框架，旨在提供高速、易用和通用的数据处理和分析能力。Spark提供了一个统一的编程模型，支持批处理、流处理、机器学习和图计算等多种数据处理任务。】
（2）使用Apache Impala做为对HDFS、Hbase的高性能SQL查询引擎；【是一个开源的分布式SQL查询引擎，用于在大规模数据集上进行交互式分析和查询。它是为了提供快速的查询性能和低延迟而设计的。】
（3）使用Hive数据仓库工具帮助用户分析数据；【hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。】
（4）提供Hbase分布式列式NoSQL数据库。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/600429.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！