Spark计算引擎介绍

1. Spark是什么

Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。

Spark是加州大学伯克利分校的AMP实验室(Algorithms, Machines and People Lab)开源的类Hadoop MapReduce的通用并行框架,拥有Hadoop MapReduce所具有的优点,但不同于MapReduce的是Job(工作)中间输出的结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

Spark是一种与Hadoop相似的开源集群计算环境,但是两者之间存在一些不同之处,这些不同之处使Spark在某些工作负载方面表现得更加优越,换句话说,Spark启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

Spark是在Scala语言中实现的,它将Scala用作应用程序框架。与Hadoop不同,Spark和Scala能够紧密集成,其中的Scala可以像操作本地集合对象一样轻松地操作分布式数据集。

尽管创建Spark是为了支持分布式数据集上的迭代作业,但是实际上它是对Hadoop的补充,可以在Hadoop文件系统中并行运行。通过名为Mesos的第三方集群框架可以支持此行为。Spark可以用来构建大型的、低延迟的数据分析应用程序。

2. Spark生态体系

Spark属于BDAS(伯利克分析栈)生态体系。

  • MapReduce属于Hadoop生态体系之一,Spark则属于BDAS生态体系之一。
  • Hadoop包含了MapReduce、HDFS、HBase、Hive、ZooKeeper、Pig、Sqoop等。
  • BDAS包含了Spark GraphX、Spark SQL(相当于Hive)、Spark MLlib、Spark Streaming(消息实时处理框架,类似Storm)、BlinkDB等。

Spark的生态体系示意图如下。

 

3.Spark运行模式

Spark有5种运行模式,其中Local是单机模式,其他4种都是集群模式:

  • Local:Spark运行在本地模式上,用于测试、开发。本地模式就是以一个独立的进程,通过其内部的多个线程来模拟整个Spark运行时环境。
  • Standlone:Spark运行在独立集群模式上。Spark中的各个角色以独立进程的形式存在,并组成Spark集群环境。
  • Hadoop YARN:Spark运行在YARN上。Spark中的各个角色运行在YARN的容器内部,并组成Spark集群环境。
  • Apache Mesos:Spark中的各个角色运行在Apache Mesos上,并组成Spark集群环境。
  • Kubernetes:Spark中的各个角色运行在Kubernetes的容器内部,并组成Spark集群环境。

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/9428.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Android Studio实现内容丰富的安卓物业管理平台

如需源码可以添加q-------3290510686,也有演示视频演示具体功能,源码不免费,尊重创作,尊重劳动。 项目编号102 1.开发环境 android stuido3.6 jak1.8 eclipse mysql tomcat 2.功能介绍 安卓端: 1.注册登录 2.查看公告…

Linux中Docker详细安装说明

1.准备环境 说明:准备Linux系统centos7版本(以上) 2.切换管理模式 说明:输入一下命令,然后回车,输入密码。 su – 3.更新yum 说明:为了保证doker能够给顺利安装,那么更新一下;如果没有也可以…

从小白到大神之路之学习运维第49天---第三阶段----MHA高可用集群数据库的安装部署

第三阶段基础 时 间:2023年6月29日 参加人:全班人员 内 容: MHA高可用数据库集群 目录 一、MHA基础 (一)简介 (二)发挥过程 (三)组成 (四&#x…

浅析便捷生活的新选择——抖音本地服务

抖音是一款风靡全球的短视频分享平台,其本地服务功能的发展也逐渐引起了广泛关注。本地服务是指抖音平台上的用户可以通过平台直接查找并使用周边的各种服务,比如美食外卖、快递配送、家政服务等。本地服务的发展对用户和商家都带来了很多便利和机遇。 首…

AIGC - Stable Diffusion 的 墨幽人造人 模型与 Tag 配置

欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/131565068 Stable Diffusion的模型网站 LiblibAI:https://www.liblibai.com 墨幽人造人网址:https://www.liblibai.com/m…

React通过props的children实现插槽功能

可能会比较遗憾的说 React中并没有vue中的 slot 插槽概念 不过 可以通过props.children 实现类似功能 我们先创建一个React项目 在src下创建目录components 在下面创建一个dom.jsx组件 参考代码如下 import React from "react" export default class dom extends R…

Java版本+企业电子招投标系统源代码之电子招投标系统建设的重点和未来趋势

计算机与网络技术的不断发展,推动了社会各行业信息化的步伐。时至今日,电子政务、电子商务已经非常普及,云计算、大数据、工业4.0、“互联网”等发展理念也逐步深入人心,如何将传统行业与互联网科技有效结合起来,产生1…

开源实时监控 HertzBeat v1.3.2 发布, 更稳定更易用

HertzBeat 介绍 HertzBeat赫兹跳动 是一个拥有强大自定义监控能力,无需 Agent 的开源实时监控告警工具。 致力于易用友好,全WEB页面操作,鼠标点一点就能监控告警,零上手学习成本。 集 监控告警通知 为一体,支持对应用服…

为您的服务台提供6个基于AI的使用案例

人工智能(AI)正在向IT服务管理(ITSM)迈进,有望重新定义事物的工作方式。但是,人工智能是否会实现其承诺,并能够真正使ITSM更容易、更有效呢?这就是我们即将在此系列中所探讨的"…

网络安全入门教程(非常详细)从零基础入门到精通,看这一篇就够了。

基本方向: 1.web安全方面(指网站服务器安全方面,进行渗透测试,检测漏洞以及安全性) 2.逆向破解方面(对软件进行破解,脱壳) 以下内容是针对web安全方面的网络安全技术讲解: 如果你对网络安全方面没有任何的了解,如何成为一名网络安全这个问题对你来说很迷茫的话.接下来我将从以…

Scala里的WordCount 案例

7.7.5 普通 WordCount 案例 package chapter07object TestWordCount__简单版 {def main(args: Array[String]): Unit {//单词计数:将集合中出现的相同单词计数,进行计数,取计数排名的前三的结果val stringList List("Hello Scala Hbas…

ruoyi-vue | electron打包教程(超详细)

公司项目由于来不及单独做客户端了,所以想到用electron直接将前端打包程exe,dmg等格式的安装包。 由于使用的ruoyi-vue框架开发,所以这篇教程以ruoyi-vue为基础的。 环境说明 nodejs:v16.18.1npm:8.19.2ruoyi-vue:3.8…