十一、了解分布式计算

1、什么是(数据)计算?

2、分布式(数据)计算

(1)概念

        顾名思义,分布式计算,即以分布式的形式完成数据的统计,得到需要的结果。

        分布式数据计算,顾名思义,就是“以多取胜”,如果一个问题使用一台计算机计算需要耗时1天,那我们就是用几百个数据节点来计算。

(2)我们为什么要使用分布式计算?

        在计算和处理数据时,我们为什么要使用分布式计算,不能用“计算器”来计算吗?

其实,使用什么方式来处理数据,并不是由我们决定的,是由数据本身决定的。

3、分布式(数据)计算模式

(1)基础模式

~分散——>汇总模式

        将一个数据分配给许多服务器,每一个服务器分配到一部分的数据,当它们将数据处理完成,将它们各自处理的数据结果向其中一台服务器进行汇报,由该台服务器做归纳总结。生活中的人口普查就是一个典型的例子。

~中心调度——>步骤执行模型

        将一个数据分配给许多服务器,每一个服务器分配到一部分的数据,由一台服务器进行调度,当该台服务器发出“第一阶段”的命令时,各个节点的服务器开始第一阶段数据的计算,在第一阶段数据计算完成后,各个节点之间相互交换数据,再开始第二阶段数据的计算,在最后一个阶段数据计算完成后,由主节点进行汇总结果。

        注意:

        在第一阶段数据计算结束后,各个节点之间需要交换数据,才能进行下一阶段的计算。

        相对于分散——>汇总模式,中心调度——>步骤执行模式,中间各个节点之间会进行交换数据,各个节点负责的数据是动态的,或者某个节点开启下一个阶段计算的要求,是另一个阶段该阶段的计算数据。如工作中的项目经理与项目成员就是一个典型的例子。

(2)常见框架

        hadoop系统中的MapReduce使用的就是分散——>汇总框架,但是大数据体系中的一些明星框架,使用的多是中心调度——>步骤执行模式,如Apache Spark,Apache Flink使用的就是中心调度——>步骤执行模式。

4、总结

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/258226.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

学习记录---kubernetes中备份和恢复etcd

一、简介 ETCD是kubernetes的重要组成部分,它主要用于存储kubernetes的所有元数据,我们在kubernetes中的所有资源(node、pod、deployment、service等),如果该组件出现问题,则可能会导致kubernetes无法使用、资源丢失等情况。因此…

某校园报名sign解密

某校园报名sign解密 定位 看了下确实是md5标准算法,接下来就看下加密的明文了 最后分开看了下, sign md5(用户名 活动id 10位时间戳 keys)

震坤行:ZKH清洁系列打造民族品牌之光

震坤行:ZKH清洁系列打造民族品牌之光 2023年7月,继第一代高性能垃圾袋系列产品面世,震坤行低碳物业型垃圾袋和分类垃圾桶系列产品全面上线,也标志着震坤行清洁类产品正式进入2.0深度开发时代。 震坤行品牌的发展与升级之路 回顾震…

都2023年了还在搜索Maven是什么?赶紧来学习(超详细一文搞懂)

文章目录 前言1. 到底什么是 Maven2. 为什么要学Maven3. 创建一个 Maven 项目4. Maven 核心功能4.1 项目构建4.2 依赖管理 4. Maven 仓库4.1 本地仓库4.2 中央仓库4.3 私有服务器, 也称为私服 5. Maven 设置国内源5.1 配置当前项目setting5.2 设置新项目的setting 总结 前言 我…

MySQL高级--01_1--数据库缓冲池(buffer pool)

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 数据库缓冲池(buffer pool)DBMS 会申请占用内存来作为数据缓冲池,在真正访问页面之前,需要把在磁盘上的页缓存到内存中的Buffer Pool 之后才…

如何快速完成企业私有云部署

快解析赋能企业私有云部署 ​ 很多企业形成了以总部为中心的多点生产体系结构,并借助网络化办公工具搭建跨区域协同办公系统,满足总部与分支机构间的信息互通,进而促进异地业务的信息共享,提高办公处理效率和综合管理水平。 北…

blog目录,全用GTP写的代码,一步步完善需求。

GTP真是好用&#xff0c;直接对话&#xff0c;一步步完善需求&#xff0c;写代码无忧。Question&#xff1a;网站文章添加个目录导航的代码。 <p><span style"line-height:1;"><span style"font-size:16px;"><u><a href"h…

echarts绘制一个柱状折线图

其他echarts&#xff1a; echarts绘制一个环形图 echarts绘制一个饼图 echarts绘制一个环形图2 效果&#xff1a; 代码&#xff1a; <template><div class"wrapper"><!-- 柱状图 --><div v-if"type new_bar" ref"barChar…

临床骨科常用的肩关节疾病量表,医生必备!

根据骨科医生的量表使用情况&#xff0c;常笑医学整理了临床骨科常用的肩关节疾病量表&#xff0c;为大家分享临床常见的肩关节疾病量表评估内容&#xff0c;均支持量表下载和在线使用&#xff0c;建议收藏&#xff01; 1.臂、肩、手功能障碍&#xff08;disabilites of the ar…

java死锁的成因和解决方案

一、什么是死锁&#xff1f; 在Java中&#xff0c;死锁是指两个或多个线程互相持有对方所需要的锁&#xff0c;并且在无法继续执行的情况下永久地等待对方释放锁。这种情况下&#xff0c;所有涉及的线程都无法继续执行&#xff0c;程序被卡住&#xff0c;无法正常终止。 死锁通…

代立冬:基于Apache Doris+SeaTunnel 实现多源实时数据仓库解决方案探索实践

大家好&#xff0c;我是白鲸开源的联合创始人代立冬&#xff0c;同时担任 Apache DolphinScheduler 的 PMC chair 和 SeaTunnel 的 PMC。作为 Apache Foundation 的成员和孵化器导师&#xff0c;我积极参与推动多个开源项目的发展&#xff0c;帮助它们通过孵化器成长为 Apache …

【GEE】时间序列多源遥感数据随机森林回归预测|反演|验证|散点图|完整代码

实验介绍 分类和回归之间的主要区别在于&#xff0c;在分类中&#xff0c;我们的预测目标是离散的类别&#xff0c;而在回归中&#xff0c;预测目标是连续的预测值。 本实验的研究区域位于佛蒙特州的埃塞克斯郡&#xff0c;使用训练数据来模拟土壤氧化还原深度&#xff0c;然…