Hadoop3教程(十二):MapReduce中Shuffle机制的概述

文章目录

  • (95) Shuffle机制
    • 什么是shuffle?
    • Map阶段
    • Reduce阶段
  • 参考文献

(95) Shuffle机制

面试的重点

什么是shuffle?

Map方法之后,Reduce方法之前的这段数据处理过程,就叫做shuffle,中文直译"洗牌"。

参考上一小节的MR工作流程,整个shuffle的工作流程如下图,可以理解成shuffle横跨map和reduce阶段:

在这里插入图片描述

Map阶段

1) Map()处理之后的数据,会被传输进环形缓冲区,而在这个过程中,数据会被打上一个"分区",之后会讲这个分区是怎么来的。打好分区后,数据会被正式写入环形缓冲区。

2) 环形缓冲区的机制在上一小节里有介绍,看那个就行。需要注意,它在溢写到磁盘之前,需要对数据进行排序,即针对KEY值的索引,按照字典顺序进行快排。

每次溢写后会形成两个文件,一个是保存索引用的spill.index,一个是保存数据用的spill.out。这个过程中有一个可选环节,即combiner,即简单聚合,如果开启这个环节的话,会对本次溢写的文件做一些简单的预聚合,如将<a,1>, <a,1>合并成<a,2>,从而在一定程度上减轻reduce阶段的输入量。

3) 溢写会进行很多轮,即生成很多个.out文件。 当输入数据全部溢写完成后,会以分区为单位,对所有溢写结果做归并排序,并最终整合成一个大文件。相当于是在该MapTask下,最终只保留一个文件,且这个文件内部是按照分区由低到高排列,分区内部有序。

4) 归并排序后,仍然是一个可选的combiner环节,对文件内数据做再次的预聚合。

5) combiner之后,会对各分区的数据文件做压缩。从归并排序到压缩,这部分工作都是在内存中完成的,最后会将压缩后的数据写入磁盘。

为什么要进行压缩呢?

这是一个优化的手段,因为最终的输出是要传到Reduce里的,待传输的文件越小,输出的时间就越短,相比就更加高效。这个后面具体会讲

6) 最后,会将压缩后的文件放进磁盘中,等待Reduce来主动拉取。

Reduce阶段

在Reduce阶段

1) 每个ReduceTask会主动拉取Map阶段的处理结果(指定分区),优先读取到内存,因为内存里面直接处理会更快,但是如果内存不够那就没办法了,只能溢写到磁盘,后续一点点处理了。

2) 然后对从每个MapTask收上来的数据,做归并排序。

3) 归并排序完之后,再根据相同的key进行分组,分组之后的数据类似于如<key, [v1, v2, v3,...]>

4) 最终,把分组后的数据送进Reduce(),做相应的业务逻辑处理,并输出。

以上流程,就是一个完整的shuffle流程。

参考文献

  1. 【尚硅谷大数据Hadoop教程,hadoop3.x搭建到集群调优,百万播放】

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/140731.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vue-cli脚手架创建项目时报错Error: command failed: npm install --loglevel error

项目背景 环境&#xff1a;vue-cli 5.x 在工程文件中&#xff0c;后端模块wms已经创建完成&#xff0c;现在想新建一个名为vue-web的前端模块 执行命令vue create vue-web时&#xff0c; 报错Error: command failed: npm install --loglevel error 问题分析及解决 排查过程…

Talk | 阿里巴巴算法专家王潇斌:开箱即用的文本理解大模型

本期为TechBeat人工智能社区第538期线上Talk&#xff01; 北京时间10月18日(周三)20:00阿里巴巴算法专家—王潇斌的Talk已准时在TechBeat人工智能社区开播&#xff01; 他与大家分享的主题是: “开箱即用的文本理解大模型”&#xff0c;介绍了他们提出的SeqGPT以及EcomGPT两个文…

微信小程序之自定义组件(OA项目个人主页及投票)

前言 本期为大家带来微信小程序自定义组件及OA项目的个人主页布局和投票 一.自定义组件 1.学习官网 自定义组件 / 介绍 (qq.com) 2.如何自定义组件 2.1 创建目录 在根目录下依次创建components/tabs&#xff0c;然后在tabs中新建Component 创建好后会自动为我们生成对应的文…

打卡go学习第一天

8.1 下面展示一些 代码。 package mainimport ("fmt""net""os""time" )type Clock struct {Name stringAddr string &#xff5d; func main() {clocks : []Clock{{Name: "New York", Addr: "localhost:8000"…

Oracle数据库 ORA-28001: the password has expired解决方法

今天在用dbvisualizer登录数据库的时候&#xff0c;报了the password has expired的错误&#xff0c;于是上网查了一下原因&#xff0c;是因为数据库密码过期了&#xff0c;因为默认的是180天。 解决方法&#xff1a; 1&#xff09;用系统用户登录 #在cmd终端输入&#xff1…

怎么把本机设置成代理ip?

代理IP服务能帮助您隐藏您的真实IP&#xff0c;从而保护您的隐私和安全。本文将指导您如何将本机设置为代理IP。代理IP服务能帮助您隐藏您的真实IP&#xff0c;从而保护您的隐私和安全。本文将指导您如何将本机设置为代理IP。设置代理IP可以用于多种用途&#xff0c;比如&#…

为数据列表的每条记录生成对应的二维码

效果图&#xff1a; 一、前端 <!DOCTYPE html> <html lang"zh" xmlns:th"http://www.thymeleaf.org" xmlns:shiro"http://www.pollix.at/thymeleaf/shiro"> <head><th:block th:include"include :: header(固定资产…

Apache DolphinScheduler 官方发布3.2.0版本!大数据调度【重磅更新】

今天&#xff0c;Apache DolphinScheduler 3.2.0 版本在万众期待中终于发布了&#xff01;在之前的预告中&#xff0c;包括《重磅预告&#xff01;Apache DolphinScheduler 3.2.0 新功能“剧透”》、《3.2.0 版本预告&#xff01;Apache DolphinScheduler API 增强相关功能》、…

大中小企业自招人力及劳务派遣全行业招聘来抖音招聘流量大效果佳

抖音直播招聘报白是通过抖音直播方式展现职位信息&#xff0c;并与求职者进行互动的招聘方式。在抖音平台上&#xff0c;企业或者人力资源公司可以通过直播的形式&#xff0c;将职位以视频直播的方式展现出来。通过抖音直播招聘报白&#xff0c;企业或者人力资源公司可以利用抖…

群晖synology DSM 7.2设置钉钉Webhooks通知

现在越来越多的小伙伴都有了自己的Nas系统&#xff0c;为了更加方便的接收Nas的消息&#xff0c;这篇文章带着大家一起配置一个钉钉&#xff08;机器人&#xff09;即时消息通知 首先登录钉钉的开放平台&#xff1a;开发者后台统一登录 - 钉钉统一身份认证 1.创建一个机器人&…

uniapp实现简单的九宫格抽奖(附源码)

效果展示 uniapp实现大转盘抽奖 实现步骤&#xff1a; 1.该页面可设置8个奖品&#xff0c;每个奖品可设置中奖机会的权重&#xff0c;如下chance越大&#xff0c;中奖概率越高&#xff08;大于0&#xff09; // 示例代码 prizeList: [{id: 1,image: "https://img.alicdn…

在ts中val is Map是什么意思呢?

最近在学习vue3的源码&#xff0c;顺便也在学习ts&#xff0c;就记录一下自己学习中的困惑吧 export const isArray Array.isArray export const isMap (val: unknown): val is Map<any, any> >toTypeString(val) [object Map] export const isSet (val: unknow…