spark数据倾斜的解决思路

在这里插入图片描述
数据倾斜是:多个分区中,某个分区的数据比其他分区的数据多的多

数据倾斜导致的问题:

  1. 导致某个spark任务耗时较长,导致整个任务耗时增加,甚至出现OOM
  2. 运行速度慢:主要发生在shuffle阶段,同样的key的数据太多了,导致了某个key所在的task需要处理的数据量太大了,远超其他的task的处理时间
    一条经验:一般出现运行速度异常慢,或者OOM的主要原因是数据倾斜

数据倾斜的解决方案:

  1. 过滤不需要的key:有些key是脏数据,直接过滤,降低数据量
  2. 调整并行度:增大partition的数量,这个每个task要处理的数据量就降低了,各个key可以均匀的分配到多个partition中。但是如果某个key的数据量就是很多,还是会出现数据倾斜
  3. 将reduce侧的join转化为map侧join:如用reduceBykey来替换groupByKey,让map侧也发生aggr聚合,减少shuffle的数据量
  4. 随机前缀扩容:如果某个key就是很多,在此key之前加随机数,来打散key,然后聚合
  5. 如果在加载数据时就发生了数据倾斜,可以在加载后进行repartition
  6. 对于join数据倾斜,一般是小表join大表,用map join ,避免reduce join(shuffle join)
    总结:一般在shuffle时容易发生数据倾斜,因此主要思路是降低shuffle的量

spark的map join 和reduce join的区别?

都是将2个数据集进行join连接的操作,但是实现方式不同

  1. map join:小表join 大表, 将小表通过广播的方式,广播到所有excutors节点的内存中,然后在每个excutor节点上将大数据和小数据进行连接,这样可以快速连接,从而提高了join的效率;优点:由于将小数据加载到内存中,join的速度很快;缺点:由于数据会加载到内存中,会导致内存溢出的问题。
  2. reduce join : 大表join大表, 将2个数据集都进行分区,然后将相同的key的数据分发到同一个节点上进行连接操作。因为同一个key的数据被分发到同一个节点上,所以每个节点只需要处理一部分数据,从而减少了每个节点需要处理的数据量,提高了join的效率;优点:通过分布式的方式能够处理大数据集; 缺点:需要进行shuffle网络传输,如果传输速度较慢,可能会导致连接操作的效率较低。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/212863.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【数字信号处理】傅里叶变换的离散性与周期性

傅里叶变换的离散性与周期性 2023年11月21日 #elecEngeneer 文章目录 傅里叶变换的离散性与周期性1. 符号说明2. 具体分析3. 序列的序号表示的DFT下链 1. 符号说明 t : 连续时间(时域)变量 ω : 频域变量,aka角频率 g : 时域函数 G : 频域函数 n : 时域采样序列序号…

Qt/QML编程学习之心得:一个Qt工程的学习笔记(九)

1、.pro文件 加CONFIG += c++11,才可以使用Lamda表达式(一般用于connect的内嵌槽函数) 2、QWidget 这是Qt新增加的一个类,基类,窗口类,QMainWindow和QDialog都继承与它。 3、Main函数 QApplication a应用程序对象,有且仅有一个 a.exec() 进行消息循环、阻塞 MyWi…

Maven 简单配置阿里云镜像

配置步骤&#xff1a; 1、找到 maven 的安装目录&#xff0c;修改settings.xml 2、在文件中找到<mirrors>标签&#xff0c;然后再标签中添加阿里云配置即可 <mirror><id>aliyunmaven</id><mirrorOf>*</mirrorOf><name>阿里云公共…

基于5G+物联网+SaaS+AI的农业大数据综合解决方案:PPT全文44页,附下载

关键词&#xff1a;智慧农业大数据&#xff0c;5G智慧农业&#xff0c;物联网智慧农业&#xff0c;SaaS智慧农业&#xff0c;AI智慧农业&#xff0c;智慧农业大数据平台 一、智慧农业大数据建设背景 1、应对全球人口快速增长带来的粮食生产压力&#xff0c;未来的粮食生产力必…

upload-labs关卡13(基于白名单的0x00截断绕过)通关思路

文章目录 前言一、回顾上一关知识点二、靶场第十三关通关思路1、看源代码2、bp进行0x00截断绕过3、蚁剑连接 总结 前言 此文章只用于学习和反思巩固文件上传漏洞知识&#xff0c;禁止用于做非法攻击。注意靶场是可以练习的平台&#xff0c;不能随意去尚未授权的网站做渗透测试…

react中的state

没想到hooks中也有state这一说法 看下面的两个案例 1、无state变化不会执行父子函数 2、有state更改执行父子函数

一个千古名方,可治一切目疾!近视眼也可治!常服还可益寿延年!

1 人有三宝&#xff0c;曰精气神&#xff0c;两目有神&#xff0c;眼光清澈&#xff0c;精力自然也旺盛&#xff0c;反之&#xff0c;眼部出现问题&#xff0c;总是要找肝和肾问责的。 《黄帝内经》曰&#xff1a;肝开窍于目&#xff0c;目受血而能视。肝藏血&#xff0c;只有…

linux下磁盘分区、挂载实操

文章目录 一、磁盘分区1.查看磁盘分区情况2.使用fdisk进行分区&#xff08;2T以下&#xff09;3.删除分区4.使用parted对磁盘进行分区&#xff08;大于2T&#xff09; 二、磁盘格式化1.格式化文件系统2.关闭文件系统自检3.禁止检查磁盘文件系统&#xff0c;开机修复错误 三、磁…

2023年【四川省安全员B证】找解析及四川省安全员B证作业模拟考试

题库来源&#xff1a;安全生产模拟考试一点通公众号小程序 四川省安全员B证找解析是安全生产模拟考试一点通总题库中生成的一套四川省安全员B证作业模拟考试&#xff0c;安全生产模拟考试一点通上四川省安全员B证作业手机同步练习。2023年【四川省安全员B证】找解析及四川省安…

vue2生命周期

前言 vue的生命周期其实可以分为两块,一个是vue实例的生命周期,一个是组件的生命周期。 vue实例的生命周期方法共有4个:$mout,$forceUpdate,$nextTick,$destroy vue组件的生命周期钩子共有8个:beforeCreate,created,beforeMount,mounted,beforeUpdate, updated,beforeDestr…

基于JavaWeb+SSM+Vue微信阅读小程序的设计和实现

基于JavaWebSSMVue微信阅读小程序的设计和实现 源码获取入口Lun文目录前言主要技术系统设计功能截图订阅经典源码专栏[Java 源码获取 源码获取入口 Lun文目录 第1章 绪论 1 1.1 课题背景 1 1.2 课题意义 1 1.3 研究内容 1 第2章 开发环境与技术 3 2.1 MYSQL数据库 3 2.2 JSP技…

UDP客户端使用connect与UDP服务器使用send函数和recv函数收发数据

服务器代码编译运行 服务器udpconnectToServer.c的代码如下&#xff1a; #include<stdio.h> #include<stdlib.h> #include<string.h> #include<unistd.h> #include<arpa/inet.h> #include<sys/socket.h> #include<errno.h> #inclu…