12.11 每日总结（Spark 去重）-编程知识

12.11 每日总结（Spark 去重）

news/2024/12/17 14:18:46/文章来源:https://www.cnblogs.com/drip3775/p/18612368

今天学习Spark去重。

学习时长2小时

import org.apache.spark.sql.{SparkSession}

object MergeAndDeduplicate {
def main(args: Array[String]): Unit = {
// 创建SparkSession
val spark = SparkSession.builder()
.appName("Merge and Deduplicate")
.master("local[*]")
.getOrCreate()

// 设置日志级别
spark.sparkContext.setLogLevel("WARN")

// 检查输入和输出路径参数
if (args.length != 3) {
println("Usage: MergeAndDeduplicate <inputPathA> <inputPathB> <outputPath>")
sys.exit(1)
}

val inputPathA = args(0)
val inputPathB = args(1)
val outputPath = args(2)

// 读取输入文件A和B
val fileA = spark.read.textFile(inputPathA)
val fileB = spark.read.textFile(inputPathB)

// 解析文件内容，分割为键值对
val dataA = fileA.map(line => {
val parts = line.split("\t")
(parts(0), parts(1))
})

val dataB = fileB.map(line => {
val parts = line.split("\t")
(parts(0), parts(1))
})

// 合并两个数据集并剔除重复内容
val combinedData = dataA.union(dataB).distinct()

// 转换为字符串格式以便保存到文件
val outputData = combinedData.map {
case (date, value) => s"$date\t$value"
}

// 保存结果到输出路径
outputData.write.text(outputPath)

// 关闭SparkSession
spark.stop()
}
}

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/854316.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

X.3 一维梁

X.3 一维梁

X.3 一维梁一维连续系统本图中，w表示梁在z方向的挠度（deflection，或位移），f表示每单元长度受到的横向力（transverse force），T表示弦（string）受到的张力。对于一维张紧弦，其控制方程为： \[\begin{equation}T\frac{d^2w}{dx^2}+f\begin{pmatrix}x\end{pmatri…

阅读更多...

11.21 每日总结（设计模式）

11.21 每日总结（设计模式）

今天继续设计模式简单单工厂模式定义：定义了一个创建对象的类，由这个类来封装实例化对象的行为。

阅读更多...

kali启动报“piix4_smbus 0000:00:07.3: SMBus Host controller not enabled”

kali启动报“piix4_smbus 0000:00:07.3: SMBus Host controller not enabled”

问题：piix4_smbus 0000:00:07.3: SMBus Host controller not enabled 解决办法：增大内存

阅读更多...

游戏场景

游戏场景

需要用的场景需要拖进去场景跳转最简单场景类场景管理类两个场景叠加场景加载卡顿换如下方法异步加载多线程场景管理类先引用场景非自动跳转

阅读更多...

【实用指南】Zabbix服务器性能警告分析与解决方案：Zabbix server: Utilization of icmp pinger processes over

【实用指南】Zabbix服务器性能警告分析与解决方案：Zabbix server: Utilization of icmp pinger processes over

前言：在监控系统的日常运维中，Zabbix作为一个强大的开源监控工具，帮助我们实时监控网络和应用状态。然而，当Zabbix服务器性能出现警告时，如icmp pinger进程利用率过高，这可能会影响监控数据的准确性和及时性。本文将为您提供一个详细的分析和解决方案，帮助您快速定位问题…

阅读更多...

车企软件研发流程及质量把控解决方案

车企软件研发流程及质量把控解决方案

在“软件定义汽车”时代，车载软件的比重逐步提高，车载软件的研发流程决定着车载软件质量的稳定性和可控性。经纬恒润可面向OEM/TIER1结合多标准要求，如：ASPICE/CMMI/ISO26262/IATF16949质量体系，搭建、定义车载软件开发流程以及供方管控标准和流程。概述在“软件定义汽车”…

阅读更多...

Springboot+Nacos项目

Springboot+Nacos项目

微服务微服务（Microservices）是一种软件架构风格，他区别与单体架构，将拆分为多个小型的、独立的服务，每个服务都可以独立开发、部署和维护。这些服务通过轻量级的API进行通信。 Nacos简述 Nacos 用于发现、配置和管理微服务。nacos有2个核心功能，一个是注册中心，一个是…

阅读更多...

D30 pod状态

D30 pod状态

阅读更多...

深入聊聊asyncPromise

深入聊聊asyncPromise

正文最近在学习JavaScript里的async、await异步，对于其中的Promise状态以及背后的Js引擎实际运行状态不大理解且很感兴趣，因此花了一点时间仔细研究了一下。从Example说起 const createImg = function (path) {return new Promise((resolve, reject) => {const img = do…

阅读更多...

[OS] 计算机资源虚拟化技术

[OS] 计算机资源虚拟化技术

1 定义：计算机资源虚拟化服务器虚拟化主要通过软件技术将物理服务器的硬件资源抽象化，创建多个独立的虚拟服务器环境。2 虚拟化技术方向以下是一些常见的服务器虚拟化方式和工具：基于hypervisor的虚拟化Hypervisor技术: 也称为虚拟机监视器（Virtual Machine Monitor，VMM…

阅读更多...

C#调用Python代码的方式（二），以PaddleOCR-GUI为例

C#调用Python代码的方式（二），以PaddleOCR-GUI为例

前言前面介绍了在C#中使用Progress类调用Python脚本的方法，但是这种方法在需要频繁调用并且需要进行数据交互的场景效果并不好，因此今天分享的是C#调用Python代码的方式（二）：使用pythonnet调用Python代码。 pythonnet介绍 Python.NET 是一个包，为 Python 程序员提供了与…

阅读更多...

在线教育系统厂家电话

在线教育系统厂家电话

为了方便您直接对接相关业务，下面提供几个在线教育相关企业的联系电话，请自行选择合适的服务商联系。若想直接获取更多信息或定制化的产品方案，请拨打以下联系电话：- 顺企网在线教育直播软件开发平台联系人：张生；联系方式：电话 15989102540（说明您来自顺企网，可获得优…

阅读更多...

推荐文章

最新文章