Spark实战：词频统计-编程知识

Spark实战：词频统计

news/2025/3/15 7:42:01/文章来源:https://blog.csdn.net/howard2005/article/details/137266207

在这里插入图片描述

文章目录

一、Spark实战：词频统计
- （一）Scala版
- - 1、分步完成词频统计
  - 2、一步搞定词频统计
- （二）Python版
- - 1、分步完成词频统计
  - 2、一步搞定词频统计
二、实战总结

一、Spark实战：词频统计

（一）Scala版

1、分步完成词频统计

（1）基于文本文件创建RDD

执行命令：val lines = sc.textFile("/home/test.txt")

（2）按空格拆分作扁平化映射

执行命令：val words = lines.flatMap(_.split(" "))

（3）将单词数组映射成二元组数组

执行命令：val tuplewords = words.map((_, 1))

（4）将二元组数组按键归约

执行命令：val wordcount = tuplewords.reduceByKey(_ + _)

（5）将词频统计结果按次数降序排列

执行命令：val sortwordcount = wordcount.sortBy(_._2, false)

2、一步搞定词频统计

执行命令：sc.textFile("/home/test.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_ + _).sortBy(_._2, false).collect.foreach(println)

（二）Python版

1、分步完成词频统计

（1）基于文本文件创建RDD

执行命令：lines = sc.textFile("/home/test.txt")

（2）按空格拆分作扁平化映射

执行命令：words = lines.flatMap(lambda line : line.split(' '))

（3）将单词数组映射成二元组数组

执行命令：tuplewords = words.map(lambda word : (word, 1))

（4）将二元组数组按键归约

执行命令：wordcount = tuplewords.reduceByKey(lambda a, b : a + b)

（5）将词频统计结果按次数降序排列

执行命令：sortwordcount = wordcount.sortBy(lambda wc : wc[1], False)

2、一步搞定词频统计

执行命令

for line in sc.textFile('/home/test.txt').flatMap(lambda line : line.split(' ')).map(lambda word : (word, 1)).reduceByKey(lambda a, b : a + b).sortBy(lambda tup : tup[1], False).collect():print(line)

二、实战总结

在Spark实战中，我们通过Scala和Python两个版本分别实现了词频统计的功能。首先，我们从文本文件中创建了RDD，然后按空格拆分进行扁平化映射，接着将单词数组映射成二元组数组，之后对二元组数组进行按键归约，最后将词频统计结果按次数降序排列。在分步实现的基础上，我们还可以通过一步命令直接完成整个流程。通过这次实战，我们对Spark的基本操作有了更深入的了解，为后续的学习和实践打下了基础。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/588093.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Golang并发模型-Pipeline模型、Fan-in Fan-out模型

Golang并发模型-Pipeline模型、Fan-in Fan-out模型

这段时间由于项目的需要，本人正在研究关于如何优雅的进行go的并发，以下是结合资料和视频的结果，文末会给出参考资料 Go语言的并发模型主要通过goroutine和channel实现，通过这个我们可以更有效地使用IO和CPU 这里我们围绕生成一个…

阅读更多...

学习Python第十五天：第一个程序python程序

学习Python第十五天：第一个程序python程序

第一个程序：ZIP文件口令破解机编写ZIP文件口令破解机要从学习zipfile库的使用方法着手，打开pythn解释器，我们用help(zipfile)命令进一步了解这个库，并重点看一下zipfile类中的extractall()方法，这个类和这个方法对我…

阅读更多...

蓝桥杯第八届c++大学B组详解

蓝桥杯第八届c++大学B组详解

目录 1.购物单 2.等差素数列 3.承压计算 4.方格分割 5.日期问题 6.包子凑数 7.全球变暖 8.k倍区间 1.购物单题目解析：就是将折扣字符串转化为数字，进行相加求和。 #include<iostream> #include<string> #include<cmath> usin…

阅读更多...

基于jsp网上教师点评系统

基于jsp网上教师点评系统

基于jsp网上教师点评系统关键词：教师点评信息技术 JSP技术系统实现首页评分规则教室信息后台首页相关技术介绍 B/S架构对于架构，听起来说我们可能比较陌生，但对于通俗的语法讲。他的访问方式是通过网址还是说通过点图标这…

阅读更多...

垄断与商品化背景下的网络安全三大整合策略

垄断与商品化背景下的网络安全三大整合策略

我国的网络安全产业已经发展了20余年，大大小小的企业几乎覆盖了网络安全的所有领域。随着安全需求的逐渐递增，安全产品也朝着平台化、规模化发展，这就倒逼着安全厂商需要整合越来越多的安全能力，并与其产品相融合。这个过程&#…

阅读更多...

鸿蒙OS元服务开发：【（Stage模型）设置悬浮窗】

鸿蒙OS元服务开发：【（Stage模型）设置悬浮窗】

一、设置悬浮窗说明悬浮窗可以在已有的任务基础上，创建一个始终在前台显示的窗口。即使创建悬浮窗的任务退至后台，悬浮窗仍然可以在前台显示。通常悬浮窗位于所有应用窗口之上；开发者可以创建悬浮窗，并对悬浮窗进行属性设置等操…

阅读更多...

Kafka架构概述

Kafka架构概述

Kafka的体系结构 Kafka是由Apache软件基金会管理的一个开源的分布式数据流处理平台。Kafka具有支持消息的发布/订阅模式、高吞吐量与低延迟、持久化、支持水平扩展、高可用性等特点。可以将Kafka应用于大数据实时处理、高性能数据管道、流分析、数据集成和关键任务应用等场景。…

阅读更多...

用于AGV物流机器人的爱普生陀螺仪传感器XV7000系列

用于AGV物流机器人的爱普生陀螺仪传感器XV7000系列

适用于AGV物流机器人的爱普生陀螺仪传感器XV7000系列:XV7001BB，XV7011BB。以前我们都知道XV7001BB，XV7011BB适用于扫地机器人，其实对于AGV物流机器人来说，XV7000系列生陀螺仪传感器也是其中重要一环。AGV机器人又叫做AGV搬运机器人…

阅读更多...

概率论基础——拉格朗日乘数法

概率论基础——拉格朗日乘数法

概率论基础——拉格朗日乘数法概率论是机器学习和优化领域的重要基础之一，而拉格朗日乘数法与KKT条件是解决优化问题中约束条件的重要工具。本文将简单介绍拉格朗日乘数法的基本概念、应用以及如何用Python实现算法。 1. 基本概念拉格朗日乘数法是一种用来求解…

阅读更多...

element-ui tableData导出为xlsx文件

element-ui tableData导出为xlsx文件

下载 npm i / yarn add file-saver、xlsx库引入 import FileSaver from “file-saver”; import XLSX from “xlsx”; const simexport (data) > {// if (data.create_time && data.create_time.length > 0) {// data.start_time parseTime(data.create_tim…

阅读更多...

2024水大会|【第二届智慧水环境管理与技术创新论坛】领衔专家刘炳义教授邀您聚首成都

2024水大会|【第二届智慧水环境管理与技术创新论坛】领衔专家刘炳义教授邀您聚首成都

2024年5月13日—15日中华环保联合会、福州大学、上海大学在四川省成都市联合举办“2024全国水科技大会暨技术装备成果展览会”。大会以“加快形成新质生产力，增强水业发展新动能”为主题，由开幕式、院士论坛、主旨报告、高峰对话、主题峰会、专题论坛、…

阅读更多...

monitor link 联合smart link配合应对复杂的网络

monitor link 联合smart link配合应对复杂的网络

monitor link关键词：上行和下行端口，当上行端口异常，下行端口立即down掉，也就是一种联动机制如果上行端口里面是smart link方式，则当主从端口都出问题时候，下行端口才会down掉 monitor link 配置步骤 1创…

阅读更多...

推荐文章

最新文章