Python大数据之PySpark(七)SparkCore案例

文章目录

    • SparkCore案例
      • PySpark实现SouGou统计分析
    • 总结
    • 后记

SparkCore案例

PySpark实现SouGou统计分析

  • jieba分词:

  • pip install jieba 从哪里下载pypi

  • image-20210911172012214

  • 三种分词模式

  • 精确模式,试图将句子最精确地切开,适合文本分析;默认的方式

  • 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;

  • 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

  • image-20210911171724531

# -*- coding: utf-8 -*-
# Program function:测试结巴分词
import jieba
import re# jieba.cut
# 方法接受四个输入参数:
# 需要分词的字符串;
# cut_all 参数用来控制是否采用全模式;
# HMM 参数用来控制是否使用 HMM 模型;
# use_paddle 参数用来控制是否使用paddle模式下的分词模式,paddle模式采用延迟加载方式,通过enable_paddle接口安装paddlepaddle-tiny,并且import相关代码;
str = "我来到北京清华大学"
print(list(jieba.cut(str)))  # ['我', '来到', '北京', '清华大学'],默认的是精确模式
print(list(jieba.cut(str, cut_all=True)))  # ['我', '来到', '北京', '清华', '清华大学', '华大', '大学'] 完全模式# 准备的测试数据
str1 = "00:00:00	2982199073774412	[360安全卫士]	8 3	download.it.com.cn/softweb/software/firewall/antivirus/20067/17938.html"
print(re.split("\s+", str1)[2])  # [360安全卫士]
print(re.sub("\[|\]", "", re.split("\s+", str1)[2])) #360安全卫士
print(list(jieba.cut(re.sub("\[|\]", "", re.split("\s+", str1)[2]))))  # [360安全卫士] --->['360', '安全卫士']
  • image-20210911173303174
  • 数据认知:数据集来自于搜狗实验室,日志数据

  • 日志库设计为包括约1个月(2008年6月)Sogou搜索引擎部分网页查询需求用户点击情况的网页查询日志数据集合。

  • image-20210911171106364
  • image-20210911171201739
  • 需求

  • 1-首先需要将数据读取处理,形成结构化字段进行相关的分析

  • 2-如何对搜索词进行分词,使用jieba或hanlp

  • jieba是中文分词最好用的工具

  • image-20210911171442874
  • 步骤

  • 1-读取数据

  • 2-完成需求1:搜狗关键词统计

  • 3-完成需求2:用户搜索点击统计

  • 4-完成需求3:搜索时间段统计

  • 5-停止sparkcontext

  • 代码

# -*- coding: utf-8 -*-# Program function:搜狗分词之后的统计'''* 1-读取数据
* 2-完成需求1:搜狗关键词统计
* 3-完成需求2:用户搜索点击统计
* 4-完成需求3:搜索时间段统计
* 5-停止sparkcontext'''from pyspark import SparkConf, SparkContextimport reimport jiebaif __name__ == '__main__':# 准备环境变量conf = SparkConf().setAppName("sougou").setMaster("local[*]")
sc = SparkContext.getOrCreate(conf=conf)
sc.setLogLevel("WARN")# TODO*1 - 读取数据sougouFileRDD = sc.textFile("/export/data/pyspark_workspace/PySpark-SparkCore_3.1.2/data/sougou/SogouQ.reduced")# print("sougou count is:", sougouFileRDD.count())#sougou count is: 1724264# 00:00:00 2982199073774412   [360安全卫士]  8 3    download.it.com.cn/softweb/software/firewall/antivirus/20067/17938.htmlresultRDD=sougouFileRDD \
.filter(lambda line:(len(line.strip())>0) and (len(re.split("\s+",line.strip()))==6))\
.map(lambda line:(re.split("\s+", line)[0],re.split("\s+", line)[1],re.sub("\[|\]", "", re.split("\s+", line)[2]),re.split("\s+", line)[3],re.split("\s+", line)[4],re.split("\s+", line)[5]
))# print(resultRDD.take(2))#('00:00:00', '2982199073774412', '360安全卫士', '8', '3', 'download.it.com.cn/softweb/software/firewall/antivirus/20067/17938.html')
#('00:00:00', '07594220010824798', '哄抢救灾物资', '1', '1', 'news.21cn.com/social/daqian/2008/05/29/4777194_1.shtml')# TODO*2 - 完成需求1:搜狗关键词统计print("=============完成需求1:搜狗关键词统计==================")
recordRDD = resultRDD.flatMap(lambda record: jieba.cut(record[2]))# print(recordRDD.take(5))sougouResult1=recordRDD\.map(lambda word:(word,1))\.reduceByKey(lambda x,y:x+y)\.sortBy(lambda x:x[1],False)# print(sougouResult1.take(5))# TODO*3 - 完成需求2:用户搜索点击统计print("=============完成需求2:用户搜索点击统计==================")# 根据用户id和搜索的内容作为分组字段进行统计sougouClick = resultRDD.map(lambda record: (record[1], record[2]))
sougouResult2=sougouClick\.map(lambda tuple:(tuple,1))\.reduceByKey(lambda x,y:x+y) #key,value# 打印一下最大的次数和最小的次数和平均次数print("max count is:",sougouResult2.map(lambda x: x[1]).max())
print("min count is:",sougouResult2.map(lambda x: x[1]).min())
print("mean count is:",sougouResult2.map(lambda x: x[1]).mean())# 如果对所有的结果排序# print(sougouResult2.sortBy(lambda x: x[1], False).take(5))# TODO*4 - 完成需求3:搜索时间段统计print("=============完成需求3:搜索时间段-小时-统计==================")
#00:00:00
hourRDD = resultRDD.map(lambda x: str(x[0])[0:2])
sougouResult3=hourRDD\.map(lambda word:(word,1))\.reduceByKey(lambda x,y:x+y)\.sortBy(lambda x:x[1],False)
print("搜索时间段-小时-统计",sougouResult3.take(5))# TODO*5 - 停止sparkcontextsc.stop()

总结

  • 重点关注在如何对数据进行清洗,如何按照需求进行统计
  • 1-rdd的创建的两种方法,必须练习
  • 2-rdd的练习将基础的案例先掌握。map。flatMap。reduceByKey
  • 3-sougou的案例需要联系2-3遍
  • 练习流程:
  • 首先先要将代码跑起来
  • 然后在理解代码,这一段代码做什么用的
  • 在敲代码,需要写注释之后敲代码

后记

📢博客主页:https://manor.blog.csdn.net

📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正!
📢本文由 Maynor 原创,首发于 CSDN博客🙉
📢感觉这辈子,最深情绵长的注视,都给了手机⭐
📢专栏持续更新,欢迎订阅:https://blog.csdn.net/xianyu120/category_12453356.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/127210.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

QQ浏览器怎么才能设置默认搜索引擎为百度

问题: 打开QQ浏览器,搜索相关信息时发现总是默认为”搜狗搜索引擎“,想将其转为”百度搜索引擎“ 解决: 1、点击浏览器右侧”菜单“图标,选择”设置“,如下图所示: 2、在”常规设置“中的”搜…

HTML5+CSS3+移动web 前端开发入门笔记(二)HTML标签详解

HTML标签&#xff1a;排版标签 排版标签用于对网页内容进行布局和样式的调整。下面是对常见排版标签的详细介绍&#xff1a; <h1>: 定义一级标题&#xff0c;通常用于标题栏或页面主要内容的标题。<p>: 定义段落&#xff0c;用于将文字分段展示&#xff0c;段落之…

C#学习系列相关之多线程(二)----Thread类介绍

一、线程初始化 1.无参数 static void Main(string[] args) {//第一种写法Thread thread new Thread(test);thread.Start();//第二种写法 delegateThread thread1 new Thread(new ThreadStart(test));thread1.Start();//第三种写法 lambdaThread thread2 new Thread(() >…

掌动智能:性能压力测试的重要性

采用性能压力测试可以帮助企业预估系统容量、提升用户体验以及降低风险和成本。在软件开发过程中&#xff0c;将性能压力测试纳入测试策略的重要一环&#xff0c;将为企业的成功和用户满意度打下坚实的基础。 性能压力测试的重要性&#xff1a; 一、发现性能瓶颈 性能压力测试能…

Python编程:创建图像浏览器应用程序

介绍&#xff1a; 图像浏览器应用程序是一种非常常见和实用的工具。它们使用户能够轻松地浏览和管理计算机中的图像文件。本文将介绍如何使用Python编程语言和wxPython库创建一个简单的图像浏览器应用程序。我们将学习如何利用Python的os模块进行文件和文件夹操作&#xff0c;以…

901. 股票价格跨度

设计一个算法收集某些股票的每日报价&#xff0c;并返回该股票当日价格的 跨度 。 当日股票价格的 跨度 被定义为股票价格小于或等于今天价格的最大连续日数&#xff08;从今天开始往回数&#xff0c;包括今天&#xff09;。 例如&#xff0c;如果未来 7 天股票的价格是 [100…

多种方案教你彻底解决mac npm install -g后仍然不行怎么办sudo: xxx: command not found

问题概述 某些时候我们成功执行了npm install -g xxx&#xff0c;但是执行完成以后&#xff0c;使用我们全局新安装的包依然不行&#xff0c;如何解决呢&#xff1f; 解决方案1&#xff1a; step1: 查看npm 全局文件安装地址 XXXCN_CXXXMD6M ~ % npm list -g …

2023去水印小程序源码修复版-前端后端内置接口+第三方接口

去水印小程序源码&#xff0c;前端后端&#xff0c;内置接口第三方接口&#xff0c;修复数据库账号密码错误问题&#xff0c;内置接口支持替换第三方接口&#xff0c;看了一下文件挺全的&#xff0c;可以添加流量主代码&#xff0c;搭建需要准备一台服务器&#xff0c;备案域名…

JAVA面经整理(7)

一)什么是AQS&#xff1f; 1)AQS也被称之为是抽象同步队列&#xff0c;它是JUC包底下的多个组件的底层实现&#xff0c;Lock&#xff0c;CountDownLatch和Semphore底层都使用到了AQS AQS的核心思想就是给予一个等待队列和同步状态来实现的&#xff0c;它的内部使用一个先进先出…

软件设计之抽象工厂模式

抽象工厂模式指把一个产品变成一个接口&#xff0c;它的子产品作为接口的实现&#xff0c;所以还需要一个总抽象工厂和它的分抽象工厂。 下面我们用一个案例去说明抽象工厂模式。 在class中可以选择super类和medium类&#xff0c;即选择一个产品的子类。在type中可以选择产品的…

ubuntu 安装postgresql,增加VECTOR向量数据库插件 踏坑详细流程

PGSQL安装&#xff0c;删除&#xff0c;运行&#xff0c;修改密码流程 Ubuntu18.04安装与配置postgresql含远程连接教程&#xff08;含踩坑记录&#xff09;_sudo apt-get install postgresql-CSDN博客 详细安装流程以上博客&#xff0c;自己也记录下 安装vector扩展连接 声明…

C++默认参数(实参)

在本文中&#xff0c;您将学习什么是默认参数&#xff0c;如何使用它们以及使用它的必要声明。在C 编程中&#xff0c;您可以提供函数参数的默认值。默认参数背后的想法很简单。如果通过传递参数调用函数&#xff0c;则这些参数将由函数使用。但是&#xff0c;如果在调用函数时…