WPS数据清洗+R语言读取文件画频数分布直方图

R语言是一门好语言,但很多人在读取文件中数据时会遇到问题。比如我遇到的问题就是从文件中读取数据后,数据无法用于画图。

检索了N篇博文(抱歉我实在无法一一列举30+篇博文)后,终于看到曙光,事实告诉我学任何一门语言都需要至少投资一本教材(譬如《R语言编程艺术》(美)Norman Matloff著,陈堰平、邱怡轩、潘岚锋 等译)。

下面展示一个栗子:

D市每日接电话报警数已知,求何时警情比较集中?

这明摆着是个统计问题,频数分布直方图就能完美解决。

鉴于并不是所有Office软件都支持直接画频数分布直方图,我想到了大学时代刘苗老师教我们的现代统计软件课——没错,就是R。

R语言在于短小精悍且图形优美,感觉就是统计软件界的python嘛!

下面开始:

1.数据清洗 

为了便于技术分享,我将数据脱敏。去掉接报警详细内容,只保留接报警时间一列:

图片只截取了一部分,日期是从2023-05-01到2023-05-31的,我们统计的是每日接报警集中情况,所以应将日期元素清洗掉。该怎么办呢?

这里康妮猫用了一个比较讨巧的做法:分列

是的,就是WPS自带的分列功能,可以将每一行“日期+时间”的数据拆分开。得到下图:(左列40000多是用WPS自带的格式转换为数据后得到的,右边是我们提取的时间数据)

  将无用的左列删掉,再用WPS自带的格式转换将时间数据转换为小数。

 

2.数据读取

getwd()#获取工作空间地址
setwd("D:/data")#设置工作空间地址times=read.table("ds2023May.txt")#把WPS里的数据复制粘贴到记事本,读取
typeof(times)#检验数据类型,发现是“list”times=as.numeric(unlist(times))#这一步非常重要,接下来就可以操作咯

一定要用unlist()函数,否则读取的数据无法用于画图。发现其他方式的小伙伴一定要留言告诉我!

3.画图

hist(times)#这句虽然能出图,但横坐标不对,我们来个操作
hist(times*24)hist(times*24,xlab="h",ylab="人次",main="XX区5月电话报警峰谷图",sub="制图:Connie",xlim=c(0,25),ylim=c(0,500),col="blue",xaxt="n",yaxt="n")#这句出来个没坐标的图

执行代码,画出无坐标的图(因为我们要个性化坐标: ))

 

 hist(times*24,xlab="h",ylab="人次",main="X区5月电话报警峰谷图",sub="制图:Connie",xlim=c(0,25),ylim=c(0,500),col="blue",xaxt="n",yaxt="n")#
axis(1,a)
axis(2,b)

 如图所示,每日接报警情自6时起至8时不断增加,到中午12至13时有所下降,后上升至19时达到最高后又逐步下降。(我这个分析= =#仅供参考)

4.总结

a.前期数据清洗很重要。不然就会困死在一条代码上拔不出来。要灵活利用WPS自带的功能为我们减少工作负担~(别问我自动化水平降低怎么破,那是大神们的事)

b.画图要循序渐进,不要指望一条代码就解决整张图。

c.unlist()函数很重要,如果实在不知道数据类型就用typeof()查一查,秒懂!

好啦今天的分享就到这里,热爱Coding的你们,再会!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/1451.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

关于数据库SQL优化

简介 在项目上线初期,业务数据量相对较少,SQL的执行效率对程序运行效率的影响可能不太明显,因此开发和运维人员可能无法判断SQL对程序的运行效率有多大。但随着时间的积累,业务数据量的增多,SQL的执行效率对程序的运行…

Windows11添加用户自定义短语

比如要输入手机号码,直接输入sj就会弹出预先设定好的手机号,也可以预先设置好邮箱,身份证等等,这样就不用输入了 这个咋设置的有时候确实会忘记,所以就记下来了 步骤 第一步 打开设置 时间和语言>语言和区域 第二…

虹科分享 | 高考大数据可视化志愿填报分析-基于虹科Domo BI工具

高考是中国教育系统中一项极为重要的考试,它不仅是学生完成高中学业的重要标志,也是进入大学的门槛。每年高考都会吸引数百万学生参加,同时也吸引了各地高校和招生部门的关注。高考招生数据是教育研究和政策制定的重要依据,通过对…

【算法基础】快速排序(模板)

👦个人主页:Weraphael ✍🏻作者简介:目前正在学习c和算法 ✈️专栏:【C/C】算法 🐋 希望大家多多支持,咱一起进步!😁 如果文章有啥瑕疵 希望大佬指点一二 如果文章对你有…

Elasticsearch:倒数排序融合 - Reciprocal rank fusion

警告:此功能处于技术预览阶段,可能会在未来版本中更改或删除。 Elastic 将尽最大努力修复任何问题,但技术预览中的功能不受官方 GA 功能的支持 SLA 约束。 倒数排序融合(RRF)是一种将具有不同相关性指标的多个结果集组…

java.sql.Time 字段时区问题 Mybatis 源码分析

java.sql.Time 字段时区问题 系列文章目录 第一章 初步分析 第二章 Mybatis 源码分析 第三章 Jackson 源码分析 意想不到的Time处理类 文章目录 java.sql.Time 字段时区问题 系列文章目录前言Mybatis源码阅读1. ResultSetImpl部分源码:2. SqlTimeValueFactory部分…

【AUTOSAR】BMS开发实际项目讲解(二十九)----电池管理系统电池充放电功率控制与SOC

电池充放电功率控制 关联的系统需求 Sys_Req_3901、Sys_Req_3902、Sys_Req_3903、Sys_Req_3904; 功能实现描述 电池充放电功率控制主要包括以下内容: 60S可用功率 参见[CELL] 30S可用功率 参见[CELL] 10S可用功率 参见[CELL] SOP算法 ID Description ASI…

Nginx(3)nginx的Rewrite功能

nginx跨域 Rewrite功能配置Rewrite的相关命令Rewrite的案例域名跳转域名镜像独立域名目录自动添加/合并目录防盗链 Rewrite功能配置 Rewrite是Nginx服务器提供的一个重要基本功能,是Web服务器产品中几乎必备的功能。主要的作用是用来实现URL的重写。 注意:Nginx服…

【iVX】在百花齐放的低代码平台中独领风骚

💂作者简介: THUNDER王,一名热爱财税和SAP ABAP编程以及热爱分享的博主。目前于江西师范大学本科在读,同时任汉硕云(广东)科技有限公司ABAP开发顾问。在学习工作中,我通常使用偏后端的开发语言A…

openssl版本升级与降级

openssl版本升级与降级 flyfish 环境 Ubuntu 22.04 1.1.1升级3.1.1 查看openssl版本 openssl versionOpenSSL 1.1.1t 7 Feb 2023https://www.openssl.org/source/ 编译和安装 ./config --prefix/usr/local/openssl311 make -j8 make install进入/usr/local/openssl311/l…

Web服务器群集:Nginx+Tomcat实现负载均衡与动静分离集群

目录 一、理论 1.多实例 2.Nginx负载均衡 3.Nginx动静分离 4.配置NginxTomcat负载均衡 5.配置NginxTomcat动静分离集群 6.Nginx 四层代理配置 二、实验 1.配置NginxTomcat负载均衡 2.、配置NginxTomcat动静分离集群 三、问题 1.服务器群集与集群的区别 四、总结 一…

【数据结构】栈和队列(栈篇)

目录 1.栈的概念及结构 2.栈的实现 2.1栈的结构体定义 2.2栈的常用接口函数 🐾栈的初始化 🐾插入数据 🐾删除数据 🐾取栈顶元素 🐾判断栈是否为空 🐾计算栈的大小 🐾栈的销毁 2.3完…