【Python爬虫实战】抓取省市级城市常务会议内容

🍉CSDN小墨&晓末:https://blog.csdn.net/jd1813346972

   个人介绍: 研一|统计学|干货分享
         擅长Python、Matlab、R等主流编程软件
         累计十余项国家级比赛奖项,参与研究经费10w、40w级横向

文章目录

  • 1 设置内容存储位置及加载包
  • 2 首页网页文本内容爬取
  • 3 循环抓取后续网页
  • 4 数据存储

实现基于R语言的省级常务会议内容的网页爬虫,包括htlm页面解析,由于首页与其它页网页url格式不同的循环读取方式,以及数据存储功能,代码块内附完整编码解析。

  实现效果:

在这里插入图片描述

1 设置内容存储位置及加载包

setwd("F:\\地级城市政策")#设置文件保存路径library(rvest)
library(stringr)
library(rlist)

2 首页网页文本内容爬取

#读取第一页文件内容
url1 <-("http://www.lijiang.gov.cn/html/zhengwugongkai/zhengfuxinxigongkai/fadingzhudonggongkaineirong/zhengfuhuiyi/changwuhuiyi/index.html")
httr_web <-read_html(url1,encoding ='utf-8')  #抓取网页#具体时间
time<-httr_web%>%html_nodes('ul.wjer_list li span')%>%html_text(trim = T)#抓取具体时间
######
timel<-data.frame()
for (i in 1:length(time)){if(i/2==2){timel[i]<-time[i]}
}
time<-strsplit(time,split = "-") # strsplit函数将数据拆分成列表(年月日)time<-strsplit(time,split = ":") # strsplit函数将数据拆分成列表(年月日)
for(i in 1:length(time)) #定义语句循环次数,直至所有链接提取完成
{time[i]<-time[[i]][2] #提取列表中位置2的信息,填充websites1
}for(i in 1:length(time)) #定义语句循环次数,直至所有链接提取完成
{time[i]<-strsplit(time[[i]],split = "-") #提取列表中位置2的信息,填充websites1
}###########
time<-do.call(rbind,time)[,1:2]# 将列表转换为矩阵,提取第第一列和第二列(年、月)
time<-data.frame(time) #转化为数据框形式
po<-data.frame(time)#列合并数据框,格式为次数、年份、月份

3 循环抓取后续网页

po<-data.frame()
index <-seq(1,8,1)
for (i in index){# 读取网址url = paste("http://www.cxz.gov.cn/xxgk/xxgkzhlistpage.jsp?totalpage=8&PAGENUM=",i,"&urltype=tree.TreeTempUrl&wbtreeid=1977")url2<-str_replace_all(url," ","")  #合并网页去掉空格url <-(url2)#由于直接使用url2抓取内容为空:原因未知,故重新读取一次httr_web <-read_html(url,encoding ='utf-8')  #抓取网页#具体时间time<-httr_web%>%html_nodes('ul li span')%>%html_text()#抓取链接#具体时间time<-strsplit(time,split = "-") # strsplit函数将数据拆分成列表(年月日)time<-do.call(rbind,time)[,1:2]# 将列表转换为矩阵,提取第第一列和第二列(年、月)time<-data.frame(time) #转化为数据框形式timek<-data.frame(time)po<-data.frame(rbind(po,timek))
}
po1<-po
po1$X1<-as.numeric(as.character(po1$X1))
po1$X2<-as.numeric(as.character(po1$X2))
time3<-data.frame(2018,7)
names(time3)<-c("X1","X2")
po1<-data.frame(rbind(po1,time3))

4 数据存储

#将因子型转化为数值型
po1<-po
po1$X1<-as.numeric(as.character(po1$X1))
po1$X2<-as.numeric(as.character(po1$X2))##已获得每个常务会网页的网址及命名需要数据(年份、月份,第k次),现循环存储每个网页文本内容comments1<-as.character(comments$websites2)#将因子型转化为字符串,即网页形式
p=length(comments1)
for(k in 1:length(comments1)) #定义语句循环次数,直至所有链接提取完成
{ur2 <-comments1[k]httr_web2 <-read_html(ur2,encoding ='utf-8')  #抓取网页text<-httr_web2%>%html_nodes('div.xw-txt p')%>%html_text(trim =T)name<-paste("天津市\\","天津",po1[1:p,1][k],po1[1:p,2][k],68-k+1,".txt")#文件命名write.table(text, file = name, sep = "\n",row.names = F, col.names = F)
}ur2 <-comments1[1]
httr_web2 <-read_html(ur2,encoding ='utf-8')  #抓取网页
text<-httr_web2%>%html_nodes('div.xw-txt p')%>%html_text(trim =T)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/518044.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Unity:Animation 三 Playable、ImportModel

目录​​​​​​​ 1. Playables API 1.1 Playable vs Animation 1.2 Advantages of using the Playables API 1.3 PlayableGraph Visualizer 2. Creating models outside of Unity 2.1 Preparing your model files for export 2.1.1 Scaling factors 2.1.2 优化模型文…

streamlit学习-如何修改css样式

streamlit学习-如何修改css样式 效果图代码(srv.py)运行streamlit默认的样式有时并不符合自己的要求。比如手机上的布局太浪费空间,我们希望一屏能放下所有的元素,本文演示了如何操作 效果图 代码(srv.py) import streamlit as st #1.31.1 import cv2 import numpy as np imp…

python词嵌入

一、词嵌入的概念 自然语言处理的突破在2023年震撼世界&#xff0c;chatgpt3出来&#xff0c;之后chatgpt4、Gemini、Claude3等出来&#xff0c;问答越来越智能&#xff0c;非常厉害&#xff0c;其中有个基础性的概念&#xff0c;计算机要如何理解语言&#xff0c;基础工作就在…

ORACLE 如何使用dblink实现跨库访问

dbLink是简称&#xff0c;全称是databaselink。database link是定义一个数据库到另一个数据库的路径的对象&#xff0c;database link允许你查询远程表及执行远程程序。在任何分布式环境里&#xff0c;database都是必要的。另外要注意的是database link是单向的连接。在创建dat…

Nmap的基本操作

1 目标规格 nmap 192.168.1.1 扫描一个IP nmap 192.168.1.1 192.168.2.1 扫描IP段 nmap 192.168.1.1-254 扫描一个范围 nmap nmap.org 扫描一个域名 nmap 192.168.1.0/24 使用CIDR表示法扫描 …

ChatGPT高效提问——说明提示技巧

ChatGPT高效提问——说明提示技巧 现在&#xff0c;让我们开始体验“说明提示技巧”&#xff08;IPT, Instructions Prompt Technique&#xff09;和如何用它生成来自ChatGPT的高质量的文本。说明提示技巧是一个通过向ChatGPT提供需要依据的具体的模型的说明来指导ChatGPT输出…

uniapp模仿下拉框实现文字联想功能 - uniapp输入联想(官方样式-附源码)

一、效果 废话不多说&#xff0c;上效果图&#xff1a; 在下方的&#xff1a; 在上方的&#xff1a; 二、源码 一般是个输入框&#xff0c;输入关键词&#xff0c;下拉一个搜索列表。 ElementUI有提供<el-autocomplete>&#xff0c;但uniapp官网没提供这么细&#x…

什么是芯片胶水?它的作用是什么?

什么是芯片胶水&#xff1f; 芯片胶水是电子领域关键的材料&#xff0c;一种用于电子主板上芯片封装的胶水&#xff0c;主要用于电子设备制造过程中的芯片固定与封装环节。 芯片胶水的作用是什么? 在PCBA制程工艺中&#xff0c;芯片胶水被用于将芯片与底座或电路板紧密地固定…

chatGPT的耳朵!OpenAI的开源语音识别AI:Whisper !

语音识别是通用人工智能的重要一环&#xff01;可以说是AI的耳朵&#xff01; 它可以让机器理解人类的语音&#xff0c;并将其转换为文本或其他形式的输出。 语音识别的应用场景非常广泛&#xff0c;比如智能助理、语音搜索、语音翻译、语音输入等等。 然而&#xff0c;语音…

NXP iMX8MM Cortex-M4 核心 GPT Capture 测试

By Toradex秦海 1). 简介 NXP i.MX8 系列处理器均为异构多核架构 SoC&#xff0c;除了可以运行 Linux 等复杂操作系统的 Cortax-A 核心&#xff0c;还包含了可以运行实时操作系统比如 FreeRTOS 的 Cortex-M 核心&#xff0c;本文就演示通过 NXP i.MX8MM 处理器集成的 Cortex-…

C++指针(四)

个人主页&#xff1a;PingdiGuo_guo 收录专栏&#xff1a;C干货专栏 前言 相关文章&#xff1a;C指针&#xff08;一&#xff09;、C指针&#xff08;二&#xff09;、C指针&#xff08;三&#xff09; 本篇博客是介绍函数指针、函数指针数组、回调函数、指针函数的。 点赞破六…

产品展示型wordpress外贸网站模板

孕婴产品wordpress外贸网站模板 吸奶器、待产包、孕妇枕头、护理垫、纸尿裤、孕妇装、孕婴产品wordpress外贸网站模板。 https://www.jianzhanpress.com/?p4112 床品毛巾wordpress独立站模板 床单、被套、毛巾、抱枕、靠垫、围巾、布艺、枕头、乳胶枕、四件套、浴巾wordpre…