Python爬虫实战(基础篇)—13获取《人民网》【最新】【国内】【国际】写入Word（附完整代码）-编程知识

Python爬虫实战(基础篇)—13获取《人民网》【最新】【国内】【国际】写入Word（附完整代码）

文章目录

专栏导读
背景
测试代码
- 分析
- 请求网址
- 请求参数
- 代码测试
数据分析
- 利用lxml+xpath进一步分析
将获取链接再获取文章内容
- 测试代码
写入word
完整代码
总结

专栏导读

🔥🔥本文已收录于《Python基础篇爬虫》

🉑🉑本专栏专门针对于有爬虫基础准备的一套基础教学，轻松掌握Python爬虫，欢迎各位同学订阅，专栏订阅地址：点我直达

🤞🤞此外如果您已工作，如需利用Python解决办公中常见的问题，欢迎订阅《Python办公自动化》专栏，订阅地址：点我直达
的
🔺🔺此外《Python30天从入门到熟练》专栏已上线，欢迎大家订阅，订阅地址：点我直达

背景

由于我最近想学习关于人民网的一些信息，我看到页面有三个模块，分别是【最新】【国内】【国际】，于是我想获取这三个模块的文章，并写入word文档中

测试代码

分析

1、首先我们发现请求响应的返回不在【Response】中，而是直接在网页中

2、我们发现网页中有三个【li】标签，分别表示【最新】【国内】【国际】中的文章url

3、所以我们决定此次爬虫应该是用 lxml+xpath比较合适，说干就干！

在这里插入图片描述

请求网址

url： http://jhsjk.people.cn/

请求参数

无

代码测试

# -*- coding: UTF-8 -*-
'''
@Project ：人民网爬虫 
@File    ：main_.py
@IDE     ：PyCharm 
@Author  ：一晌小贪欢（278865463@qq.com）
@Date    ：2024/3/3 11:54 
'''
import jsonimport requestsurl = 'http://jhsjk.people.cn/'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36'}res_data= requests.post(url=url, headers=headers)
# print(res_data.text)
res_data.encoding = "utf-8"
print(res_data.text)

数据分析

利用lxml+xpath进一步分析

在这里插入图片描述

我们看见每一个文章链接在a标签中，文章标题在span标签中

知道这个就好办了！

先利用lxml获取所有的【li】

news_data = tree.xpath('//div[@class="news-box"]//div[@class="news"]//ul//li')

获取文章链接

url_data = i.xpath('a/@href')[0]

获取标题

title = i.xpath('a/span')<

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/521340.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

Python爬虫实战(基础篇)—13获取《人民网》【最新】【国内】【国际】写入Word（附完整代码）

文章目录

专栏导读

🔥🔥本文已收录于《Python基础篇爬虫》

🉑🉑本专栏专门`针对于有爬虫基础`准备的一套基础教学，轻松掌握Python爬虫，欢迎各位同学订阅，专栏订阅地址：点我直达

🤞🤞此外如果您已工作，如需利用Python解决办公中常见的问题，欢`迎订阅《Python办公自动化》专栏`，订阅地址：点我直达
的
🔺🔺此外《Python30天从入门到熟练》专栏已上线，欢迎大家订阅，订阅地址：点我直达

背景

由于我最近想学习关于人民网的一些信息，我看到页面有三个模块，分别是【最新】【国内】【国际】，于是我想获取这三个模块的文章，并写入word文档中

测试代码

分析

1、首先我们发现请求响应的返回不在【Response】中，而是直接在网页中

2、我们发现网页中有三个【li】标签，分别表示【最新】【国内】【国际】中的文章url

3、所以我们决定此次爬虫应该是用 lxml+xpath比较合适，说干就干！

请求网址

url： http://jhsjk.people.cn/

请求参数

无

代码测试

数据分析

利用lxml+xpath进一步分析

我们看见每一个文章链接在a标签中，文章标题在span标签中

知道这个就好办了！

先利用lxml获取所有的【li】

获取文章链接

获取标题

相关文章

通过Electron打包前端项目为exe

AutoPSA里给定了弹簧刚度，为什么计算没有引用？

ChonBlockTM Blocking/Sample Dilution ELISA Buffer

【REST2SQL】12 REST2SQL增加Token生成和验证

Python实现霍德里克-普雷斯科特(Hodrick-Prescott,HP)过滤器模型和UC-ARIMA模型(hpfilter算法)项目实战

防御保护----IPSEC VPPN实验

【Linux】第一个小程序--进度条

AWTK-MVVM 文件模型

开关电源安规测试标准与测试要求

关于esp8266的一些经验汇总，新手必看

基于Vue的兴趣活动推荐APP的设计与实现

2024年泰迪智能科技合作伙伴战略大会暨产教融合实训基地落成仪式圆满结束

Python爬虫实战(基础篇)—13获取《人民网》【最新】【国内】【国际】写入Word（附完整代码）

文章目录

专栏导读

🔥🔥本文已收录于《Python基础篇爬虫》

🉑🉑本专栏专门针对于有爬虫基础准备的一套基础教学，轻松掌握Python爬虫，欢迎各位同学订阅，专栏订阅地址：点我直达

🤞🤞此外如果您已工作，如需利用Python解决办公中常见的问题，欢迎订阅《Python办公自动化》专栏，订阅地址：点我直达 的 🔺🔺此外《Python30天从入门到熟练》专栏已上线，欢迎大家订阅，订阅地址：点我直达

背景

由于我最近想学习关于人民网的一些信息，我看到页面有三个模块，分别是【最新】【国内】【国际】，于是我想获取这三个模块的文章，并写入word文档中

测试代码

分析

1、首先我们发现请求响应的返回不在【Response】中，而是直接在网页中

2、我们发现网页中有三个【li】标签，分别表示【最新】【国内】【国际】中的文章url

3、所以我们决定此次爬虫应该是用 lxml+xpath比较合适，说干就干！

请求网址

url： http://jhsjk.people.cn/

请求参数

无

代码测试

数据分析

利用lxml+xpath进一步分析

我们看见每一个 文章链接在a标签中，文章标题在span标签中

知道这个就好办了！

先利用lxml获取所有的【li】

获取文章链接

获取标题

相关文章

🉑🉑本专栏专门`针对于有爬虫基础`准备的一套基础教学，轻松掌握Python爬虫，欢迎各位同学订阅，专栏订阅地址：点我直达

🤞🤞此外如果您已工作，如需利用Python解决办公中常见的问题，欢`迎订阅《Python办公自动化》专栏`，订阅地址：点我直达
的
🔺🔺此外《Python30天从入门到熟练》专栏已上线，欢迎大家订阅，订阅地址：点我直达

我们看见每一个文章链接在a标签中，文章标题在span标签中