bs4解析并提取人民网新闻标题数据

news/2024/9/28 19:43:33/文章来源:https://www.cnblogs.com/qyly/p/18438299

1. 目标url:http://www.people.com.cn/

2. 查找标题信息所在标签:标题的文本信息在<a>标签中,且<a>标签有target属性,属性值为"_blank"。<a>标签有父辈标签<div>和<h3>。

当需要根据元素的层级关系、属性组合等复杂条件定位时;文档层次分明时CSS选择器非常有用,对于熟悉CSS选择器的开发者来说使用CSS选择器可以使代码更加简洁易读。可以在bs4官网https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/#CSS%E9%80%89%E6%8B%A9%E5%99%A8或Soup Sieve(通过 pip 安装 Beautiful Soup 时,Soup Sieve 也会自动安装,不用其它额外操作。)官网https://facelessuser.github.io/soupsieve/selectors/basic/中查看。

运行代码:

import requests
from fake_useragent import UserAgent
from bs4 import BeautifulSoup
# 请求地址
url = 'http://www.people.com.cn'
# 封装请求头
headers = {'User-Agent': UserAgent().chrome}
# 发送get请求
resp = requests.get(url, headers=headers)
# 设置编码为gbk
resp.encoding = 'gbk'
# 构建一个bs4对象
bs = BeautifulSoup(resp.text, 'lxml')
# bs4实现css选择器提取数据
infos = bs.select('div > h3 [target]')
for info in infos:print(info.string)

运行结果:

坚持全面深化改革开放
一面留言墙 书不尽两岸情
青海贵德:从滴水崖渡口 守护黄河安澜
谢兆寿过节记
国资委:国企到2025年须普遍推行末等调整和不胜任退出制度
国家网信办就终端设备直连卫星服务管理规定公开征求意见
越是假期 出行越繁忙 安全越重要
教育获得感更充实 支撑发展更有力
利比里亚农业部部长:“希望继续学习借鉴中方水稻种植技术”
匈塞铁路匈牙利段中方段铺轨作业基本完成
“共和国勋章”获得者、“二级战斗英雄”黄宗德:英雄的“心”
海南省部署国庆旅游和文化市场综合监管工作
国庆假期长线游成预订主流
“中网热”折射中国网球运动发展新图景
医保支付资格管理制度发布:“驾照式记分”守好医保“钱袋子”

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/805356.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

volatile关键字最全原理剖析

介绍 volatile是轻量级的同步机制,volatile可以用来解决可见性和有序性问题,但不保证原子性。 volatile的作用:保证了不同线程对共享变量进行操作时的可见性,即一个线程修改了某个变量的值,这新值对其他线程来说是立即可见的。 禁止进行指令重排序。底层原理 内存屏障 vol…

2024.9.28 代码源模拟赛

省流:45+20+5+0=70省流:\(45+20+5+0=70\) 简称:唐诗在此膜拜 \(klz\) \(Heldivis\) \(Sorato\) \(czl\) \(Ech0\_7\) yxans lihe_qwq 大佬 T1 先看的 T1 ,想了一个拓排(其实是看错题了),然后过了第一个样例,然后咋调都过不去,就去码暴力了。 过了大概 10min 发现看错题…

第5周 5.1 顺序与选择结构

5.1 顺序与选择结构 5.1.1 顺序结构 顺序结构是程序中最简单、最基本的流程控制结构,它按照程序中语句出现的先后顺序依次执行,直到程序的结束。 顺序结构示例:public class HelloWorld {public static void main(String[] args) {System.out.println("Hello, World!&q…

基于python的四则运算自动生成的命令行程序

这个作业属于哪个课程 https://edu.cnblogs.com/campus/gdgy/CSGrade22-34这个作业要求在哪里 https://edu.cnblogs.com/campus/gdgy/CSGrade22-34/homework/13230这个作业的目标 基于python的四则运算自动生成的命令行程序团队成员 姚彬彬 3122006324一.Github地址 https://g…

章16——坦克大战1——绘图、事务

有关paint方法为什么会被调用JAVA的事件处理机制 事件发生的地方和事件处理的地方是不一样的:

WINCCV7.5SP2VBA编程8-通过事件执行脚本

这一篇在新浪博客发表过,审核周期有点长,为了避免丢失,这里再记录一遍。 有三种途径执行Wincc画面设计器的VBA脚本:事件、用户自定义菜单和工具栏、VBA编辑器。 前面的学习是通过VBA编辑器执行的VBA程序,现在通过事件来练习VBA程序执行。 还是在前面WINCC项目程序来做练习…

WinToUSB 9.0 离线注册

WinToUSB 9.0 qt程序,注册验证代码与EasyUEFI 大同小异,这里仅记录相关类、函数地址 关联 https://www.cnblogs.com/DirWang/p/18149030 目录WinToUSB 9.0CActivationDlgCActivationDlg QMetaObject__dCActivationRegisterPageCActivationRegisterPage QMetaObject__dCActiva…

结对项目:自动生成小学四则运算题目

这个作业属于哪个课程 https://edu.cnblogs.com/campus/gdgy/CSGrade22-34这个作业要求在哪里 https://edu.cnblogs.com/campus/gdgy/CSGrade22-34/homework/13230这个作业的目标 结对实现一个自动生成小学四则运算题目的命令行程序项目一、项目开发人员以及仓库地址 1、开发人…

【漏洞分析】20240507-SATURN:当闪电贷遇上有缺陷的通缩机制

背景信息 2024 年 5 月 6 日,SATURN 代币遭受价格操控攻击,损失 15 BNB。攻击发生的原因是由于 SATURN 代币的代币通缩机制设计不合理,使得攻击者可以通过燃烧池子中的 SATURN 代币来操控价格完成获利。项目社媒:https://x.com/Saturn_POM 社媒告警:https://twitter.com/C…

卫生纸国家标准查询 All In One

卫生纸国家标准查询 All In One 强制标准 推荐标准 指导性技术文件卫生纸国家标准查询 All In One国家标准全文公开系统强制标准 推荐标准 指导性技术文件 demos卫生纸 808080序号 标准号 是否采标 标准名称 状态 发布日期 实施日期1 GB/T 20808-2022纸巾 现行 2022-04-15 2023…

ai换脸工具roop 食用教程

1. 准备工作 开源项目地址 https://github.com/s0md3v/roop说明文档 https://docs.facefusion.io/usage/cli-argumentspython环境安装必须是python3.10版本 2 部署 git clone仓库 git clone https://github.com/s0md3v/roop.git2.1 conda创建虚拟环境 conda create -n env_name…

C# ASP.NET Core Web API 框架 实现向手机发送验证码短信

本文章主要是在C# ASP.NET Core Web API框架实现向手机发送验证码短信功能。这里我选择是一个互亿无线短信验证码平台,其实像阿里云,腾讯云上面也可以。首先我们先去 互亿无线 https://www.ihuyi.com/api/sms.html 去注册一个账号 注册完成账号后,它会送10条免费短信以及通…