崩溃了news.163.com(求解)

崩溃了news.163.com(求解)

今天在测试学习的BeautifulSoup的时候,找到了news.163.com网易云新闻网,发现它的内容是加载在html里的,再尝试使用bs4获取下面这部分内容的时候。

分析过程:

​ 1.第一次怀疑自己请求到的内容不对。✖

​ 2.第二次请求其他节点。✖

​ 3.第三次尝试更换解析器。✖

​ 4.第四次拷贝出element节点,存储到html文件中解析。✔

​ 5.第五次使用xpath。✖

有谁知道这是为什么,可以评论区分享一下吗?
在这里插入图片描述

先看了它的html代码结构发现它每一个文章内容都是在一个div里的。
在这里插入图片描述

初始代码:
import requests
from bs4 import BeautifulSoupurl = 'https://news.163.com/'headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36',
}response = requests.get(url, headers=headers)soup = BeautifulSoup(response.text, 'lxml')
print(soup.find_all('div', class_='news_title'))
第一次尝试

我以为我没有请求到正确的内容,又检查了一下请求的text

import requests
from bs4 import BeautifulSoupurl = 'https://news.163.com/'headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36',
}response = requests.get(url, headers=headers)
print(response.text.find('news_title'))  # 此处返回的不是-1。soup = BeautifulSoup(response.text, 'lxml')
print(soup.find_all('div', class_='data_row news_article clearfix '))  # 空列表
第二次尝试

看了一下感觉可能是自己xpath里的语句有问题因为里面class属性带空格可能没识别到,又往下找到了一层找到了一个div class="news_title"存储标题的。

在这里插入图片描述

很遗憾结果还是不正确!!!
import requests
from bs4 import BeautifulSoupurl = 'https://news.163.com/'headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36',
}response = requests.get(url, headers=headers)
print(response.text.find('data_row'))soup = BeautifulSoup(response.text, 'lxml')
print(soup.find_all('div', class_='news_title'))  # 依然是空的
第三次尝试

bing搜索了一下,发现多数的回复都是说解析器使用错了,然后又试了lxmlhtml5lib

依旧不行!!!

第四次尝试

拷贝出它的那段结构代码。
在这里插入图片描述

发现这样是可以正常请求出来的。
在这里插入图片描述

第五次尝试

切换到xpath,先使用了chrome浏览器的插件Xpath Helper,可以正常获取到内容。
在这里插入图片描述

嵌入代码:

import requests
from lxml import etreeurl = 'https://news.163.com/'headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36',
}response = requests.get(url, headers=headers)
print(response.text.find('data_row'))html = etree.HTML(response.text)
print(html.xpath('//div[@class="news_title"]/h3/a/text()'))		# 依然是空的!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/615269.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用Postman创建Mock Server

这篇文章将教会大家如何利用 Postman,通过 Mock 的方式测试我们的 API。 什么是 Mock Mock 是一项特殊的测试技巧,可以在没有依赖项的情况下进行单元测试。通常情况下,Mock 与其他方法的主要区别就是,用于取代代码依赖项的模拟对…

【开发篇】十三、JVM基础参数设置与垃圾回收器的选择

文章目录 1、-Xmx 和 –Xms2、-XX:MaxMetaspaceSize 和 –XX:MetaspaceSize3、-Xss4、不建议改的参数5、其他参数6、选择GC回收器的调试思路7、CMS的并发模式失败现象的解决8、调优案例 GC问题解决方式: 优化JVM基础参数,避免频繁Full GC减少对象的产生…

ifconfig用法 、默认掩码

文章目录 概述2. ifconfig(尽量别用,已废弃)2.1 配置地址2.1.1 默认掩码 2.2 查看功能2.2.1 ifconfig 查看不含禁用的网卡2.2.2 ifconfig -a 查看含禁用的网卡2.2.3 ip a 2.3 启用、禁用网卡2.3.1 ifconfig eth1 up、 ifconfig eth1 down2.3.2 ifdown eth0、ifip et…

UTONMOS元宇宙游戏特点

在元宇宙的世界里,游戏不再只是一种娱乐方式,而是一种全新的生活体验。UTONMOS元宇宙游戏带你穿越虚拟与现实的边界,开启一段前所未有的冒险之旅。 在这个充满无限可能的UTONMOS元宇宙游戏中,你将成为自己游戏世界的主角。可以自…

图机器学习导论

图:描述关系数据的通用语言,起源于哥尼斯堡七桥问题 传统的机器学习:数据样本之间独立同分布,简单拟合数据边界,在传统的机器学习中,每个数据样本彼此无关。传统的神经网络,只能处理简单的表格、…

dinov2爆肝记

一、网址 https://github.com/facebookresearch/dinov2 二、配置 pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ 三、雷 cuml-cu11无法安装,因为他只能linux 但我发现,没他也行 四、代码 注意: 下面代码…

基于51单片机智能家居空气质量监控—温湿度PM2.5

基于51单片机智能家居空气质量监控 (仿真+程序+原理图+PCB+设计报告) 功能介绍 具体功能: 1.检测温度、湿度、PM2.5浓度,并在LCD1602实时显示; 2.可以使用按键设置温湿度上下限、P…

【vue】watch 侦听器

watch&#xff1a;可监听值的变化&#xff0c;旧值和新值 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><titl…

深入解析API技术:原理、实现与应用

在现代软件开发中&#xff0c;API&#xff08;应用程序接口&#xff09;扮演着至关重要的角色。API 允许不同的软件应用程序和系统之间进行通信和数据交换&#xff0c;从而构建出更加高效、灵活和可扩展的软件解决方案。本文将深入解析API技术的原理、实现方法&#xff0c;并附…

Springboot+Vue项目-基于Java+MySQL的在线视频教育平台系统(附源码+演示视频+LW)

大家好&#xff01;我是程序猿老A&#xff0c;感谢您阅读本文&#xff0c;欢迎一键三连哦。 &#x1f49e;当前专栏&#xff1a;Java毕业设计 精彩专栏推荐&#x1f447;&#x1f3fb;&#x1f447;&#x1f3fb;&#x1f447;&#x1f3fb; &#x1f380; Python毕业设计 &…

微服务篇面试题

1、SpringCloud的组件有哪些&#xff1f; 2、负载均衡如何实现&#xff1f; 3、什么是服务雪崩&#xff1f;怎么解决&#xff1f; 4、项目中有没有做过限流&#xff1f; Tomcat单体可以&#xff0c;分布式不适合 5、解释一下CAP和BASE P&#xff1a;加入node03这边的网络断了&a…

VNC Viewer 连接远程主机及常见错误处理(The connection closed unexpectedly)

搭建可接收vnc连接的环境 1、下载镜像 https://github.com/fcwu/docker-ubuntu-vnc-desktop 该镜像是含有ubuntu 通过docker运行的桌面环境&#xff0c;并接受vnc 的连接 docker pull dorowu/ubuntu-desktop-lxde-vnc 2、运行容器 1&#xff09;只暴露容器的80端口&#…