爬虫案例—爬取ChinaUnix.net论坛板块标题

爬虫案例—爬取ChinaUnix.net论坛板块标题

ChinaUnix.net论坛网址:http://bbs.chinaunix.net

目标:抓取各个板块的标题和内容的标题

网站截图:

Screenshot 2024-01-17 at 19.28.53

利用requests和xpath实现目标。源码如下:

import requests
from lxml import etreeheaders = {'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36',}url = 'http://bbs.chinaunix.net'res = requests.get(url, headers=headers)html = res.texttree = etree.HTML(html)
div_lst = tree.xpath('//div[@class="mn"]/div/table')for div in div_lst[:6]:print('板块名称:', div.xpath('./tbody[1]/tr/td//h2/a/text()')[0])for tr in div.xpath('./tbody[2]/tr'):for td in tr.xpath('./td'):# if td.xpath('./table'):#     print(td.xpath('./table/tr/td[2]/a/text()'))table_lst = td.xpath('./table')if table_lst:print(td.xpath('./table/tr/td[2]/a/text()')[0],end='\t')print('')print('=' * 50)

运行结果如下:

抓取ChinaUnix板块标题.py板块名称: IT运维
Docker	监控及自动化运维技术	集群和高可用	
服务器应用	虚拟化与云服务	分布式文件系统(FastDFS)	
数据安全	服务器及硬件技术	存储备份	
网络技术	初创企业IT架构选型	中间件技术	
Hadoop和大数据技术	
==================================================
板块名称: 操作系统
Linux新手园地	Linux系统管理	Windows系统	
BSD	AIX	AS400	
Solaris	HP-UX	其他UNIX	
移动操作系统	Mac OS X	
==================================================
板块名称: 程序设计
C/C++	Linux环境编程	内核源码	
Shell	Perl	Java	
PHP	Python	Ruby	
嵌入式开发	驱动开发	Web开发	
架构设计	CPU与编译器	软件配置管理	
Golang	Erlang	
==================================================
板块名称: 数据库技术
MySQL	Sybase	Oracle	
PostgreSQL	DB2	Informix	
数据仓库与数据挖掘	NoSQL技术	
==================================================
板块名称: 综合交流区
IT资讯	IT职业生涯	IT图书与评论	
二手交易	下载共享	
==================================================
板块名称: 站务及频道
站务交流	博客SNS站务交流区	CU活动专区	
频道交流区	
==================================================Process finished with exit code 0

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/421545.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Unity学习-逐帧图集动画制作

首先在文件部分创建一个Sprite Library Asset 然后点击创建出来的文件 点下面的加号添加对应的图 添加完成之后点一下Apply 然后新建一个物体 添加这三个组件 其中SpriteLibrary里面 把你刚刚创建的图集文件拉过来 Sprite Resolver选择对应的动作和图片 然后开始制作动画 An…

【进阶之路】如何提升 Java 编程内力?

如何提升 Java 编程内力? 可能很多初学者在学完 SpringBoot 之后,做了 1-2 个项目之后,不知道该去学习什么了,其实这时候需要去学习的东西还有很多,接下来我会列举一下主要需要从哪些方面来对 Java 编程深入学习&#…

Science Robotics: 意大利IIT仿生软体机器人实验室研制具有自适应行为的软体生长机器人

FiloBot通过模仿攀爬植物的生长方式——通过在顶端增加材料来构建身体,实现在难以预测和复杂的环境中的导航。这种设计理念的核心在于能够适应多种地形并克服障碍,特别适用于密集森林或杂乱区域这样的非结构化环境。机器人使用添加制造技术(特…

Docker(九)Docker Buildx

作者主页: 正函数的个人主页 文章收录专栏: Docker 欢迎大家点赞 👍 收藏 ⭐ 加关注哦! Docker Buildx Docker Buildx 是一个 docker CLI 插件,其扩展了 docker 命令,支持 [Moby BuildKit] 提供的功能。提…

【C++】模板类vector的简单实现

文章目录 1. 迭代器2.构造和析构3. 容量4. 访问5.修改6.测试完整代码总结: 在C的STL库中,vector是一个非常常用的容器,它提供了动态数组的功能。今天我们将一起来实现一个简化版的vector模板类,以便更好地理解它的原理和实现过程。…

多维时序 | Matlab实现CNN-LSTM-Mutilhead-Attention卷积长短期记忆神经网络融合多头注意力机制多变量时间序列预测

多维时序 | Matlab实现CNN-LSTM-Mutilhead-Attention卷积长短期记忆神经网络融合多头注意力机制多变量时间序列预测 目录 多维时序 | Matlab实现CNN-LSTM-Mutilhead-Attention卷积长短期记忆神经网络融合多头注意力机制多变量时间序列预测效果一览基本介绍程序设计参考资料 效果…

蓝牙运动耳机什么牌子的好?2024年运动无线耳机推荐

​在选择运动耳机时,我们需要综合考虑音质、舒适度以及适应不同运动场景的能力。好的运动耳机能够提高运动效率,增添锻炼的乐趣。今天,我为大家介绍几款在音质、佩戴舒适度、防水防汗等方面表现卓越的运动耳机,助你选购最适合的一…

python 正则表达式学习(1)

正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。 1. 特殊符号 1.1 符号含义 模式描述^匹配字符串的开头$匹配字符串的末尾.匹配任意字符,除了换行符,当re.DOTALL标记被指定时,则可以匹配包…

词语的魔力:语言在我们生活中的艺术与影响

Words That Move Mountains: The Art and Impact of Language in Our Lives 词语的魔力:语言在我们生活中的艺术与影响 Hello there, wonderful people! Today, I’d like to gab about the magical essence of language that’s more than just a chatty tool in o…

Qt6入门教程 9:QWidget、QMainWindow和QDialog

目录 一.QWidget 1.窗口和控件 2.事件 二.QMainWindow 三.QDialog 1.模态对话框 1.1模态对话框 1.2.半模态对话框 2.非模态对话框 在用Qt Creator创建Qt Widgets项目时,会默认提供三种基类以供选择,它们分别是QWidget、QMainWIndow和QDialog&am…

数据库复试—关系数据库标准语言SQL

数据库复试—关系数据库标准语言SQL SQL:结构化查询语言 以教材中的学生-课程数据库为例进行SQL基础语法的复习 数据库实验环境选择SQLServer 11 关系模式 学生表Student(Sno,Sname,Ssex,Sage,Sdept) 课程表Course(Cno,Cname,Cpno,Ccredit) 学生选课表SC&#xf…

数学建模学习笔记||层次分析法

评价类问题 解决评价类问题首先需要想到一下三个问题 我们评价的目标是什么我们为了达到这个目标有哪几种可行方案评价的准则或者说指标是什么 对于以上三个问题,我们可以根据题目中的背景材料,常识以及网上收集到的参考资料进行结合,从而筛…