【爬虫】对某某贴吧主页的爬虫分析+源码

news/2025/2/7 4:47:10/文章来源:https://blog.csdn.net/weixin_46070649/article/details/131423852

1. 网站分析

想要的内容有标题、时间和帖子跳转链接

查看网站源代码，发现想要的内容就在里面，那就好办了，直接上正则，当然beautifulsoup也不是不可以

2. Python源码

import requests
import re
from prettytable import PrettyTableheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:109.0) Gecko/20100101 Firefox/114.0'
}
x = PrettyTable(["标题", "时间", "链接"])
x.align["标题"] = "l"
// 这里会整合三页内容，想要多少页，就把101改成50*(页数-1)+1
for i in range(0, 101, 50):resp = requests.get(f'https://tieba.baidu.com/f?kw=%E5%8D%9A%E5%B0%94%E7%89%B9&ie=utf-8&pn={i}', headers=headers)with open(file='1.html', mode='w', encoding='utf-8') as f:f.write(resp.text)obj = re.compile('<a rel="noopener" href="/p/(?P<url>.*?)" title="(?P<title>.*?)".*?<span class="pull-right is_show_create_time" title="创建时间">(?P<time>.*?)</span>', re.S)title = obj.finditer(resp.text)for i in title:x.add_row([i.group('title'), i.group('time'), 'https://tieba.baidu.com/p/' + i.group('url')])
print(x)

3. 效果展示

ps：好久没玩爬虫了，但是在网页版逛吧时看到很多广告让我很不爽，故写下此脚本。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/3677.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Solr框架 02.Solr操作（document操作和query查询）

Solr框架 02.Solr操作（document操作和query查询）

菜单项目Documents使用办法其中的document选项： 以XML格式举例 1新增/修改当id不存在时新增，当id存在修改。 <doc> <field name"id">8</field> <field name"name">明天更大卖</field> <field n…

阅读更多...

【C/C++实现进程间通信一】共享内存方式

【C/C++实现进程间通信一】共享内存方式

文章目录前情回顾思路源码Publisher.cppSubscriber.cpp 效果前情回顾上一期已经讲解过了进程的相关概念以及进程间通信的实现原理，下面仅展示共享内存方式实现进程间通信的相关代码。思路 /* 本项目主要用于对同主机上以共享内存方式进行进程间通信的测试。…

阅读更多...

路由基础静态路由

路由基础静态路由

路由基础&静态路由一、路由器基本原理1.1、路由器基本概述1.2、LAN和广播域1.3、路由选路1.3.1、路由器转发数据包1.3.2、IP路由表1.3.3、建立路由表1.3.4、最长匹配原则1.3.5、路由优先级1.3.6、路由度量1.3.7、等价路由 1.4、总结二、静态路由基础2.1、静态路由配置2.2…

阅读更多...

Spring Boot 中的 EhCacheCacheManager 是什么，原理，如何使用

Spring Boot 中的 EhCacheCacheManager 是什么，原理，如何使用

Spring Boot 中的 EhCacheCacheManager 是什么，原理，如何使用前言在现代化的应用程序中，缓存是提高性能的关键所在。缓存可以降低数据库的负载，提高响应速度，减少资源消耗。Spring Boot提供了多种缓存管理器&#…

阅读更多...

【C++】模板进阶

【C++】模板进阶

目录 1.非类型模板参数2.模板的特化2.1概念2.2 函数模板特化2.3 类模板特化2.3.1 全特化2.3.2 偏特化2.3.3 应用 3.模板分离编译4.模板总结 1.非类型模板参数模板参数可分为类型形参和非类型形参类型形参：出现在模板参数列表中，跟在class或者typename…

阅读更多...

百度编辑器（Ueditor）视频上传到阿里云 + 预览不支持FLASH问题解决 + 输入框不展示视频播放页面问题解决

百度编辑器（Ueditor）视频上传到阿里云 + 预览不支持FLASH问题解决 + 输入框不展示视频播放页面问题解决

目前需求方提出的问题是以下四个： 1.百度编辑器（Ueditor）视频上传到阿里云 2.解决不支持FLASH问题 3.视频上传后可以预览 4.修改视频封面看一下原始的功能是什么样的上传视频： 视频上传完成上传视频保存的路径&#xff1…

阅读更多...

session和token

session和token

一、使用HttpSession接口的setAttribute()方法将cookie保存到客户端的浏览器中二、单点登录逻辑 1、客户端服务有一个过滤器，先判断有没有重定向回来的token值（过去session用，没有也没关系） 2、客户端过滤器再判断session中有没…

阅读更多...

React V6分环境打包

React V6分环境打包

功能背景例如想要在react也要实现不同环境使用不同的api接口地址这样的想法，那么就需要根据命令自动区分环境了。代码实现比如我这又三种环境，那么创建三个文件，如图： 分别是dev:开发环境，formal：UAT环境…

阅读更多...

Flink中FileSink的使用

Flink中FileSink的使用

在Flink中提供了StreamingFileSink用以将数据流输出到文件系统. 这里结合代码介绍如何使用FileSink. 首先FileSink有两种模式forRowFormat和forBulkFormat public static <IN> DefaultRowFormatBuilder<IN> forRowFormat(final Path basePath, final Encoder<IN…

阅读更多...

Ubuntu的USB相关操作

Ubuntu的USB相关操作

这里写目录标题 0.信息查看1. 串口设备设置2. 串口调试助手 0.信息查看指令lsusb输出Bus 004 Device 002: ID 05e3:0620 Genesys Logic, Inc. USB3.2 Hub Bus 004 Device 001: ID 1d6b:0003 Linux Foundation 3.0 root hub Bus 003 Device 006: ID 5986:115f Acer, Inc Integ…

阅读更多...

ShaderGraph制作“红旗迎风飘扬”效果(Unity2019版)

ShaderGraph制作“红旗迎风飘扬”效果(Unity2019版)

文章目录零、准备“旗面”游戏物体一、核心1 模仿旗面的“起伏”二、核心2 让旗面的“吹动”起来三、几点改进A、 “旗面的摆动幅度”改进01：前后对称B、 “旗面的摆动幅度”改进02：从左往右逐渐增大C、 “旗面的飘动方向”改进01：只让在X轴…

阅读更多...

webassembly简单Demo——hello world

webassembly简单Demo——hello world

参考官网 Emscripten Tutorial 一、创建C/C文件 hello.c #include <stdio.h>int main() {printf("hello, world!\n");return 0; } 二、编译成html 命令行切到hello.c目录下，执行如下命令(注意需要em的环境变量，参考：emsr…

阅读更多...

推荐文章

最新文章