三国演义内容抓取（诗词名句网）

news/2025/3/10 18:52:00/文章来源:https://www.cnblogs.com/suifeng2000/p/18346228

三国演义内容抓取（诗词名句网）

时间：2024-08-06

一、完整代码

import random
import timeimport requests
from lxml import etreefour_famous_novels = 'https://www.shicimingju.com/bookmark/sidamingzhu.html'  # 四大名著在线阅读地址
three_kingdoms = 'https://www.shicimingju.com/book/sanguoyanyi.html'  # 三国演艺地址
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36 Edg/125.0.0.0'
}
req = requests.get(three_kingdoms, headers=header)
req.encoding = req.apparent_encoding
# print(req.text)
tree = etree.HTML(req.text)
book_mulu = tree.xpath('//div[@class="book-mulu"]/ul/li/a/text()')
mulu_href = tree.xpath('//div[@class="book-mulu"]/ul/li/a/@href')
for i in range(len(book_mulu)):url = 'https://www.shicimingju.com' + mulu_href[i]print(url)req_content = requests.get(url, headers=header)req_content.encoding = req_content.apparent_encodingtree = etree.HTML(req_content.text)content = tree.xpath('//div[@class="chapter_content"]//text()')print(book_mulu[i])print(content)time.sleep(random.randint(1, 4))

效果：

二、知识点

2.1 随机时间点（避免网站压力大）

    time.sleep(random.randint(1, 4))

三、思路

 第一步： 先抓取目录和目录下面的链接第二步： 循环所有的urls ，然后抓取下面的内容第三步TODO： 创建一个三国演绎的文件夹，然后里面按照  01 章+ 章节名.txt 进行文本内容写入

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/779019.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

表情党抓取（单页） (网站已转移)

表情党抓取（单页） (网站已转移) 创建时间：2024-08-06 一、完整代码 import requests from lxml import etree url = https://qq.yh31.com/xq/wq/ header = {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.…

腾牛网抓取（单页）

腾牛网抓取（单页）创建时间：2024-08-05 一、完整代码 import requests from lxml import etree url = https://www.qqtn.com/wm/meinvtp_1.html header = {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0…

抓取金投网文本数据（xpath练习）

抓取金投网文本数据（xpath练习）创建时间：2024年8月5日一、完整代码 import requests from lxml import etreeheader = {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36 Edg/125.0.0.0 } …

IntersectionObserver + scrollIntoView 实现电梯导航

电梯导航也被称为锚点导航，当点击锚点元素时，页面内相应标记的元素滚动到视口。而且页面内元素滚动时相应锚点也会高亮。电梯导航一般把锚点放在左右两侧，类似电梯一样。常见的电梯导航效果如下，比如一些官方文档中：之前可能会用 getBoundingClientRect() 判断元素是否在视…

pthread_once导致死锁

在一个pthread_once方法内又再次调用了这个pthread_once导致死锁。分析下这个pthread_once的源码：可以看到这个pthread_once_t结构体就是一个整形数字加自旋锁。 int ___pthread_once (pthread_once_t *once_control, void (*init_routine) (void)) {/* Fast path. See __pth…

1.3 功率电感选型----硬件设计指南（持续补充更新）

本系列文章是笔者总结多年工作经验，结合理论与实践进行整理备忘的笔记。希望能在帮助自己温习整理避免遗忘的同时，也能帮助其他需要参考的朋友。笔者会不定期进行查漏补缺。如有谬误，欢迎大家进行指正。一、设计要点 1.电流降额建议按照1-10%-电感精度进行，主要设计参数是…

基于simulink的分布式发电系统自动重合闸的建模与仿真分析

1.课题概述在配电系统中，80%-90%的故障都是瞬时故障。发生故障时，线路被保护迅速断开，随即重合闸。当分布式电源接入配电网后，线路发生故障后重合闸，此时分布式电源没有跳离线路，这将产生两种潜在威胁，即非同期重合闸和故障点电弧重燃。非同期重合闸：当线路上发生故障，…

Windows10 安装编译后的 pysqlcipher3-1.2.1 基于 Python 3.8.10

Windows10 安装编译后的 pysqlcipher3-1.2.1 基于 Python 3.8.10 本文主要是将直接安装编译后的文件，不一定的成功，但是可以尝试使用，若无法直接安装，请参考编译过程，自行编译安装，编译过程见这里安装 pysqlcipher3 这里用 32位举例因为 64位安装完全相同，只需要把对…

17 模块subprocess、re

1. subprocess模块 1.1 概念subprocess模块启动一个新进程，并连接到它们的输入/输出/错误管道，从而获取返回值简单理解：可以远程连接电脑（socket模块） 1.2 Popen方法import subprocessres = subprocess.Popen([help, ver], # windows中执行的命令要放在列表里面，命令单…

STM32学习记录(八)：DMA

什么是DMA？ DMA在之前的学习中已经用过了。那么，什么是DMA？Direct memory access (DMA) is used in order to provide high-speed data transfer between peripherals and memory as well as memory to memory. Data can be quickly moved by DMA without any CPU actions…

v-on

CTF—Misc基础

一：文件操作与隐写 1、文件类型的识别 1、文件头完好情况：（1）file命令使用file命令识别：识别出file.doc为jpg类型（2）winhex 通过winhex工具查看文件头类型，根据文件头部内容去判断文件的类型eg:JPG类型（3）notepad++ 下载HEXeditor插件，查看文件的头部信息，和010e…