简单的小说爬虫

news/2024/12/21 23:53:18/文章来源:https://www.cnblogs.com/wuqu/p/18621567

简单的python爬虫

准备工作

爬取网站77读书

先选择一本书:《万相之王》

复制链接:http://www.77shuku.org/chapter/34212/17138703.html

代码实操

import requests
from lxml import etree
import recookies = {'clickbids': '96780','Hm_lvt_a5ca352c842077802ed8d4e53d0a525b': '1734608332','HMACCOUNT': '652E632A38AD9859','Hm_lpvt_a5ca352c842077802ed8d4e53d0a525b': '1734608337',
}headers = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7','Accept-Language': 'zh-CN,zh;q=0.9','Cache-Control': 'max-age=0','Connection': 'keep-alive',# 'Cookie': 'clickbids=96780; Hm_lvt_a5ca352c842077802ed8d4e53d0a525b=1734608332; HMACCOUNT=652E632A38AD9859; Hm_lpvt_a5ca352c842077802ed8d4e53d0a525b=1734608337','Referer': 'http://www.77shuku.org/novel/96780/','Upgrade-Insecure-Requests': '1','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36',
}
Url=input('输入你要爬77读书小说的网站：')
response = requests.get(Url, cookies=cookies, headers=headers, verify=False)
response.encoding=response.apparent_encoding
et=etree.HTML(response.text)
url=et.xpath("//div[@class='control']/span/a[@class=' pre_z pmulu']/@href")
ret=et.xpath("//div[@class='page-body']/div[@class='page-content']/text()")
novel=''.join(ret) 
novel_clean= re.sub(r'[\xa0\r\n]+', '', novel)
url_clenn=[re.sub(r'&#39;$', '', p) for p in url]
zurl=url_clenn[0]
with open(f'new{0}.tex','w') as file:file.write(novel_clean)
for i in range(1,3): ##爬多少张这里是3章response = requests.get(zurl, cookies=cookies, headers=headers, verify=False)response.encoding=response.apparent_encodinget=etree.HTML(response.text)url=et.xpath("//div[@class='control']/span/a[@class=' pre_z pmulu']/@href")ret=et.xpath("//div[@class='page-body']/div[@class='page-content']/text()")novel=''.join(ret) novel_clean= re.sub(r'[\xa0\r\n]+', '', novel)url_clenn=[re.sub(r'&#39;$', '', p) for p in url]zurl=url_clenn[0]with open(f'new{i}.tex','w') as file:file.write(novel_clean)
print("成功")

总结

re库是找Ai的，后面需多加学习

这个太过简单，还需学习

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/856604.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

【AI+模型】RAG 架构图解：从基础到高级的7种模式

RAG 技术通过在 AI 生成过程中引入外部知识检索，从基础的文档查询发展到多模态、Multi-Agent 体协同的智能架构，让 AI 回答更准确、更全面。核心组件嵌入模型：将文本转换为向量表示生成模型：负责最终的内容生成重排序模型：优化检索结果的相关性向量数据库：…

浅聊web前端性能测试

最近正好在做web前端的性能测试，这次就来聊聊关于这个的测试思路~最近正好在做web前端的性能测试，这次就来聊聊关于这个的测试思路~ 首先从用户的思维去思考，关于web前端性能，用户最看重的是什么...... 其实就是下面三个点：1. 加载性能（即页面加载时间+资源加载时间）2. …

使用magic-api实现增删改查分页

创建项目结构 pom.xml<?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://maven.apach…

【安全评审】“2024网络安全100强-行业应用”评分全流程细则

一指标理解1.1 “行业应用”的核心优势是什么？1.2 评估维度有哪些？二、评审专家筛选2.1 对专家所在单位有什么要求？2.2 对专家所在行业有什么要求？2.3 对专家个人能力有什么要求？2.4 对专家组有什么要求？2.5 对专家个人价值观有什么要求？三、评分规则制定3.1 “典型案例…

《计算机组成及汇编语言原理》学习第 2 天，p9-p27 总结，总计 19 页。一、技术总结 1.quantum physics(量子物理学) (1)quantum(量子) quantum的本意是：c. the smallest amount of sth(量子)。 In physics, a quantum is the minimum amount of any physical entity (physi…

第4章 C#的高级特性

第4章 C#的高级特性 4.1 委托 4.1.2 多播委托对值为 null 的委托变量进行 + 或 += 操作，等价于为变量指定一个新值： SomeDelegate d = null; d += SomeMethod1; // 等价于 d = SomeMethod1委托是不可变的，因此调用 += 和 -= 的实质是创建一个新的委托实例，…

使用frida分析白盒aes，DFA攻击

这次分析的app是：五菱汽车(8.2.1) 登录，抓包发现请求体只有sd字段，看见加密的时候，可以先使用算法助手hook java层所有加解密方法发现我们所需要的sd加密字段在java层hook不到，那加密算法应该是写在了so层，因为这个app是bb加固企业，得有脱壳机才能脱。 jadx加载dex，直接…

2024 golang安装使用详细教程以及常见问题处理（附激活至2099年）

GoLand 简介 GoLand 是一款非常强大的 Go 语言集成开发环境,由JetBrains公司开发。它提供了丰富的功能和工具，帮助开发者更高效地编写、调试和部署代码。下面这种方式仅供交流学习，如果有能力还请支持正版下载安装为了方便，也可以去链接取点击获取安装包开始安装下载完成…

Infinite Pixels（无限像素）第五次作业

这个作业属于哪个课程 https://edu.cnblogs.com/campus/zjlg/rjjc这个作业的目标小组成员分工完成选题的软件设计组长祝方略-2022329301131组员1 娄涵格-2022329301112组员2 颜宇航-2022329301125组员3 常佳鑫-2022329301071一、团队介绍团队名称：Infinite Pixels（无限像素…

CMake构建学习笔记19-OpenSSL库的构建

详细介绍了在Windows和Linux环境下构建OpenSSL库的方法，并且如何通过CMake的方式被主程序调用。1. 概述 OpenSSL是一个开源的加密工具包和库，主要实现了安全套接字层（SSL）和传输层安全（TLS）协议，以及各种加密算法、数字签名、消息摘要、加密证书等功能。这个库可以说是W…