《从零开始学习Python爬虫：顶点小说全网爬取实战》

news/2024/10/6 3:47:58/文章来源:https://www.cnblogs.com/CodeRealm/p/18287439

顶点小说

装xpath helper

GitHub - mic1on/xpath-helper-plus: 这是一个xpath开发者的工具，可以帮助开发者快速的定位网页元素。

Question：加载完插件点击没反应

Answer：将开发人员模式关闭即可

爬虫介绍

分类：

搜索引擎：爬取范围广
聚焦爬虫：爬取范围聚焦

介绍：

程序发起请求（request），获取响应（response），解析response中的数据

URL

即统一资源定位符

组成：

协议
- http
- https：新增SSL协议（证书验证），之前花钱，现在开源了，所以大部分网站都是https，据说性能损耗，但忽略不计
主机IP地址（有时也包括端口号）
主机资源具体地址：如目录和文件名等

静态网站和动态网站

静态网站：数据在页面源代码中
动态网站：数据在接口中，网站通过ajax请求接口获取数据，再通过js镶在页面中

结构化与非结构化数据

结构化数据：可以用关系型数据库表示和存储，表现为二维形式的数据
非结构化数据：数据结构不规则，不方便用二位逻辑来表现，如办公文档、图片、HTML、音频和视频等等

xpath

概念：即为XML路径语言（XML Path Language），用于确定XML文档中某部分位置的语言，python可以使用xpath的语法定位html文档中某部分的位置，并进行抽取

示例：xpath是抽取静态网站数据的常用方法

Question：动态网站可以用xpath进行解析吗？

Answer：

动态网站采用了ajax技术，ajax发起请求对页面进行替换分为 整块替换和 部分替换，部分替换则接口返回数据格式为Json，整块替换则接口返回html文档如果返回html文档，则可用xpath进行解析，如果返回Json数据，则不可用xpath进行解析总结：xpath是否可进行解析取决于数据是否为结点数据（是否具有结点），JSON为字符串，肯定不可用xpath进行解析

语法：

/：从文档根目录开始选取
//：全局进行查找选取，//代表前面有东西，但不重要，相当于正则表达式的 .*?
//li/a/text()：可以获取小说的所有书名，然后通过python进行切片获取具体的个别数据
//li//text()：可以获取 li 标签下的所有文字（不区分什么标签）,只限深度为1
//a[@class="poptext"]：可以选取带有 class属性的 a标签
@href：可以获取此元素的 href属性值
*：匹配任何元素结点，如//*、/bookstore/*
|：类似and，都获取，如//book/title | //book/price

案例：顶点小说抓取

导包，定义headers（有的小说网站对headers无要求，有的有要求）

import requests
from lxml import etree
import pymysql# headers
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0"
}

获取小说分类url

# 获取小说分类url
def get_type():url = "https://www.cdbxs.com/sort/"source = requests.get(url=url, headers=headers).content.decode('utf-8')href_lists = etree.HTML(source).xpath('//ul[@class="nav"]/li/a/@href')[2:-4]type_lists = []for href in href_lists:type_lists.append(f"{url}{href.split('/')[2]}/1/")# print(type_lists)return type_lists

获取最大页

# 获取最大页
def get_max_page(first_page_url):source = requests.get(url=first_page_url, headers=headers).content.decode('utf-8')# print(source)max_page = etree.HTML(source).xpath('//a[13]/text()')return max_page

获取每个分类的每一页url

# 获取小说分类url
type_lists = get_type()
# 分类url默认为第一页
for first_page_url in type_lists:# 获取带分类的url的前半截type_url = first_page_url.split('1')[0]# 获取此分类下最大页max_page = get_max_page(first_page_url)# 生成此分类下每一页urlfor every_page in range(1, int(max_page[0])+1):every_page_url = f"{type_url}{every_page}/"print(every_page_url)

获取小说列表页信息

def get_book_info(every_page_url):source = requests.get(url=every_page_url, headers=headers).content.decode('utf-8')book_lists = []lis = etree.HTML(source).xpath("//ul[@class='txt-list txt-list-row5']/li")for li in lis:book_id_url = li.xpath("span[@class='s2']/a/@href")[0]book_id = book_id_url.split('/')[3]# 书名book_name = li.xpath("span[@class='s2']/a/text()")[0]# 最新章节new_chapter = li.xpath("span[@class='s3']/a/text()")[0]# 作者author = li.xpath("span[@class='s4']/text()")[0]# 更新时间update_time = li.xpath("span[@class='s5']/text()")[0]source = requests.get(url=f"https://www.cdbxs.com{book_id_url}", headers=headers).content.decode('utf-8')# 字数font_num = etree.HTML(source).xpath("//p[6]/span/text()")[0]# 摘要summary = etree.HTML(source).xpath("//div[@class='desc xs-hidden']/text()")[0]# 以元组添加至 book_lists# print((book_id, book_name, new_chapter, author, update_time, font_num, summary))book_lists.append((book_id, book_name, new_chapter, author, update_time, font_num, summary))return book_lists

获取章节列表url

# 获取章节列表url
def get_chapter_urls(chapter_list_url):source = requests.get(url=chapter_list_url, headers=headers).content.decode('utf-8')# 章节urlchapter_urls = map(lambda x: "https://www.cdbxs.com" + x, etree.HTML(source).xpath("//div[@class='section-box'][2]/ul[@class='section-list fix']/li/a/@href | //div[@class='section-box'][1]/ul[@class='section-list fix']/li/a/@href"))return chapter_urls

获取章节详情信息

# 获取章节详情信息
def get_chapter_info(chapter_url):source = requests.get(url=chapter_url, headers=headers).content.decode('utf-8')# 标题title = etree.HTML(source).xpath("//h1[@class='title']/text()")# 正文content = ''.join(etree.HTML(source).xpath("//div[@id='nb_content']/dd//text()"))if title:return title[0], contentelse:return '', content

整合

# 获取小说分类url
type_lists = get_type()
# 分类url默认为第一页
for first_page_url in type_lists:# 获取带分类的url的前半截type_url = first_page_url.split('1')[0]# 获取此分类下最大页max_page = get_max_page(first_page_url)# 生成此分类下每一页urlfor every_page in range(1, int(max_page[0]) + 1):every_page_url = f"{type_url}{every_page}/"# 获取小说列表页信息book_info_lists = get_book_info(every_page_url)# 获取章节列表urlfor book_info in book_info_lists:print(f"爬取小说:{book_info[1]}...")book_id = book_info[0]chapter_urls = get_chapter_urls(f"https://www.cdbxs.com/booklist/b/{book_id}/1")for chapter_url in chapter_urls:# print(chapter_url)chapter_info = get_chapter_info(chapter_url)print(chapter_info)print(chapter_info[0])print(chapter_info[1])# print(f"title:{chapter_info[0]}")# print(f"content:{chapter_info[1]}")

注：关注我，后续会陆续出爬虫内容（包括但不仅限于顶点小说进阶：数据入库、多线程多进程爬取数据）

更多精致内容，关注公众号：[CodeRealm]

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/739399.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

LRU算法简介

LRU（Least Recently Used，最近最少使用）算法是一种常用于缓存管理的算法，用于在缓存空间有限的情况下，决定哪些数据应该被移除。它的基本思想是：如果一个数据最近被访问过，那么在将来一段时间内它被再次访问的概率较高。因此，当缓存已满，需要移除数据时，优先移除那些…

数据结构小学期第六天

今天完全实现了九宫格拼图游戏，具备一键通关功能按下W键，查看原图功能按住A键不松，移动图片按上下左右键，如果你自己想要实现这个功能，需要自己的图片，图片格式要求。每个小图片是105*105，完整图片是315*315.有人想要做一下，可以试一试。代码如下启动类1 import com.…

1、flask-基本架构-MVT - 虚拟环境的安装 - 创建flask应用

flask基本架构图创建虚拟环境 #1. 打开cmd或pycharm都可以（确保安装python环境） #2. 安装虚拟环境模块-windows - pip install virtualenv virtualenvwrapper-win#3. 查看虚拟环境 - workon#4. 创建虚拟环境 - mkvirtualenv flask2env - 默认创建在：C:\Users\Administrato…

基于Qwen2/Lllama3等大模型，部署团队私有化RAG知识库系统的详细教程（Docker+AnythingLLM）

大语言模型在垂直细分领域存在知识局限、幻觉、数据安全等一些问题，可通过RAG（检索增强生成）方案来解决。本文基于AnythingLLM框架，搭建团队私有知识库系统，并进行使用和验证，RAG系统在保留输出的有效性同时，还保留了创造性……自 ChatGPT 发布以来，大型语言模型（Larg…

基于STM32F1系列，驱动L298N电机驱动板实现直流电机的启动、停止、调速功能

一. L298N电机驱动板电源引脚 VCC 外接直流电源引脚，电压范围在5~35V之间 GND GND是接地引脚，连接到电源负极 5V 驱动芯片内部逻辑供电引脚，如果安装了5V跳帽，则此引脚可输出5V电压，为微控板或其他电路提供电力供给，如果拔掉5V跳帽，则需要独立外接5V电源控制引脚 IN1 &…

SpringBoot引入WebSocket

WebSocket 是一种在客户端和服务器之间提供低延迟、全双工通信的网络协议。它允许双方在建立一次连接后，进行实时、持续的数据交换，无需像HTTP那样为每一个请求和响应建立新的连接。WebSocket的设计初衷是解决传统HTTP协议在实时通信方面的不足，比如实现实时聊天、游戏、股票…

博客园商业之路：全园求偶遇，懂园子懂商业的创业合伙人

各方面的因素将园子的商业化强推到一个关口，2024年7月-9月是决定园子命运的一个季度，我们将拼尽所有力气找各种可能的突破口，不会有任何保留。这个关口是最后关头，也是三年多来最好的时间窗口，天时地利最需要人和，找到对的人，最有可能在这个时间窗口，一将解园子二十年…

KBPC2504-ASEMI无人机专用整流桥KBPC2504

KBPC2504-ASEMI无人机专用整流桥KBPC2504编辑：ll KBPC2504-ASEMI无人机专用整流桥KBPC2504 型号：KBPC2504 品牌：ASEMI 封装：KBPC-4 最大重复峰值反向电压：400V 最大正向平均整流电流(Vdss)：25A 功率(Pd)：中小功率芯片个数：4 引脚数量：4 类型：整流方桥、整流桥正向浪…

3款C#开源且实用的工具类库，工作效率提升利器！

前言在日常工作开发中工具类库是软件开发中不可或缺的一部分，它们通过提供代码重用、通用功能、隐藏复杂性、提高代码质量、扩展性等方面的优势，帮助开发者更高效、更稳定地构建软件应用程序。今天大姚给大家分享3款C#开源且实用的工具类库，希望能帮助到有需要的小伙伴。 M…

关于 Puerts 的性能问题

Puerts 在 UE 开发中提供了一定的便利性，可以用代码的方式写蓝图，但是官方是不推荐这么做的原话如下那么这个性能问题究竟有多大呢这里先用 C++ 写一个测试代码#include "TestWidget.h"#include "Blueprint/WidgetBlueprintLibrary.h" #include "…

均方误差、二元交叉熵推导

详情可以看：https://zhuanlan.zhihu.com/p/626054495

MinGW GCC Windows下编译libmodbus

最近项目从MSVC切换到GCC，libmodbus官网没提供MinGW下GCC 如何编译，官网推荐在类UNIX环境下MSYS下编译，个人更偏向直接拿源文件编译。编译libmodbus版本: libmodbus-3.1.10 GCC编译器版本: 5.3.0 (i686-posix-dwarf-rev0, Built by MinGW-W64 project) CMake版本: 3.29.0 1…

《从零开始学习Python爬虫：顶点小说全网爬取实战》

顶点小说

装xpath helper

爬虫介绍

URL

静态网站和动态网站

结构化与非结构化数据

xpath

案例：顶点小说抓取

导包，定义headers（有的小说网站对headers无要求，有的有要求）

获取小说分类url

获取最大页

获取每个分类的每一页url

获取小说列表页信息

获取章节列表url

获取章节详情信息

整合

更多精致内容，关注公众号：[CodeRealm]

相关文章