《从零开始学习Python爬虫:顶点小说全网爬取实战》

news/2024/10/6 3:47:58/文章来源:https://www.cnblogs.com/CodeRealm/p/18287439

顶点小说

装xpath helper

GitHub - mic1on/xpath-helper-plus: 这是一个xpath开发者的工具,可以帮助开发者快速的定位网页元素。

Question:加载完插件点击没反应

Answer:将开发人员模式关闭即可

image-20240706100440880

爬虫介绍

分类:

  • 搜索引擎:爬取范围广
  • 聚焦爬虫:爬取范围聚焦

介绍:

程序发起请求(request),获取响应(response),解析response中的数据

URL

即统一资源定位符

组成:

  • 协议
    • http
    • https:新增SSL协议(证书验证),之前花钱,现在开源了,所以大部分网站都是https,据说性能损耗,但忽略不计
  • 主机IP地址(有时也包括端口号)
  • 主机资源具体地址:如目录和文件名等

静态网站和动态网站

  1. 静态网站:数据在页面源代码中
  2. 动态网站:数据在接口中,网站通过ajax请求接口获取数据,再通过js镶在页面中

结构化与非结构化数据

  1. 结构化数据:可以用关系型数据库表示和存储,表现为二维形式的数据
  2. 非结构化数据:数据结构不规则,不方便用二位逻辑来表现,如办公文档、图片、HTML、音频和视频等等

xpath

概念:即为XML路径语言(XML Path Language),用于确定XML文档中某部分位置的语言,python可以使用xpath的语法定位html文档中某部分的位置,并进行抽取

示例:xpath是抽取静态网站数据的常用方法

Question:动态网站可以用xpath进行解析吗?

Answer:

动态网站采用了ajax技术,ajax发起请求对页面进行替换分为 整块替换和 部分替换,部分替换则接口返回数据格式为Json,整块替换则接口返回html文档如果返回html文档,则可用xpath进行解析,如果返回Json数据,则不可用xpath进行解析总结:xpath是否可进行解析取决于数据是否为结点数据(是否具有结点),JSON为字符串,肯定不可用xpath进行解析

语法:

  • /:从文档根目录开始选取
  • //:全局进行查找选取,//代表前面有东西,但不重要,相当于正则表达式的 .*?
  • //li/a/text():可以获取小说的所有书名,然后通过python进行切片获取具体的个别数据
  • //li//text():可以获取 li 标签下的所有文字(不区分什么标签),只限深度为1
  • //a[@class="poptext"]:可以选取带有 class属性 的 a标签
  • @href:可以获取此元素的 href属性值
  • *:匹配任何元素结点,如//*、/bookstore/*
  • |:类似and,都获取,如//book/title | //book/price

案例:顶点小说抓取

  1. 导包,定义headers(有的小说网站对headers无要求,有的有要求)
    import requests
    from lxml import etree
    import pymysql# headers
    headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0"
    }
    
  2. 获取小说分类url
    # 获取小说分类url
    def get_type():url = "https://www.cdbxs.com/sort/"source = requests.get(url=url, headers=headers).content.decode('utf-8')href_lists = etree.HTML(source).xpath('//ul[@class="nav"]/li/a/@href')[2:-4]type_lists = []for href in href_lists:type_lists.append(f"{url}{href.split('/')[2]}/1/")# print(type_lists)return type_lists
    
  3. 获取最大页
    # 获取最大页
    def get_max_page(first_page_url):source = requests.get(url=first_page_url, headers=headers).content.decode('utf-8')# print(source)max_page = etree.HTML(source).xpath('//a[13]/text()')return max_page
    
  4. 获取每个分类的每一页url
    # 获取小说分类url
    type_lists = get_type()
    # 分类url默认为第一页
    for first_page_url in type_lists:# 获取带分类的url的前半截type_url = first_page_url.split('1')[0]# 获取此分类下最大页max_page = get_max_page(first_page_url)# 生成此分类下每一页urlfor every_page in range(1, int(max_page[0])+1):every_page_url = f"{type_url}{every_page}/"print(every_page_url)
    
  5. 获取小说列表页信息
    def get_book_info(every_page_url):source = requests.get(url=every_page_url, headers=headers).content.decode('utf-8')book_lists = []lis = etree.HTML(source).xpath("//ul[@class='txt-list txt-list-row5']/li")for li in lis:book_id_url = li.xpath("span[@class='s2']/a/@href")[0]book_id = book_id_url.split('/')[3]# 书名book_name = li.xpath("span[@class='s2']/a/text()")[0]# 最新章节new_chapter = li.xpath("span[@class='s3']/a/text()")[0]# 作者author = li.xpath("span[@class='s4']/text()")[0]# 更新时间update_time = li.xpath("span[@class='s5']/text()")[0]source = requests.get(url=f"https://www.cdbxs.com{book_id_url}", headers=headers).content.decode('utf-8')# 字数font_num = etree.HTML(source).xpath("//p[6]/span/text()")[0]# 摘要summary = etree.HTML(source).xpath("//div[@class='desc xs-hidden']/text()")[0]# 以元组添加至 book_lists# print((book_id, book_name, new_chapter, author, update_time, font_num, summary))book_lists.append((book_id, book_name, new_chapter, author, update_time, font_num, summary))return book_lists
    
  6. 获取章节列表url
    # 获取章节列表url
    def get_chapter_urls(chapter_list_url):source = requests.get(url=chapter_list_url, headers=headers).content.decode('utf-8')# 章节urlchapter_urls = map(lambda x: "https://www.cdbxs.com" + x, etree.HTML(source).xpath("//div[@class='section-box'][2]/ul[@class='section-list fix']/li/a/@href | //div[@class='section-box'][1]/ul[@class='section-list fix']/li/a/@href"))return chapter_urls
    
  7. 获取章节详情信息
    # 获取章节详情信息
    def get_chapter_info(chapter_url):source = requests.get(url=chapter_url, headers=headers).content.decode('utf-8')# 标题title = etree.HTML(source).xpath("//h1[@class='title']/text()")# 正文content = ''.join(etree.HTML(source).xpath("//div[@id='nb_content']/dd//text()"))if title:return title[0], contentelse:return '', content
    
  8. 整合
    # 获取小说分类url
    type_lists = get_type()
    # 分类url默认为第一页
    for first_page_url in type_lists:# 获取带分类的url的前半截type_url = first_page_url.split('1')[0]# 获取此分类下最大页max_page = get_max_page(first_page_url)# 生成此分类下每一页urlfor every_page in range(1, int(max_page[0]) + 1):every_page_url = f"{type_url}{every_page}/"# 获取小说列表页信息book_info_lists = get_book_info(every_page_url)# 获取章节列表urlfor book_info in book_info_lists:print(f"爬取小说:{book_info[1]}...")book_id = book_info[0]chapter_urls = get_chapter_urls(f"https://www.cdbxs.com/booklist/b/{book_id}/1")for chapter_url in chapter_urls:# print(chapter_url)chapter_info = get_chapter_info(chapter_url)print(chapter_info)print(chapter_info[0])print(chapter_info[1])# print(f"title:{chapter_info[0]}")# print(f"content:{chapter_info[1]}")
    

:关注我,后续会陆续出爬虫内容(包括但不仅限于顶点小说进阶:数据入库、多线程多进程爬取数据)

更多精致内容,关注公众号:[CodeRealm]

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/739399.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LRU算法简介

LRU(Least Recently Used,最近最少使用)算法是一种常用于缓存管理的算法,用于在缓存空间有限的情况下,决定哪些数据应该被移除。它的基本思想是:如果一个数据最近被访问过,那么在将来一段时间内它被再次访问的概率较高。因此,当缓存已满,需要移除数据时,优先移除那些…

数据结构小学期第六天

今天完全实现了九宫格拼图游戏,具备一键通关功能按下W键,查看原图功能按住A键不松,移动图片按上下左右键,如果你自己想要实现这个功能,需要自己的图片,图片格式要求。 每个小图片是105*105,完整图片是315*315.有人想要做一下,可以试一试。代码如下 启动类1 import com.…

1、flask-基本架构-MVT - 虚拟环境的安装 - 创建flask应用

flask基本架构图 创建虚拟环境 #1. 打开cmd或pycharm都可以(确保安装python环境) #2. 安装虚拟环境模块-windows - pip install virtualenv virtualenvwrapper-win#3. 查看虚拟环境 - workon#4. 创建虚拟环境 - mkvirtualenv flask2env - 默认创建在:C:\Users\Administrato…

基于Qwen2/Lllama3等大模型,部署团队私有化RAG知识库系统的详细教程(Docker+AnythingLLM)

大语言模型在垂直细分领域存在知识局限、幻觉、数据安全等一些问题,可通过RAG(检索增强生成)方案来解决。本文基于AnythingLLM框架,搭建团队私有知识库系统,并进行使用和验证,RAG系统在保留输出的有效性同时,还保留了创造性……自 ChatGPT 发布以来,大型语言模型(Larg…

基于STM32F1系列,驱动L298N电机驱动板实现直流电机的启动、停止、调速功能

一. L298N电机驱动板电源引脚 VCC 外接直流电源引脚,电压范围在5~35V之间 GND GND是接地引脚,连接到电源负极 5V 驱动芯片内部逻辑供电引脚,如果安装了5V跳帽,则此引脚可输出5V电压,为微控板或其他电路提供电力供给,如果拔掉5V跳帽,则需要独立外接5V电源 控制引脚 IN1 &…

SpringBoot引入WebSocket

WebSocket 是一种在客户端和服务器之间提供低延迟、全双工通信的网络协议。它允许双方在建立一次连接后,进行实时、持续的数据交换,无需像HTTP那样为每一个请求和响应建立新的连接。WebSocket的设计初衷是解决传统HTTP协议在实时通信方面的不足,比如实现实时聊天、游戏、股票…

博客园商业之路:全园求偶遇,懂园子懂商业的创业合伙人

各方面的因素将园子的商业化强推到一个关口,2024年7月-9月是决定园子命运的一个季度,我们将拼尽所有力气找各种可能的突破口,不会有任何保留。 这个关口是最后关头,也是三年多来最好的时间窗口,天时地利最需要人和,找到对的人,最有可能在这个时间窗口,一将解园子二十年…

KBPC2504-ASEMI无人机专用整流桥KBPC2504

KBPC2504-ASEMI无人机专用整流桥KBPC2504编辑:ll KBPC2504-ASEMI无人机专用整流桥KBPC2504 型号:KBPC2504 品牌:ASEMI 封装:KBPC-4 最大重复峰值反向电压:400V 最大正向平均整流电流(Vdss):25A 功率(Pd):中小功率 芯片个数:4 引脚数量:4 类型:整流方桥、整流桥 正向浪…

3款C#开源且实用的工具类库,工作效率提升利器!

前言 在日常工作开发中工具类库是软件开发中不可或缺的一部分,它们通过提供代码重用、通用功能、隐藏复杂性、提高代码质量、扩展性等方面的优势,帮助开发者更高效、更稳定地构建软件应用程序。今天大姚给大家分享3款C#开源且实用的工具类库,希望能帮助到有需要的小伙伴。 M…

关于 Puerts 的性能问题

Puerts 在 UE 开发中提供了一定的便利性,可以用代码的方式写蓝图,但是官方是不推荐这么做的 原话如下那么这个性能问题究竟有多大呢 这里先用 C++ 写一个测试代码#include "TestWidget.h"#include "Blueprint/WidgetBlueprintLibrary.h" #include "…

均方误差、二元交叉熵推导

详情可以看:https://zhuanlan.zhihu.com/p/626054495

MinGW GCC Windows下编译libmodbus

最近项目从MSVC切换到GCC,libmodbus官网没提供MinGW下GCC 如何编译,官网推荐在类UNIX环境下MSYS下编译,个人更偏向直接拿源文件编译。 编译libmodbus版本: libmodbus-3.1.10 GCC编译器版本: 5.3.0 (i686-posix-dwarf-rev0, Built by MinGW-W64 project) CMake版本: 3.29.0 1…