揭秘CentosChina爬虫项目:掌握Scrapy框架的必备技巧与数据库设计

news/2024/11/18 15:35:41/文章来源:https://www.cnblogs.com/CodeRealm/p/18349334

Centoschina

项目要求

爬取centoschina_cn的所有问题,包括文章标题和内容

数据库表设计

库表设计:

image-20240808161837432

数据展示:

image-20240808161722167

项目亮点

  • 低耦合,高内聚。

    爬虫专有settings

    custom_settings = custom_settings_for_centoschina_cn
    
    custom_settings_for_centoschina_cn = {'MYSQL_USER': 'root','MYSQL_PWD': '123456','MYSQL_DB': 'questions',
    }
    
  • DownloaderMiddleware使用

    class CentoschinaDownloaderMiddleware:# Not all methods need to be defined. If a method is not defined,# scrapy acts as if the downloader middleware does not modify the# passed objects.@classmethoddef from_crawler(cls, crawler):# This method is used by Scrapy to create your spiders.s = cls()crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)return s# 处理请求def process_request(self, request, spider):# Called for each request that goes through the downloader# middleware.# Must either:# - return None: continue processing this request 继续执行下一步操作,不处理默认返回None# - or return a Response object 直接返回响应, 如scrapy和pyppeteer不需要用下载器中间件访问外网,直接返回响应, pyppeteer有插件,一般和scrapy还能配合,selenium不行,没有插件# - or return a Request object 将请求返回到schdular的调度队列中供以后重新访问# - or raise IgnoreRequest: process_exception() methods of#   installed downloader middleware will be calledreturn None# 处理响应def process_response(self, request, response, spider):# Called with the response returned from the downloader.# Must either;# - return a Response object 返回响应结果# - return a Request object 结果不对(判断结果对不对一般判断状态码和内容大小)一般返回request,也是将请求返回到schdular的调度队列中供以后重新访问# - or raise IgnoreRequestreturn response# 处理异常:如超时错误等def process_exception(self, request, exception, spider):# Called when a download handler or a process_request()# (from other downloader middleware) raises an exception.# Must either:# - return None: continue processing this exception 继续执行下一步,没有异常# - return a Response object: stops process_exception() chain 如果其返回一个 Response 对象,则已安装的中间件链的 process_response() 方法被调用。Scrapy将不会调用任何其他中间件的 process_exception() 方法。# - return a Request object: stops process_exception() chain 将请求返回到schdular的调度队列中供以后重新访问passdef spider_opened(self, spider):spider.logger.info("Spider opened: %s" % spider.name)
    
  • DownloaderMiddleware中抛弃请求写法

    • 适用场景:请求异常,换代理或者换cookie等操作
    # from scrapy.exceptions import IgnoreRequest
    # raise IgnoreRequest(f'Failed to retrieve {request.url} after {max_retries} retries')
    

    例子:处理下载异常并重试请求

    import logging
    from scrapy.exceptions import IgnoreRequestclass RetryExceptionMiddleware:def __init__(self):self.logger = logging.getLogger(__name__)def process_exception(self, request, exception, spider):# 记录异常信息self.logger.warning(f'Exception {exception} occurred while processing {request.url}')# 检查是否达到重试次数限制max_retries = 3retries = request.meta.get('retry_times', 0) + 1if retries <= max_retries:self.logger.info(f'Retrying {request.url} (retry {retries}/{max_retries})')# 增加重试次数request.meta['retry_times'] = retriesreturn requestelse:self.logger.error(f'Failed to retrieve {request.url} after {max_retries} retries')raise IgnoreRequest(f'Failed to retrieve {request.url} after {max_retries} retries')

    例子:切换代理

    import randomclass SwitchProxyMiddleware:def __init__(self, proxy_list):self.proxy_list = proxy_listself.logger = logging.getLogger(__name__)@classmethoddef from_crawler(cls, crawler):proxy_list = crawler.settings.get('PROXY_LIST')return cls(proxy_list)def process_exception(self, request, exception, spider):self.logger.warning(f'Exception {exception} occurred while processing {request.url}')# 切换代理proxy = random.choice(self.proxy_list)self.logger.info(f'Switching proxy to {proxy}')request.meta['proxy'] = proxy# 重试请求return request
  • piplines中抛弃item写法

    • 适用场景:数据清洗、去重、验证等操作
    # from scrapy.exceptions import DropItem
    # raise DropItem("Duplicate item found: %s" % item)
    
  • 保存到文件(通过命令)

    from scrapy.cmdline import execute
    execute(['scrapy', 'crawl', 'centoschina_cn', '-o', 'questions.csv'])
    

更多精致内容:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/779826.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

harbor私有镜像仓库高可用部署

Harbor介绍 harbor是一个docker私有镜像仓库,虽然docker官方提供了公共的镜像仓库(Docker Hub),但是从安全和效率等方面考虑,部署私有环境内的Registry也是非常必要的。Harbor是由VMware公司开源的企业级的Docker Registry管理项目。 Harbor的优势: 图形管理界面。 按项目…

面试官:说说MySQL调优?

MySQL 作为关系型数据库的典型代表,其流行程度超越于任何数据库,因此在 Java 面试中,MySQL 是一定会被问到的重要知识点。而在 MySQL 中有一道极其常见的面试题,我们这里系统的来看一下,这就是我们今天要讨论的 MySQL 调优问题。 MySQL 调优的大体思路如下:具体调优思路如…

Thread、ThreadPool、Task之间的联系

1、ThreadPool线程池 一个应用程序最多只能有一个线程池。线程池是一种多线程处理形式,通过QueueUserWorkItem()将任务添加到队列中,然后创建线程(后台线程,又称工作者线程)自动启动这些任务来处理。其中,最小线程数即核心线程数(corePoolSize)是线程池中长期保持的线程…

基准测试基础

基准测试 定义 基准测试是一种用于衡量计算机系统,软件应用或硬件组件性能的测试方法。 基准测试旨在通过运行一系列标准化的任务场景来测量系统的性能表现,从而帮助评估系统的各种指标,如响应时间、并发用户数、TPS、资源利用率、交易成功率等。 特质 ① 可重复性: 可进行重…

智林 - AI 答题应用平台介绍

智林 - AI 答题应用平台 一、项目介绍 智林AI答题是一款基于 Vue 3 + Spring Boot + Redis + ChatGLM + RxJava + SSE 的 AI 答题应用平台。 用户可以基于 AI 快速制作并发布答题应用,支持检索、分享、在线答题并基于 AI 得到回答总结;管理员可以集中管理和审核应用。 什么是…

博客园自定义皮肤工具推荐:awescnb

简介 awescnb是一个用于博客园(Cnblogs)的自定义皮肤和功能增强插件。它允许用户通过简单的配置来自定义其博客的外观和增加一些额外的功能。下面是对awescnb的简要介绍: 功能特点: 自定义皮肤:用户可以选择不同的皮肤主题,包括背景颜色、字体样式等,以个性化他们的博客…

外部存储器

磁盘存储器磁盘存储器的性能指标磁盘地址磁盘阵列固态硬盘SSD

Ubuntu22.04上安装esp-idf

一、安装准备建议使用Ubuntu 20.04 或 Ubuntu 22.04 操作系统为了在 ESP32-C3 中使用 ESP-IDF,需要安装一些依赖包 sudo apt-get install git wget flex bison gperf python3 python3-pip python3-venv cmake ninja-build ccache libffi-dev libssl-dev dfu-util libusb-1.0-0…

数据结构 分块 莫队

数据结构 分块 & 莫队分块 一种优化暴力的思想。 通常是将原数据划分成适当块(一般为 \(\sqrt{n}\)),对每块数据进行预处理,进而达到比暴力更优的时间复杂度。 划分 确定块长后,一般需要开两个数组存储每一块的右边界与原数据所属块序号,更加方便后续操作。 int sq=s…

改写socket编程并解释socket通信原理

如果你仔细看我之前的博客,会看到那个手机打电话的示例,但是那段代码彻底写死了,真正编程的时候一定要写活了,不信你看看很多的程序的配置文件就是这样的,为什么单独分离个配置文件出来,就是为了便于修改配置,这就是把程序写活的最好的例子。 言归正传,直接上代码。 服…

工程项目综合管理系统解析:哪一款适合你的企业?

国内外主流的10款工程项目综合管理系统对比:PingCode、Worktile、广联达、明源云、中望软件、Oracle Primavera、Asana、Wrike、Zoho Projects、Basecamp。在处理复杂的工程项目时,选择合适的综合管理系统可能是一个令人头痛的问题。项目延误、成本超支和资源管理不当等问题常…