爬虫部署平台crawlab使用说明

Crawlab 是一个基于 Go 语言的分布式网络爬虫管理平台,它支持 Python、Node.js、Jar、EXE 等多种类型的爬虫。

Crawlab 提供了一个可视化的界面,并且可以通过简单的配置来管理和监控爬虫程序。

以下是 Crawlab 的一些主要优点:

  1. 集中管理:Crawlab 允许用户在单一的界面中管理所有的爬虫任务,这使得任务的监控和管理变得更加容易。

  2. 支持多种编程语言:Crawlab 不局限于特定的编程语言,支持 Python、Node.js、Java、Go 等多种语言编写的爬虫。

  3. 分布式架构:Crawlab 支持分布式架构,可以轻松扩展到多个服务器以应对大规模的爬取任务。

  4. 可视化操作:Crawlab 提供一个直观的 Web 界面,可以通过界面进行爬虫的部署、执行、监控和调度。用户无需编写复杂的命令行代码。

  5. 日志实时查看:Crawlab 允许用户实时查看爬虫的输出日志,这对于调试和监控爬虫的状态非常有帮助。

  6. 结果持久化:用户可以将爬取的数据直接存储到 MongoDB、MySQL 等数据库中,Crawlab 内置对这些常见数据库的支持。

  7. 定时任务:Crawlab 提供了定时任务功能,用户可以定时启动爬虫,实现自动化地数据抓取。

  8. 便捷的部署方式:Crawlab 可以通过 Docker 容器化部署,大大简化了安装和配置的复杂性。

  9. 插件系统:Crawlab 提供插件系统,用户可以根据需要安装不同的插件来扩展平台的功能。

  10. 用户权限管理:Crawlab 提供用户权限管理,可以定义不同用户的操作权限,适用于团队协作环境。

  11. API接口:Crawlab 提供 RESTful API,便于与其他系统集成和自动化操作。

以下是简要使用说明。

部署很简单,参考: crawlab开源项目

1. 登录

第一次登录进去是英文版的,可以在右上角点击切换为中文:

在这里插入图片描述

2. 环境依赖安装

Python 包直接搜索安装即可:

在这里插入图片描述

在这里插入图片描述

模式选择所有节点,确认即可

在这里插入图片描述

点击任务即可查看安装情况,这里是三个节点都安装:

在这里插入图片描述

3. 新建项目

点击项目,然后点击新建项目

在这里插入图片描述

出现以下界面:

在这里插入图片描述

支持单个和批量创建项目,一般来说我们如果的spider都在一个项目下直接建单个的项目就行。

4. 爬虫文件上传与部署

该平台支持文件夹上传,上传爬虫步骤如下,点击爬虫,然后点击新建爬虫

在这里插入图片描述

在这里插入图片描述

名称随便写,最好写spider名字便于区分;

项目就选择我们之前创建的项目名字;

执行命令就是输入要执行的命令,如果是scrapy项目就直接像上面那样直接写就行,如果是其他python项目就输入类似 python demo.py 的命令;

参数可以不填

增量同步文件最好还是开启一下,主要是用于在更新或编辑爬虫代码时,只同步那些有变化的文件,而不是每次都同步所有文件;

其他的默认就行。

这里也支持批量创建爬虫:

在这里插入图片描述

正常情况下我们的scrapy项目下会有多个spider,所以用批量部署更方便。

我这里写测试只放了一个spider,

爬虫参数都填好后再点击确认:

在这里插入图片描述

就看到爬虫目录里已经有dsw_spider了。

本地上传文件直接点击上传文件图标即可:

在这里插入图片描述

可以直接点击选择目录上传

在这里插入图片描述

然后选择项目目录,确认上传就可以了

在这里插入图片描述

在这里插入图片描述

点击确认,会出现上传成功提示

在这里插入图片描述

这个时候就算把爬虫上传成功了,要调用可以直接点这个运行

在这里插入图片描述

点确认即开始运行,

查看爬虫日志:

在这里插入图片描述

在这里插入图片描述

5. 线上代码修改

在爬虫里点搜索按钮查看 ,即进入以下界面:

在这里插入图片描述

在爬虫的Files里也可以直接修改线上代码,crtl + s保存即生效,然后再重新运行程序即可。

6. 添加定时任务

点击定时任务,然后点击新建定时任务:

在这里插入图片描述

进入以下界面:

在这里插入图片描述

名称自定义,爬虫就点下拉框选择我们已经建好的爬虫,下面的scrapy命令也会自动索引补充,不用自己填;

Cron 表达式使用也简单,比如要创建一个 crontab 任务,要求每天早上 8:30 执行,你需要编辑 crontab 文件并添加以下行:

30 8 * * *

这里是如何解读这个 crontab 表达式的各个部分:

  • 30 表示分钟,指定在每小时的第 30 分钟。
  • 8 表示小时,指定在上午 8 点。
  • 第三个星号 * 表示日期,表示每个月的每一天。
  • 第四个星号 * 表示月份,表示每个月。
  • 第五个星号 * 表示星期几,表示每个星期的每一天。

然后点击确认即添加进定时任务。

到时间点可以去任务里查看程序是否执行:

在这里插入图片描述

在主页里也可以查看任务执行统计情况:

在这里插入图片描述

定时任务取消只需要在定时任务里点击取消 启用按钮就行了:

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/586038.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Netty核心原理剖析与RPC实践11-15

Netty核心原理剖析与RPC实践11-15 11 另起炉灶:Netty 数据传输载体 ByteBuf 详解 在学习编解码章节的过程中,我们看到 Netty 大量使用了自己实现的 ByteBuf 工具类,ByteBuf 是 Netty 的数据容器,所有网络通信中字节流的传输都是…

【2024年IntelliJ IDEA连接redis数据库 】

1:显示 tools window bar,打开database选项 2:添加redis连接信息: 3:填写host主机,端口号,有密码的天上密码,redis没有username,不用填。Test Connection。没问题就Apply…

15 - grace序列处理 - 十三点滑动平均法

grace序列处理 -十三点滑动平均法 滑动平均是一种常用的平滑数据的方法,可以用于去除噪声或者提取趋势。十三点滑动平均是指使用窗口大小为13的滑动平均,应用于GRACE序列处理中可以去除周年项的影响。 十三点滑动平均的计算公式为: y [ n ] = ( x [ n − 6 ]

String、StringBuffer、StringBuilder类

最近在复习 Java 基础的时候,看到了 String 这块的内容,我突发奇想,可以将 String、StringBuffer、StringBuilder 这些知识点整合在一起记忆。我之前背的那个答案其实有点琐碎,而且不太好理解,还繁杂,所以我…

前端缓存揭秘:5年前端技术的必备知识点

背景 本篇文章将详细讲述何为前端缓存,这也是前端工程师必备的知识点。 首先,我们不能少了干这事的目的,前端缓存有什么用? 缓存作用:加快资源获取速度,提高用户体验感,缓解服务端压力 我们带…

用python,将有道词典中的生词导入扇贝单词

我试过有道词典和扇贝单词,个人感觉扇贝单词记忆功能非常好用,但是扇贝单词没有pc版,而有道在这方面就做的很好。博主平时都是用有道查生词,那有没有办法将有道词典中的生词导入扇贝中呢?下面的过程看上去很复杂&#…

Python中的相关规则:注释,参数,模块和包

Python中的相关规则:注释,参数,模块和包 注释参数模块包(package)数据类型其他一些编写代码小技巧 注释 crtl/注释,多行注释(三对单引号或双引号):多行注释一般放在文件开头,标明整个…

现在做抖音小店还赚钱吗?真实收益展现!新手不看绝对后悔!

哈喽~我是电商月月 抖音小店,电商这个行业已经走入大众眼前 它确实能赚钱,但经过四五年的时间打磨,部分人心里的顾虑基本都是:现在才开始做抖音小店还赚钱吗,花费大不大 首先,新媒体的时代,现…

YPay源支付V7开源版

YPay_V7版本即将停止维护更新,同时我们将开放最新版开源代码供学习和参考。虽然首批阶段的【function_8.1.php文件是加密的】,但授权已经除去,该代码将在新版YPay上线时开放给大家。我们也会定期进行迭代更新,随后将创建对应仓库&…

Python多任务处理---多进程

在Python中,进程(Process)是操作系统分配资源和调度的基本单位。每个进程都拥有自己独立的内存空间和资源,进程之间的通信需要特殊的机制来实现,比如管道(pipe)、信号(signal&#x…

nRF52832/52840怎么将NFC引脚配置成通用IO(P0.09,P0.10)

对于Nordic SDK的程序架构来说,引脚的NFC功能和Reset功能主要是在system_nrf52.c,跳转进main函数前执行SystemInit进行初始化的。代码如下 void SystemInit(void) {....../* Configure NFCT pins as GPIOs if NFCT is not to be used in your code. If …

Kimi和ChatGPT做古诗词阅读理解,谁更胜一筹?

前几天发过一篇Kimi整理会议的体验教程,没想到大家很感兴趣,这次再来拿Kimi做古诗词阅读理解看看,同时也对比下ChatGPT的效果。 ChatGPT是几乎家喻户晓的AI大模型,Kimi和它对比有哪些异同点呢? 首先它们都是基于对话…