狂雨CMS-采集规则(novelfull.com)-编程知识

狂雨CMS-采集规则(novelfull.com)

news/2024/11/15 9:16:30/文章来源:https://blog.csdn.net/Trisyp/article/details/136507156

1. 填写采集规则的基本信息

首先点击采集管理中的添加按钮来新建规则：

然后进入到信息页面填写，包括：

规则名称：一般以要采集的源站名命名。

网站编码：默认自动检测即可。

类型：根据网站类型来选择，一般选小说

网址补全：默认选是即可

倒叙采集：一般否即可

图片本地化：一般选否，如果原网站做了反爬虫机制，就要选是；另外根据自己服务器硬盘大小选择，不要因为图片占用太多内存。

重复数据处理：一般选择不处理，这样碰到重复小说时，你采集就会告诉你已存在，不会重复采集。但这个要看是否多次采集，如果一个站点之前有使用其它采集规则有了数据，那么再使用新的采集规则很有可能会采集到与之前重复的数据，所以这时候需要判断是否把重复的数据替换成当前采集规则采集的数据。

重复数据处理：若选择不处理，采集同本小说时则告知已存在

重复数据处理：若选择处理，采集同本小说时则告知替换成功

2. 填写列表网址

首先用浏览器访问要采集的网页，然后网页对应的网址就是采集网址，page后面对应的参数用通配符【内容】替换，总页数只需要点击网页中的last按钮就知道多少页。图片中的网址总页数是19.

根据上述网址信息来编辑列表网址信息：

3. 填写列表网址（小说列表网址）

接下来我们要获取所有小说名称及其对应的网址连接，首先我们把鼠标放到某个小说上，然后点击鼠标右键，点击检查：

这样就得到了网页源代码，然后我们把鼠标放到箭头位置，就可以看到左边蓝色部分框住的就是对应小说的网页位置。

但我们想要找到框住所有小说的源代码，很简单，用鼠标继续放到更大的div范围。可以看到，图片中的箭头位置就是框住所有小说的div。显然它是唯一的，所以需要填写的获取区间为：

<div class="list list-truyen col-xs-12">[内容]</div></div></div></div>

然后对应的小说链接只要找到框住href的位置即可，显然h3包住的部分是唯一的，所以需要填写的网址规则为：

<h3 class="truyen-title"><a href="[内容1]" title="(*)">(*)</a></h3>

注意了，这里为什么用h3而不直接用a href；其实展开了可以看到，后面还有一个链接是对应最新章节的，导致a href并不是唯一的，所以必须用h3来保证唯一性。

最终的列表规则完整填写如下：

4. 填写关联网址（章节列表网址）

单击某一本小说后进入到小说详情页面

进入到小说详情页后可以看到所有章节列表：

那我们和获取到所有章节名称和对应链接呢？其实和前面获取小说名称和链接完全类似，首先鼠标移到某一章上鼠标右键，然后点击检查获取网页源代码：

同样我们先要找到框住所有章节的源代码，用鼠标继续放到更大的div范围。可以看到，图片中的箭头位置就是框住所有章节的div。显然它是唯一的，所以需要填写的获取区间为：

<div class="row"><div class="col-xs-12 col-sm-6 col-md-6">[内容]</ul></div></div>

然后对应的章节链接只要找到框住href的位置即可，这里可以看到，每个章节只有一个对应的href链接，所以href是唯一的，只需要填写href这段内容即可，所以网址规则为：

<a href="[内容1]" title="[章节标题]">(*)</span></a>

最终的关联网址规则完整填写如下：

4. 填写内容规则

栏目规则：

我直接用的固定规则，因为狂雨采集时不支持同时并入多个分类。

假如你用对应分类会报匹配错误，原因很简单：内容是读取出来的整个大字符串，并没有按照预想的去根据逗号拆分多分类（规则不支持）。

名称规则：<h3 class="title">[内容1]</h3>

作者规则：<div><h3>Author:</h3>[内容1]</div>

连载规则：<div><h3>Status:</h3><a href="(*)">[内容1]</a></div>

图片规则：<meta name="image" content="[内容1]">

介绍规则：<div class="desc-text"><p>[内容1]</p></div>

标签规则：<div><h3>Genre:</h3>[内容1]</div>

章节名称规则：<span class="chapter-text">[内容1]<span>

注意：这里的目标页换成章节列表，即去某一章节页面获取

点击测试规则后可以看到获取到了章节名称

这里注意一点，如果直接复制原始源代码标签，这里应该是：<span class="chapter-text">[内容1]<span></span></span>，但是你测试规则会发现查不到结果。

所以我们在做规则匹配的时候一定要保证唯一性的前提下尽量简洁，去掉不必要的标签。

章节内容规则：<div id="chapter-content" class="(*)" style="(*)">[内容1]<div align(*)>

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/526832.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

设计模式学习系列 -- 随记

设计模式学习系列 -- 随记

文章目录前言一、设计模式是什么？ 二、设计模式的历史三、为什么以及如何学习设计模式？ 四、关于模式的争议一种针对不完善编程语言的蹩脚解决方案低效的解决方案不当使用五、设计模式分类总结前言最近可能工作生活上的稳定慢慢感觉自己丢失…

阅读更多...

Smart PLC模拟量采集和低通滤波器组合应用

SMART PLC模拟量采集功能块"S_ITR"算法公式和详细代码请参考下面文章： 1、模拟量采集功能块"S_ITR" https://rxxw-control.blog.csdn.net/article/details/121347697https://rxxw-control.blog.csdn.net/article/details/1213476972、线性转换…

阅读更多...

Java反射、枚举类和lambda表达式

Java反射、枚举类和lambda表达式

前言： 本章我们就来了解Java中的反射和枚举类。枚举类和反射其实有些关系，接下来我们就来学习他们的使用。反射： 反射的作用： 反射：反射允许对成员变量，成员方法和构造方法的信息进行编程访问。 Java中有…

阅读更多...

全栈的自我修养 ———— vue中子组件使用父组件的方法

全栈的自我修养 ———— vue中子组件使用父组件的方法

子组件取得父组件的方法一、通过props（比较推荐）二、通过$emit (小编很推荐)3、provide/inject (不建议)4、 $parent (不建议) 一、通过props（比较推荐） 在父组件页面给子组件绑定方法,左边是子组件接收的方法名，内容…

阅读更多...

Insert or Erase

Insert or Erase

https://atcoder.jp/contests/abc344/tasks/abc344_e 给一个不含重复数字的数组，两个询问。 1 x y：在x后面插入一个数y 2 x：删除x #include<iostream> #include<map> using namespace std; map<int,int> l,r; void ins…

阅读更多...

【C++初阶】初识模版

【C++初阶】初识模版

目录前言一.函数模板 1.泛型编程 2.函数模板 (1)概念 (2)函数模板格式 (3)模板的原理 (4)模板的实例化 ① 隐式实例化：让编译器根据实参推演模板参数的实际类型 ②显式实例化：在函数名后的<>中指定模板参数的实际类型 (5)模板…

阅读更多...

MySQL中的JOIN操作

MySQL中的JOIN操作

在MySQL中，JOIN操作是数据库查询中非常重要的一部分，它允许我们根据两个或多个表之间的相关列之间的关系，从这些表中检索数据。其中，最常用的三种JOIN类型是Left Join（左连接）、Right Join（右连…

阅读更多...

w7安装高版本nodejs

w7安装高版本nodejs

Win7系统可直接安装的最高nodejs版本为13.14，以为要换系统了，不过，网上找到了方法可以安装高版本我是配置好环境变量后开始操作的（因为之前试了其他方法，没成功，环境变量就留下了） 新建变量NO…

阅读更多...

数据结构——算法的空间复杂度

数据结构——算法的空间复杂度

【本节内容】 1.空间复杂度 2.常见空间复杂度 1.空间复杂度空间复杂度也是一个数学表达式，是对一个算法在运行过程中临时占用额外存储空间大小的量度。空间复杂度不是程序占用了多少bytes的空间，因为这个也没太大意义，所以空间复杂度算…

阅读更多...

C++进阶：详细讲解继承

C++进阶：详细讲解继承

现在也是结束了初阶部分的内容，今天开始就进入进阶部分了。一刻也没有为初阶的结束而哀悼，立刻赶来“战场”的是进阶部分里的继承文章目录 1.继承的概念和定义1.1继承的概念1.2继承的定义1.2.1继承的格式1.2.2再讲访问限定符(详讲protected)1.2.3**继承…

阅读更多...

【YOLO v5 v7 v8 v9小目标改进】RevCol：解决深度学习信息从低层（输入）传递至高层（输出）的过程中，信息会逐层丢失问题

【YOLO v5 v7 v8 v9小目标改进】RevCol：解决深度学习信息从低层（输入）传递至高层（输出）的过程中，信息会逐层丢失问题

RevCol：解决深度学习信息从低层（输入）传递至高层（输出）的过程中，信息会逐层丢失问题学习解耦表示可逆列网络（RevCol）子特征1：多级可逆单元子特征2：可逆列架构…

阅读更多...

《Ubuntu20.04环境下的ROS进阶学习2》

《Ubuntu20.04环境下的ROS进阶学习2》

一、使用rviz和gazebo实时仿真本节我们将使用三维可视化工具rviz（The Robot Visualization Tool）来实时观测gazebo仿真中的激光雷达数据。二、打开仿真gazebo项目如果您已经按照《Ubuntu20.04环境下的ROS进阶学习0》-CSDN博客如果您已经按照上次的文…

阅读更多...

推荐文章

最新文章