开源项目推荐 【SkyEyeSystem】

大家好,今天向大家推荐一个开源项目——SkyEyeSystem。

这是一个基于Spring Boot的全网热点爬虫项目,旨在提供全面而准确的全网热搜数据。

关于项目

SkyEyeSystem通过定时任务间隔10min爬取全网热搜数据。目前包括的平台有:

  • 微博热搜
  • B站热搜
  • CSDN热搜
  • 知乎热搜
  • 今日头条
  • 百度热搜
  • 掘金
  • 36氪
  • 腾讯新闻
  • 少数派等。

在获取到数据后

SkyEyeSystem会将原始数据存入MySQL

进行词频统计后存入Redis,

以便开发者们能够更方便地分析和利用这些热搜数据。

同时会以页面的形式展示出所有平台的数据。

页面

自定义爬虫平台

当然 也可以自定义自己希望爬取的平台,作者提供了非常清晰的教程,只需要提供对应的平台类,自定义处理爬虫逻辑即可。

  1. 首先在 平台表 hot_platform 中新增对应对平台记录。举例如下。
INSERT INTO sky_eye_system.hot_platform 
VALUES (2, '微博','https://ts3.cn.mm.bing.net/th?id=ODLS.05d45f55-2151-4d66-83e5-d10018607094&w=32&h=32&qlt=90&pcl=fffffa&o=6&pid=1.2','随时随地发现新鲜事!微博带你欣赏世界上每一个精彩瞬间,了解每一个幕后故事。分享你想表达的,让全世界都能听到你的心声!','https://weibo.com', '随时随地发现新鲜事!', '王志东', null, null, 0);
  1. 在 [src/main/java/cn/shoxiongdu/SkyEyeSystem/task/hotspot/crawl/impl] 下新增对应的平台类,并实现接口 HotDataCrawler
public class XXXCrawler implements HotDataCrawler {// 平台表中的id private static final Long PLATFORM_ID = ${platformId};private PlatformMapper platformMapper;@Overridepublic List<HotSpot> crawlHotSpotData() {// 执行自定义爬虫逻辑 返回的HotSpot列表。return hotSpotList;}@Overridepublic Platform getPlatform() {return platformMapper.selectById(PLATFORM_ID);}
}
  1. 实现crawlHotSpotData方法,执行自定义的数据爬取逻辑,将爬取的数据封装为HotSpot的List并返回。

  2. 将常量PLATFORM_ID的值改为您的对应的平台表中的id。

  3. 将实现类添加到Spring容器中。( @Component/@Service )

  4. 完成。此时,定时任务会执行您的爬取逻辑并入库。同时首页会展示相对应的数据。

项目地址

https://github.com/shaoxiongdu/SkyEye

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/9712.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

sklearn.model_selection模块介绍

数据集划分方法 train_test_split train_test_split(*arrays, test_sizeNone, train_sizeNone, random_stateNone, shuffleTrue, stratifyNone)参数包括&#xff1a; test_size&#xff1a;可选参数&#xff0c;表示测试集的大小。可以是一个表示比例的浮点数&#xff08;例…

经典基于外观的SLAM框架-RTABMAP(RGBD视觉输入方案)

经典基于外观的SLAM框架-RTABMAP 文章目录 经典基于外观的SLAM框架-RTABMAP1. RTABMAP整体框架2.RTABMAP的内存管理机制3. 视觉里程计4. 局部地图5. 回环检测与图优化6. 代码工程实践 1. RTABMAP整体框架 RTABMAP是采用优化算法的方式求解SLAM问题的SLAM框架&#xff0c;本赛题…

C#异常总结

C#异常总结 定义Try语句异常类创建用户自定义异常搜索调用栈的示例异常抛出 定义 程序中的运行时错误&#xff0c;它违反一个系统约束或应用程序约束&#xff0c;或出现了在正常操作时未预料的情形。 Try语句 指明被异常保护的代码块&#xff0c;并提供代码以处理异常。try由…

【机器学习】支持向量机(下)

支持向量机&#xff08;下&#xff09; 目录 八、支持向量机的求解实例九、核函数1、核函数的引入2、核函数的示例 十、软间隔1、何为软间隔2、引入软间隔后的目标方程 十一、正则化十二、关于支持向量机的分类十三、数据标准化的影响【机器学习】支持向量机&#xff08;上&…

Segment Anything:突破边界的图像分割新技术解析

Segment Anything论文地址&#xff1a;https://arxiv.org/pdf/2304.02643.pdf Segment Anything&#xff1a;突破边界的图像分割新技术解析 论文背景Segment Anything任务方法Segment Anything 模型架构图像编码器&#xff08;Image Encoder&#xff09;提示编码器&#xff08;…

Java JSP实战

综合实战&#xff1a; 实现利用servletservicedao实现查询所有&#xff0c;对象&#xff0c;增删改&#xff0c; t_house(int no,String housename,Double height) 步骤1&#xff1a;创建maven工程 步骤2&#xff1a;创建工程包entity,dao,util,service,servlet 步骤3&#x…

接口抓包分析与Mock实战

这里写目录标题 一、知识点梳理1、接口抓包需要具备的能力2、接口抓包原理 二、Charles 基础使用三、charles抓包分析四、Charles 使用1、过滤&#xff1a;Filter、Focus2、重发&#xff1a;Repeat、Repeat Advanced3、修改请求&#xff1a;Compose4、弱网&#xff1a;Throttle…

npm包管理器

一、什么是npm Npm&#xff08;Node Package Manager&#xff09;是一个用于管理和共享JavaScript代码包的包管理器。它是Node.js的默认包管理工具&#xff0c;也是世界上最大的软件注册表之一。下面从不同的角度来详细介绍Npm包管理器。 1. 功能与用途&#xff1a; 包安装与…

FPGA USB FX2 图片发送试验 驱动CY7C68013A实现 提供2套工程源码和技术支持

目录 1、前言2、我这儿已有的 FPGA USB 通信方案3、CY7C68013A芯片解读和硬件设计FX2 简介SlaveFIFO模式及其配置 4、工程详细设计方案输入测试图片的处理PC上位机发送测试图片图像接收与缓存图像输出显示 5、vivado工程1--LCD输出显示6、vivado工程1--LCD输出显示7、上板调试验…

Labview通过OPC与S1200通信

一、配置PC的IP地址 二、S7-1200的配置 通过博图&#xff0c;在PLC CPU的属 性-常规-保护里勾选“允许从 远程伙伴使用PUT/GET通信 访问 三、新建一个DB1数据块&#xff0c;在DB1里新建一个变量&#xff0c;例如 名称为“ASD”&#xff0c;类型为“Word” 四、右击“DB1”&…

超详细,Pytest自动化测试框架 token全局设置-多套环境使用(实战)

目录&#xff1a;导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结&#xff08;尾部小惊喜&#xff09; 前言 在做自动化测试时…