Python爬虫收集今日热榜数据:聚合全网热点排行榜

 pip install websocket-client

废话不多说数据展示:

代码:

创建工作簿和工作表
# 创建工作簿和工作表
workbook = openpyxl.Workbook()
sheet = workbook.active
sheet.title = '实时热榜'
设置标题行
titles = ["序号", "平台", "热榜描述", "热度", "访问地址"]
for col, title in enumerate(titles, 1):sheet.cell(row=1, column=col).value = title

数据获取核心代码:

def get_html(url):headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36'}resp = requests.get(url, headers=headers)return resp.textdef get_data(html):soup = BeautifulSoup(html, 'html.parser')nodes = soup.find_all('div', class_='cc-cd')return nodesurl = 'https://tophub.today'
html = get_html(url)
data = get_data(html)

将数据保存到xlsx

for node in data:source = node.find('div', class_='cc-cd-lb').text.strip()print(source)if source == '实时榜中榜':# 终止循环continuemessages = node.find('div', class_='cc-cd-cb-l nano-content').find_all('a')print(messages)for message in messages:rank = message.find('span', class_='s').text.strip()content = message.find('span', class_='t').text.strip()content1 = message.find('span', class_='e').text.strip()url = message["href"]sheet.append([rank, source,  content,  content1, url])# 保存数据到Excel文件
workbook.save('hot.xlsx')
workbook.close()

完整code:

import requests
from bs4 import BeautifulSoup
import openpyxl# 创建工作簿和工作表
workbook = openpyxl.Workbook()
sheet = workbook.active
sheet.title = '实时热榜'# 设置标题行
titles = ["序号", "平台", "热榜描述", "热度", "访问地址"]
for col, title in enumerate(titles, 1):sheet.cell(row=1, column=col).value = titledef get_html(url):headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36'}resp = requests.get(url, headers=headers)return resp.textdef get_data(html):soup = BeautifulSoup(html, 'html.parser')nodes = soup.find_all('div', class_='cc-cd')return nodesurl = 'https://tophub.today'
html = get_html(url)
data = get_data(html)
# print(data)for node in data:source = node.find('div', class_='cc-cd-lb').text.strip()print(source)if source == '实时榜中榜':# 终止循环continuemessages = node.find('div', class_='cc-cd-cb-l nano-content').find_all('a')print(messages)for message in messages:rank = message.find('span', class_='s').text.strip()content = message.find('span', class_='t').text.strip()content1 = message.find('span', class_='e').text.strip()url = message["href"]sheet.append([rank, source,  content,  content1, url])# 保存数据到Excel文件
workbook.save('hot.xlsx')
workbook.close()

关注公众号「码农园区」,获取多个项目源码及各大厂学习面试资源
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/156183.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

洗地新天花板:CEYEE希亦顶配机皇T800 Pro洗地机多点发力上市开售

2023年11月1日,CEYEE希亦正式发布高端清洁产品无线洗地机希亦T800 PRO,创新性地实现了洗地场景深度清洁体验的新突破,彻底解决了清洁行业20多年来技术发展难题,颠覆式引领行业向水汽混动时代迈进,推动了整个市场向“智…

微信小程序:两层循环的练习,两层循环显示循环图片大图(大图显示、多层循环)

效果 代码分析 外层循环 外层循环的框架 <view wx:for"{{info}}" wx:key"index"></view> wx:for"{{info}}"&#xff1a;这里wx:for指令用于指定要遍历的数据源&#xff0c;即info数组。当遍历开始时&#xff0c;会依次将数组中的每…

第06章 索引的数据结构

第06章 索引的数据结构 1. 索引及其优缺点 1.1 索引概述 MySQL官方对索引的定义为&#xff1a;索引&#xff08;Index&#xff09;是帮助MySQL高效获取数据的数据结构。 **索引的本质&#xff1a;**索引是数据结构。你可以简单理解为“排好序的快速查找数据结构”&#xff…

斯坦福发布 最新 GPT 模型排行榜 AlpacaEval【AI工具免费使用】

文章目录 &#x1f4cc;提炼❓什么是 AlpacaEval&#x1f50e;AlpacaEval 排行榜 包含的 测试 模型 和数据&#x1f4af;在不同的测试集上各个大模型的能力评分&#x1f680;AlpacaEval Leaderboard 大模型的能力综合评分&#x1f4bc; 普遍国内白领 如何快速应用 大模型&#…

万物摩尔定律:人工智能技术的快速迭代将使人类万劫不复?

第一次工业革命&#xff1a;蒸汽机时代&#xff1b; 第二次工业革命&#xff1a;电气化时代&#xff1b; 第三次工业革命&#xff1a;信息化时代&#xff1b; 第四次工业革命&#xff1a;智能化革命。这一场革命正在上演&#xff0c;是人工智能&#xff08;AI&#xff09;带…

甄知燕千云+汉得AIGC中台,智能化驱动员工与客户服务新生产力!

2023年是AIGC的爆发之年&#xff0c;随着AI进入大模型时代&#xff0c;AIGC也成为当下最热门的新型生产力工具&#xff0c;每个业务和每个产品都值得用AI重做一遍也越来越成为共识。如何快速使用AIGC来使AI的能力场景化落地&#xff0c;真正做到业务创新的AI赋能&#xff0c;已…

基于松鼠算法的无人机航迹规划-附代码

基于松鼠算法的无人机航迹规划 文章目录 基于松鼠算法的无人机航迹规划1.松鼠搜索算法2.无人机飞行环境建模3.无人机航迹规划建模4.实验结果4.1地图创建4.2 航迹规划 5.参考文献6.Matlab代码 摘要&#xff1a;本文主要介绍利用松鼠算法来优化无人机航迹规划。 1.松鼠搜索算法 …

大厂面试题-JVM为什么使用元空间替换了永久代?

目录 面试解析 问题答案 面试解析 我们都知道Java8以及以后的版本中&#xff0c;JVM运行时数据区的结构都在慢慢调整和优化。但实际上这些变化&#xff0c;对于业务开发的小伙伴来说&#xff0c;没有任何影响。 因此我可以说&#xff0c;99%的人都回答不出这个问题。 但是…

Open3D(C++) 迭代最小二乘拟合平面(间接平差法)

目录 一、算法原理二、代码实现三、结果展示本文由CSDN点云侠原创,爬虫网站自重 一、算法原理 见:《误差理论与测量平差基础》第六章 二、代码实现 #include <iostream> #include<Open3D\Open3D.h>int main

SandboxAQ推出量子安全“守卫军”!开源框架和加密算法元库Sandwich

Sandwich示意图&#xff08;图片来源&#xff1a;网络&#xff09; 未来几年&#xff0c;IT领域需要对当今计算机通信网络中使用的密码学协议进行一些重大更改&#xff0c;以确保它们仍然安全&#xff0c;且对未来的量子计算机具有应对能力。 其中一个关键特征称为加密敏捷性…

MySQL的安装和配置

文章目录 一、数据库介绍1.1 数据库的定义1.2 数据库的分类 二、MySQL服务器安装2.1 Windows安装2.2 Windows中重装MySQL 三、客户端连接MySQL服务器四、SQL分类 一、数据库介绍 存储数据用文件就可以了&#xff0c;为什么还要弄个数据库? 文件保存数据有以下几个缺点&#x…

延时摄影视频制作工具 LRTimelapse mac中文版特点介绍

lrTimelapse mac是一款适用于 Windows 和 macOS 系统的延时摄影视频制作软件&#xff0c;可以帮助用户创建高质量的延时摄影视频。该软件提供了直观的界面和丰富的功能&#xff0c;支持多种时间轴摄影工具和文件格式&#xff0c;并具有高度的可定制性和扩展性。 lrTimelapse ma…