一个批量爬取微博数据的神器

news/2024/11/19 0:23:59/文章来源:https://www.cnblogs.com/PeterJXL/p/18387925

100.一个批量爬取微博数据的神器

分享一个能批量下载微博图片/视频/评论的工具

起因

偶尔玩玩微博,最近看到了一名专业的 coser,因此想要下载一些她的微博,方便观看,也避免以后平台倒闭/博主退坑的情况导致无法看原微博。

专业 coser:鲨鱼 SAME

项目介绍

然后我在 GitHub 上搜了下,发现一个高赞项目:weibo-crawler,新浪微博爬虫。

项目地址:https://github.com/dataabc/weibo-crawler

简单摘录下项目的文档:

连续爬取一个或多个新浪微博用户(如迪丽热巴、郭碧婷)的数据,并将结果信息写入文件。写入信息几乎包括了用户微博的所有数据,主要有用户信息和微博信息两大类,前者包含用户昵称、关注数、粉丝数、微博数等等;后者包含微博正文、发布时间、发布工具、评论数等等,因为内容太多,这里不再赘述,详细内容见输出部分。

具体的写入文件类型如下:

  • 写入 csv 文件、写入 json 文件、MySQL 数据库、MongoDB 数据库、SQLite 数据库​
  • 下载用户原创和转发微博中的原始图片、视频、Live Photo 中的视频、一级评论

还可以通过自动化,定期增量爬取新微博,非常方便。

实践

实操起来也很简单,官方文档写的非常详细,字数都上万了,配图也很丰富,我这里就简单说明下,其实就三步:

  • 首先,该项目基于 Python,因此得安装 Python(具体步骤就不展开了,网上很多教程)。
  • 然后,填写好要爬取的微博用户信息(例如用户 ID,Cookie)
  • 运行项目:python weibo.py

具体操作文档请看官方文档了,我会在下一篇博客转载它,方便国内的读者查看(想看最新版还是建议去官网看)

效果

将所有图片、视频等数据分别存储,并且都是原始文件(高清),文件名也已经重命名好了:

如果有下载失败的情况,会将情况写在 not_downloaded.txt 里(若图片全部下载成功则不会生成该文件),非常贴心。

——完——

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/789459.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据无界:大型企业如何实现多区域文件安全传输的无缝体验?

随着企业全球化发展,大型企业分支机构的分布越来越广泛,多区域文件传输需求也随之增加。目前大型企业多区域文件数据存储和传输交换现状如下: 1.文件存储现状:集中和分散并存,局部集中,整体分散; 2.文件存储管理:不同区域、分支机构、业务部门,文件存储方案差异化,各…

Redis高可用方案:使用Keepalived实现主备双活

注意:请确保已经安装Redis和keepalived,本文不在介绍如何安装。 1、使用版本说明 Redis版本:5.0.2 Keepalived版本:1.3.5 Linux 版本:Centos7.9 查看Redis版本: /usr/local/redis/bin/redis-cli -v查看Keepalived版本信息: rpm -qa|grep keepalived 或者 keepalived -v2…

安全高效,一键搞定:Ftrans文件摆渡系统让数据流转更简单!

随着互联网技术的不断发展,网络攻击手段也不断的更新,为了防止外部攻击和内部数据泄密,高科技企业一般会实施内外网隔离,甚至在内部网络中又划分出业务网、办公网、生产网等进行隔离。但基于业务的需求,隔离网间仍存在文件传输的需求。如何通过文件摆渡系统,在保证数据安…

差模电感与共模电感总结

差模电感与共模电感总结 差模干扰信号和共模干扰信号 差模干扰信号是两个输入电源线之间反方向构成的电流回路信号。 共模干扰信号是两个输入线上同方向与大地构成的电流回路信号。 简而言之: 差模信号就是两个大小相等、方向相反的信号。 共模信号就是两个大小相等、方向相同…

Datawhale X 李宏毅苹果书AI夏令营深度学习进阶(二)

一.动量法 在上一个博客中,我们提到了动量法,现在继续补充如图所示,红色表示负梯度方向,蓝色虚线表示前一步的方向,蓝色实线表示真实的移动量。一开始没有前一次更新的方向,完全按照梯度给指示往右移动参数。负梯度方向跟前一步移动的方向加起来,得到往右走的方向。一般…

LCA 最近公共祖先

概念 最近公共祖先简称 LCA(Lowest Common Ancestor)。两个节点的最近公共祖先,就是这两个点的公共祖先里面,离根最远的那个。 感觉其实看个图就懂了吧图中例子 \(lca(u,v)=x\) 这个问题理解概念不难,主要是学会如何快速求来,下面介绍三种方法。 方法 1.暴力法 2. 倍增法…

ChatGPT学习之旅 (10) 系统全球化小助手

本篇我们一起来了解下如何基于ChatGPT中来帮助我们解决一些系统开发中的多语言/全球化/本地化的任务,通过给到清晰的提示词,让这些任务的解决时间缩短一半以上。大家好,我是Edison。 上一篇我们写了一个运维小助手的prompt,它帮我们写一些我们开发者不太愿意做的一些运维小…

信奥一本通题陈老师解题:1086:角谷猜想

​ 【题目描述】谓角谷猜想,是指对于任意一个正整数,如果是奇数,则乘3加1,如果是偶数,则除以2,得到的结果再按照上述规则重复处理,最终总能够得到1。如,假定初始整数为55,计算过程分别为16、8、4、2、1。程序要求输入一个整数,将经过处理得到11的过程输出来。【输入】…

信奥一本通题陈老师解题:1032:大象喝水查

​ 【题目描述】一只大象口渴了,要喝20升水才能解渴,但现在只有一个深h厘米,底面半径为r厘米的小圆桶(h和r都是整数)。问大象至少要喝多少桶水才会解渴。【输入】输入有一行:包行两个整数,以一个空格分开,分别表示小圆桶的深h和底面半径r,单位都是厘米。【输出】输出一行…

Veeam ONE v12.2 发布下载 - 监控和分析

Veeam ONE v12.2 发布下载 - 监控和分析Veeam ONE v12.2 发布下载 - 监控和分析 Veeam Data Platform | 面向混合云和多云的 备份和恢复 监控和分析 恢复编排 请访问原文链接:https://sysin.org/blog/veeam-one-12/,查看最新版。原创作品,转载请保留出处。 作者主页:sysin.…

Veeam Recovery Orchestrator v7.1 发布下载 - 恢复编排

Veeam Recovery Orchestrator v7.1 发布下载 - 恢复编排Veeam Recovery Orchestrator v7.1 发布下载 - 恢复编排 Veeam Data Platform | 面向混合云和多云的 备份和恢复 监控和分析 恢复编排 请访问原文链接:https://sysin.org/blog/veeam-recovery-orchestrator-7/,查看最新…

Adobe Media Encoder 2024 v24.6 (macOS, Windows) - 格式转换

Adobe Media Encoder 2024 v24.6 (macOS, Windows) - 格式转换Adobe Media Encoder 2024 v24.6 (macOS, Windows) - 格式转换 Acrobat、After Effects、Animate、Audition、Bridge、Character Animator、Dimension、Dreamweaver、Illustrator、InCopy、InDesign、Lightroom C…