一个批量爬取微博数据的神器

news/2024/11/19 0:23:59/文章来源:https://www.cnblogs.com/PeterJXL/p/18387925

100.一个批量爬取微博数据的神器

分享一个能批量下载微博图片/视频/评论的工具

‍

起因

偶尔玩玩微博，最近看到了一名专业的 coser，因此想要下载一些她的微博，方便观看，也避免以后平台倒闭/博主退坑的情况导致无法看原微博。

专业 coser：鲨鱼 SAME

‍

项目介绍

然后我在 GitHub 上搜了下，发现一个高赞项目：weibo-crawler，新浪微博爬虫。

项目地址：https://github.com/dataabc/weibo-crawler

简单摘录下项目的文档：

连续爬取一个或多个新浪微博用户（如迪丽热巴、郭碧婷）的数据，并将结果信息写入文件。写入信息几乎包括了用户微博的所有数据，主要有用户信息和微博信息两大类，前者包含用户昵称、关注数、粉丝数、微博数等等；后者包含微博正文、发布时间、发布工具、评论数等等，因为内容太多，这里不再赘述，详细内容见输出部分。

具体的写入文件类型如下：

写入 csv 文件、写入 json 文件、MySQL 数据库、MongoDB 数据库、SQLite 数据库

下载用户原创和转发微博中的原始图片、视频、Live Photo 中的视频、一级评论

‍

还可以通过自动化，定期增量爬取新微博，非常方便。

‍

实践

实操起来也很简单，官方文档写的非常详细，字数都上万了，配图也很丰富，我这里就简单说明下，其实就三步：

首先，该项目基于 Python，因此得安装 Python（具体步骤就不展开了，网上很多教程）。
然后，填写好要爬取的微博用户信息（例如用户 ID，Cookie）
运行项目：python weibo.py

具体操作文档请看官方文档了，我会在下一篇博客转载它，方便国内的读者查看（想看最新版还是建议去官网看）

‍

效果

将所有图片、视频等数据分别存储，并且都是原始文件（高清），文件名也已经重命名好了：

如果有下载失败的情况，会将情况写在 not_downloaded.txt 里（若图片全部下载成功则不会生成该文件），非常贴心。

‍

——完——

‍

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/789459.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

数据无界：大型企业如何实现多区域文件安全传输的无缝体验？

随着企业全球化发展，大型企业分支机构的分布越来越广泛，多区域文件传输需求也随之增加。目前大型企业多区域文件数据存储和传输交换现状如下： 1.文件存储现状：集中和分散并存，局部集中，整体分散； 2.文件存储管理：不同区域、分支机构、业务部门，文件存储方案差异化，各…

注意：请确保已经安装Redis和keepalived，本文不在介绍如何安装。 1、使用版本说明 Redis版本：5.0.2 Keepalived版本：1.3.5 Linux 版本：Centos7.9 查看Redis版本： /usr/local/redis/bin/redis-cli -v查看Keepalived版本信息： rpm -qa|grep keepalived 或者 keepalived -v2…

安全高效，一键搞定：Ftrans文件摆渡系统让数据流转更简单！

随着互联网技术的不断发展，网络攻击手段也不断的更新，为了防止外部攻击和内部数据泄密，高科技企业一般会实施内外网隔离，甚至在内部网络中又划分出业务网、办公网、生产网等进行隔离。但基于业务的需求，隔离网间仍存在文件传输的需求。如何通过文件摆渡系统，在保证数据安…

差模电感与共模电感总结

差模电感与共模电感总结差模干扰信号和共模干扰信号差模干扰信号是两个输入电源线之间反方向构成的电流回路信号。共模干扰信号是两个输入线上同方向与大地构成的电流回路信号。简而言之：差模信号就是两个大小相等、方向相反的信号。共模信号就是两个大小相等、方向相同…

Datawhale X 李宏毅苹果书AI夏令营深度学习进阶(二)

一.动量法在上一个博客中，我们提到了动量法，现在继续补充如图所示，红色表示负梯度方向，蓝色虚线表示前一步的方向，蓝色实线表示真实的移动量。一开始没有前一次更新的方向，完全按照梯度给指示往右移动参数。负梯度方向跟前一步移动的方向加起来，得到往右走的方向。一般…

LCA 最近公共祖先

概念最近公共祖先简称 LCA（Lowest Common Ancestor）。两个节点的最近公共祖先，就是这两个点的公共祖先里面，离根最远的那个。感觉其实看个图就懂了吧图中例子 \(lca(u,v)=x\) 这个问题理解概念不难，主要是学会如何快速求来，下面介绍三种方法。方法 1.暴力法 2. 倍增法…

ChatGPT学习之旅 (10) 系统全球化小助手

本篇我们一起来了解下如何基于ChatGPT中来帮助我们解决一些系统开发中的多语言/全球化/本地化的任务，通过给到清晰的提示词，让这些任务的解决时间缩短一半以上。大家好，我是Edison。上一篇我们写了一个运维小助手的prompt，它帮我们写一些我们开发者不太愿意做的一些运维小…

信奥一本通题陈老师解题：1086：角谷猜想

【题目描述】谓角谷猜想，是指对于任意一个正整数，如果是奇数，则乘3加1，如果是偶数，则除以2，得到的结果再按照上述规则重复处理，最终总能够得到1。如，假定初始整数为55，计算过程分别为16、8、4、2、1。程序要求输入一个整数，将经过处理得到11的过程输出来。【输入】…

信奥一本通题陈老师解题：1032：大象喝水查

【题目描述】一只大象口渴了，要喝20升水才能解渴，但现在只有一个深h厘米，底面半径为r厘米的小圆桶(h和r都是整数)。问大象至少要喝多少桶水才会解渴。【输入】输入有一行：包行两个整数，以一个空格分开，分别表示小圆桶的深h和底面半径r，单位都是厘米。【输出】输出一行…

Veeam ONE v12.2 发布下载 - 监控和分析

Veeam ONE v12.2 发布下载 - 监控和分析Veeam ONE v12.2 发布下载 - 监控和分析 Veeam Data Platform | 面向混合云和多云的备份和恢复监控和分析恢复编排请访问原文链接：https://sysin.org/blog/veeam-one-12/，查看最新版。原创作品，转载请保留出处。作者主页：sysin.…

Veeam Recovery Orchestrator v7.1 发布下载 - 恢复编排

Veeam Recovery Orchestrator v7.1 发布下载 - 恢复编排Veeam Recovery Orchestrator v7.1 发布下载 - 恢复编排 Veeam Data Platform | 面向混合云和多云的备份和恢复监控和分析恢复编排请访问原文链接：https://sysin.org/blog/veeam-recovery-orchestrator-7/，查看最新…

Adobe Media Encoder 2024 v24.6 (macOS, Windows) - 格式转换

Adobe Media Encoder 2024 v24.6 (macOS, Windows) - 格式转换Adobe Media Encoder 2024 v24.6 (macOS, Windows) - 格式转换 Acrobat、After Effects、Animate、Audition、Bridge、Character Animator、Dimension、Dreamweaver、Illustrator、InCopy、InDesign、Lightroom C…

一个批量爬取微博数据的神器

100.一个批量爬取微博数据的神器

起因

项目介绍

实践

效果

相关文章

数据无界：大型企业如何实现多区域文件安全传输的无缝体验？

Redis高可用方案：使用Keepalived实现主备双活

安全高效，一键搞定：Ftrans文件摆渡系统让数据流转更简单！

差模电感与共模电感总结

Datawhale X 李宏毅苹果书AI夏令营深度学习进阶(二)

LCA 最近公共祖先

ChatGPT学习之旅 (10) 系统全球化小助手

信奥一本通题陈老师解题：1086：角谷猜想

信奥一本通题陈老师解题：1032：大象喝水查

Veeam ONE v12.2 发布下载 - 监控和分析

Veeam Recovery Orchestrator v7.1 发布下载 - 恢复编排

Adobe Media Encoder 2024 v24.6 (macOS, Windows) - 格式转换