2024年微信公众号链接爬取

通过输入(或文件导入)公众号名称,即可爬取该公众号所有历史文章。

通过公众号官方网站调用API,打开开发者工具后发现有 

打开后发现有搜索结果的fakeid,这是每个公众号的标识。

点击某公众号后出现

 

这是具体公众号文章信息,它需要的就是fakeid,其中token是你自己公众号独有的。

打开后是这样的 

 这样就可以通过正则表达式找到所有的link,再将\替换掉,即可得到所有文章的链接,具体爬取文章哪些内容,html格式各不相同。

其中header和cookie按照自己浏览器填写即可。

from urllib.parse import quote,unquote
import requests
import os
import numpy as np
from concurrent.futures import ThreadPoolExecutor
import time
import re
import pandas as pd
import time
import json
from bs4 import BeautifulSoup
import sys
def get_articles(search_name,begin,count):sum=0header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36 Edg/121.0.0.0'}cookie={'Cookie':'RK=dp90GcuG9p; ptcz=d746c192ffbb523199183ab352d5fa9e9c910a4f3b54760f12b45adc13ae240b; qq_domain_video_guid_verify=990a13b1b7b9eee5; _qimei_uuid42=1811d111e17100b9c82a6d970b40848157bb8f5a7f; pgv_pvid=4349444734; _qimei_fingerprint=ef24df0d3d1526c851b8fd8e3e5046e1; _qimei_q36=; _qimei_h38=19c5e2dfc82a6d970b40848102000008e1811d; o_cookie=3260693694; ua_id=PE7tWJm65TXEuv2NAAAAAEH8DLqAC6U64zQAeHCWDHU=; wxuin=06761475252682; mm_lang=zh_CN; qz_gdt=s4h4gzicaaam2skd47cq; _clck=3935648545|1|fj2|0; uuid=936e5d75bad14672d72ecd9f1cddb465; rand_info=CAESIHrpTUh/dWE97s4zYr+5JmdooNE2+xgIQ7iSiyNoJNlP; slave_bizuin=3935648545; data_bizuin=3935648545; bizuin=3935648545; data_ticket=jlULryJfNpiYkVXO817h9zgmLsmmrPR9XkC+UPIpVXh6BVxUpj+NeDYKN0Fx1Hj4; slave_sid=UVVHcFduVmRmSFp5NUxxY3RSc3kxVFdGMVlGaVl0R01wR0E5UnlvSmFQb1VTeWlkSjBNVFpYc0hQdW9wc3lzWFJKNTNZNXc3bXY0dXFQWVE3dkMyU2ZlRnJNcUlsSWhDT0FsVGxJRDB5RGVXM2NYREl2aVZBZmQyS01QTktGbTFyVHQ2alZTcEpRMllLSE12; slave_user=gh_042488a75457; xid=31ef245af21c80ddc82bb852f22c5f87; rewardsn=; wxtokenkey=777; _clsk=doakr4|1707289611534|4|1|mp.weixin.qq.com/weheat-agent/payload/record'}refer={}search_url=f'https://mp.weixin.qq.com/cgi-bin/searchbiz?action=search_biz&begin=0&count=5&query={quote(search_name)}&token=726980468&lang=zh_CN&f=json&ajax=1'search_info=requests.get(search_url,headers=header,cookies=cookie)if search_info.status_code!=200:print('error!')print(search_url)sys.exit(0)search_info=search_info.json()['list']fakeid=search_info[0]['fakeid']article_url=f'https://mp.weixin.qq.com/cgi-bin/appmsgpublish?sub=list&search_field=null&begin=0&count=5&query=&fakeid={fakeid}&type=101_1&free_publish_type=1&sub_action=list_ex&token=726980468&lang=zh_CN&f=json&ajax=1'json_info=requests.get(article_url,headers=header,cookies=cookie)if json_info.status_code!=200:print('error!')print(article_url)sys.exit(0)json_info=json_info.json()['publish_page']links=re.findall(r'link.*?http:.*?#rd',json_info)for i in range(len(links)):links[i]=links[i].replace('\\','')[7:]print(links)
print('输入想要搜索的公众号名称:')
search_name=input()
get_articles(search_name,0,20)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/458488.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux【docker 设置阿里源】

文章目录 一、查看本地docker的镜像配置二、配置阿里镜像三、检查配置 一、查看本地docker的镜像配置 docker info一般没有配置过是不会出现Registry字段的 二、配置阿里镜像 直接执行下面代码即可,安装1.10.0以上版本的Docker客户端都会有/etc/docker 1.建立配置…

Vue3.4+element-plus2.5 + Vite 搭建教程整理

一、 Vue3Vite 项目搭建 说明: Vue3 最新版本已经基于Vite构建,关于Vite简介:Vite 下一代的前端工具链,前端开发与构建工具-CSDN博客 1.安装 并 创建Vue3 应用 npm create vuelatest 创建过程可以一路 NO 目前推荐使用 Vue R…

Java+微信小程序实现智慧家政系统 JAVA+Vue+SpringBoot+MySQL

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块三、系统展示四、核心代码4.1 查询家政服务4.2 新增单条服务订单4.3 新增留言反馈4.4 小程序登录4.5 小程序数据展示 五、免责说明 一、摘要 1.1 项目介绍 基于微信小程序JAVAVueSpringBootMySQL的智慧家政系统&#xff0…

阿里云游戏服务器多少钱一个月?

阿里云游戏服务器租用价格表:4核16G服务器26元1个月、146元半年,游戏专业服务器8核32G配置90元一个月、271元3个月,阿里云服务器网aliyunfuwuqi.com分享阿里云游戏专用服务器详细配置和精准报价: 阿里云游戏服务器租用价格表 阿…

2024图像消除相关论文大集合

28篇图像填充/Inpainting相关论文 1 CR-Fill: Generative Image Inpainting with Auxiliary Contextual Reconstruction ICCV2021 吐槽DeepFillv2 with CA layer,由于缺乏对缺失区域与已知区域之间对应关系的监督信号,可能无法找到合适的参考特征&…

LeetCode130:被围绕的区域(图的简化版之网格结构上的DFS)

题目 注意&#xff1a; 1 < m, n < 200 board[i][j] 为 ‘X’ 或 ‘O’ 思路 根据一般网格结构上的DFS&#xff0c;或者说岛屿问题&#xff0c;第一反应很容易想到找出所有的‘O’然后开始DFS遍历&#xff0c;改为‘X’。 但是这里有个联通的问题&#xff0c;如果这个…

使用easyExcel 定义表头 字体 格式 颜色等,定义表内容,合计

HeadStyle 表头样式注解 HeadFontStyle 表头字体样式 HeadStyle(fillPatternType FillPatternTypeEnum.SOLID_FOREGROUND, fillForegroundColor 22) HeadFontStyle(fontHeightInPoints 12) 以下为实现效果

华视 CVR-100UC 身份证读取 html二次开发模板

python读卡&#xff1a;python读卡 最近小唐应要求要开发一个前端的身份证读卡界面&#xff0c;结果华视CVR-100UC 的读取界面是在是有点&#xff0c;而且怎么调试连官方最基本的启动程序都执行不了。CertReader.ocx 已成功&#xff0c;后面在问询一系列前辈之后&#xff0c;大…

C++ 模板初阶【函数模板,类模板】

文章目录 泛型编程函数模板概念函数模板的格式函数模板的原理函数模板的实例化隐式实例化:让编译器根据实参推演模板参数的实际类型显式实例化&#xff1a;在函数名后的<>中指定模板参数的实际类型 函数模板的匹配规则 类模板概念类模板格式类模板的实例化 泛型编程 在我…

PCIE和USB 耦合电容放置位置记录- 一般放置在TX端

PCIE耦合电容位置 以下为引用内容&#xff0c;为记录而做的本篇文章&#xff1a; 1、PCIe标准里面明确规定&#xff1a;当两个设备通过连接器互联时&#xff0c;必须放置交流耦合电容到TX端&#xff1b; 2、放远放近最大的不同时高速信号传输中的介质损耗和趋肤效应不同&#…

MySQL:从基础到实践(简单操作实例)

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 下载前言一、MySQL是什么&#xff1f;二、使用步骤1.引入库2.读入数据 提交事务查询数据获取查询结果总结 下载 点击下载提取码888999 前言 在现代信息技术的世界…

电力负荷预测 | 基于LSTM、TCN的电力负荷预测(Python)

文章目录 效果一览文章概述源码设计参考资料效果一览 文章概述 电力负荷预测 | 基于LSTM、TCN的电力负荷预测(Python) 源码设计 #------------------