Python异步编程--获取girlypic写真集

前言

在日常生活中,无论是网络配置、文件整理、web开发还是工具,时常用到Python写些脚本。

这次主要是分享下异步编程的经验,就拿获取girlypic的图片举例吧,也希望能给一些同学带来思考。

  • 使用argparse而不是os.args,这个库能够优雅地获取命令行参数,不再需要os.args判断个数或者类型。
  • 使用pathlib而不是os.path,这个库能够高效地处理各种文件操作,创建、修改、删除、路径拼接等。
  • 使用logging而不是print,个人更加习惯用日志的方式打印信息。
  • 使用aiohttp而不是requests,当你决定用异步的方式发送网络请求时,就用这个库吧。
  • 使用aiofiles而不是open,当你决定用异步的方式读写文件时,就用这个库吧。
  • 使用lxml,这个库能够使用Xpath语法帮助我们解析html内容。
  • 使用asyncio.create_task而不是for循环,当一组任务不是顺序相关时,不必循环await执行,通过创建任务的方式异步执行。
  • 使用类型提示,标注变量的类型,方便IDE检索。

以上是常用的库或者提示,没有好坏之分,主要是看个人的习惯,一旦一处异步,那就处处异步

Python版本

当前稳定版本是:3.10.11

Python依赖

aiohttp==3.8.6
aiofiles==23.2.1
lxml==4.9.3

Python源码

import asyncio
import logging
import argparse
from pathlib import Pathimport aiohttp
import aiofiles
from lxml import etreelogger = logging.getLogger()
logger.setLevel(logging.INFO)
formatter = logging.Formatter('%(asctime)s - %(levelname)s - %(message)s')
console = logging.StreamHandler()
console.setLevel(logging.INFO)
console.setFormatter(formatter)
logger.addHandler(console)PROXY = "http://127.0.0.1:10808"
SAVE_FOLDER = Path("Downloads")
PICTURE_HOST = "https://girlygirlpic.com"
PICTURE_GATHER = PICTURE_HOST + "/ax/"
PICTURE_SEARCH = PICTURE_HOST + "/sx/"
PICTURE_URL = '//div[@class="post-media-body"]//a[@class="figure-link os-lightbox-activator"]/@href'
ALBUM_NAMES = '//div[@class="post-content-body"]/h4[@class="post-title entry-title"]/a[@class="on-popunder"]'
HEADER = {"Origin": PICTURE_HOST,"Connection": "close","Cookie": "_user_language=Cn","X-Requested-With": "XMLHttpRequest","User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:109.0) Gecko/20100101 Firefox/115.0"
}async def download_picture(url: str, save_folder: Path) -> None:async with aiohttp.ClientSession() as session:try:async with session.get(url, proxy=PROXY, headers=HEADER) as response:picture_name = url[url.rfind("/") + 1:]async with aiofiles.open(save_folder / picture_name, "wb") as handle:async for chunk in response.content.iter_chunked(1024):await handle.write(chunk)except Exception as exception:logger.error(f"{exception} [URL] {url}")async def parse_album(url: str, save_folder: Path) -> None:album_id = url[url.rfind("/") + 1:]header = {**HEADER, **{"Referer": url}}async with aiohttp.ClientSession() as session:requests_body = {"album_id": album_id}async with session.post(PICTURE_GATHER, json=requests_body, proxy=PROXY, headers=header) as response:html_content = await response.text()image_href = etree.HTML(html_content).xpath(PICTURE_URL)logger.info(f"{len(image_href):03d} photos of album [{save_folder.name}]")task_list = [asyncio.create_task(download_picture(pic_url, save_folder)) for pic_url in image_href]await asyncio.wait(task_list) if len(task_list) > 0 else Nonelogger.info(f"album saved [{save_folder.name}]")async def get_albums(name: str) -> None:async with aiohttp.ClientSession() as session:requests_body = {"search_keys_tag": name}async with session.post(PICTURE_SEARCH, json=requests_body, proxy=PROXY, headers=HEADER) as response:html_content = await response.text()album_content = etree.HTML(html_content).xpath(ALBUM_NAMES)logger.info(f"{len(album_content):03d} albums about {name}")task_list = []for album in album_content:href = album.get("href")text = album.textsave_folder = SAVE_FOLDER / name / textsave_folder.mkdir(parents=True) if not save_folder.exists() else Nonetask_list.append(asyncio.create_task(parse_album(href, save_folder)))await asyncio.wait(task_list) if len(task_list) > 0 else Noneasync def main(names: [str]) -> None:await asyncio.wait([asyncio.create_task(get_albums(name)) for name in names])logger.info("done")if __name__ == "__main__":parser = argparse.ArgumentParser(description="download pictures")parser.add_argument("name", type=str, nargs='+', help="girls name list")args = parser.parse_args()asyncio.run(main(args.name))

其中PICTURE_HOST就是域名,需要科学访问,所以PROXY自己配置吧。

运行方法很简单:python main.py xxxx xxxx xxxx,其中xxxx为姓名,多个人名按照空格隔开。

获取完毕后会在当前创建一个Downloads目录,图片会按照姓名以及相册名归类在里面。

运行结果

这就是异步的魅力,同步的方式只能一次发送一个请求,然后阻塞在网络IO上,异步则会在这种情况下让出CPU资源执行其他的代码。

效果图不方便放,大家可以自己试试

图片过多,访问过于频繁时,请求有可能会被BAN,所以可以适当地延迟下载任务,由于是异步,就不要用time.sleep()了,而是要用asyncio.sleep()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/162480.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[量化投资-学习笔记006]Python+TDengine从零开始搭建量化分析平台-MACD

在上一章节介绍了 EMA 均线的计算,本节主要介绍均线的进化形态之一:MACD MACD (Moving Average Convergence / Divergence) 指数平滑移动平均线。MACD 是通过计算不同时间的 EMA 的差值俩判断价格趋势。 MACD 包括 3 个值: 长短期 EMA 差值…

ARMday02(汇编语法、汇编指令)

汇编语法 汇编文件中的内容 1.伪操作:在汇编程序中不占用存储空间,但是可以在程序编译时起到引导和标识作用 .text .global .glbal .if .else .endif .data .word.... 2.汇编指令:每一条汇编指令都用来标识一个机器码,让计算机做…

NOIP2023模拟12联测33 D. 滈葕

NOIP2023模拟12联测33 D. 滈葕 文章目录 NOIP2023模拟12联测33 D. 滈葕题目大意思路code 题目大意 思路 放一段题解的材料 ABO 血型系统是血型系统的一种,把血液分为 A,B,AB,O 四种血型。血液由红细胞和血清等组成,红细胞表面 有凝集原,血清…

产品经理墨刀学习----注册页面

我们做的产品是一个校园论坛学习开发系统,目前才开始学习。 (一)流程图 (二)简单墨刀设计--注册页面 (1)有账号 (a)直接登录: (b)忘…

2023_11_6 每日半小时 SQL 刷题

文章目录 1. 查询所有列题目描述SQL 语句编写 2. 查询多列题目描述SQL 语句编写 3. 查询结果去重题目描述SQL 语句编写 4. 查询结果限制返回行数题目描述SQL 语句编写 5. 将查询后的列重新命名题目描述SQL 语句编写 语法小总结 1. 查询所有列 题目链接:SQL1 查询所…

jbase编译与部署的优化

上一篇的演示只是涉及自动编译业务脚本。演示时候工程编译是超级慢的。因为把静态资源放在了Web工程下,每次编译都要拷贝,运行起码是1分钟,不能忍受,为此思考工程结构改解决这个问题,顺带方便开发的发布。运行WebLoade…

C#知识总结 基础篇(下)

目录 5类和继承 5.1类继承 5.2访问继承的成员 5.3屏蔽基类的成员 5.4访问基类的成员 5.5虚方法与覆写方法 5.6构造函数的执行顺序 5.7成员访问修饰符 5.8抽象类 5.9密封类与静态类 6.表达式与运算符 6.1运算符和重载 7.结构 7.1结构体的感念。 7.2结构构造函数与…

路由器基础(十一):ACL 配置

访问控制列表 (Access Control List,ACL) 是目前使用最多的访问控制实现技术。访问控制列表是路由器接口的指令列表,用来控制端口进出的数据包。ACL适用于所有的被路由协议,如IP、IPX、AppleTalk 等。访问控制列表可以分为基本访问控制列表和高级访问控制…

Tomcat,jdk下载配置(发布项目)

Tomcat,jdk下载, 远程连接 启动以下服务 高级设置 允许别人连接进来 网上搜索jdk下载即可 双击下一步即可 下一步 输入java,看有没有安装成功 这是安装成功的 Tomcat就可以安装了 和以上操作一样,在网上下载安装包,…

后端接口接收对象和文件集合,formdata传递数组对象

0 问题 后端接口需要接收前端传递过来的对象和文件集合;对象中存在数组对象 1 前端和后端 前端只能使用formdata来传递参数,后端不使用RequestBody注解 2 formdata传递数组对象 2.1 多个参数对象数组 addForm: {contactInfo: [{contactPerson: ,…

【漏洞复现】weblogic-SSRF漏洞

感谢互联网提供分享知识与智慧,在法治的社会里,请遵守有关法律法规 文章目录 漏洞测试注入HTTP头,利用Redis反弹shell 问题解决 Path : vulhub/weblogic/ssrf 编译及启动测试环境 docker compose up -dWeblogic中存在一个SSRF漏洞&#xff0…

【学习草稿】

【数据分析】 1、相关性分析 对变量之间相关关系的分析&#xff0c;即相关性分析。其中比较常用的是线性相关分析&#xff0c;用来衡量它的指标是线性相关系数&#xff0c;又叫皮尔逊相关系数&#xff0c;通常用r表示&#xff0c;取值范围是[-1,1]。 r的绝对值<0.3 ,低度线性…