实战干货:用 Python 批量下载百度图片!

为了做一个图像分类的小项目,需要制作自己的数据集。要想制作数据集,就得从网上下载大量的图片,再统一处理。

这时,一张张的保存下载,就显得很繁琐。那么,有没有一种方法可以把搜索到的图片直接下载到本地电脑中呢?

有啊!用python吧!

我以“泰迪”、“柯基”、“拉布拉多”等为关键词,分别下载了500张图片。下一篇,我打算写一个小狗分类器,不知道各位意见如何!

结果演示:

动图封面

首先,打开百度图片首页,注意下图url中的index

接着,把页面切换成传统翻页版(flip),因为这样有利于我们爬取图片!

对比了几个url发现,pn参数是请求到的数量。通过修改pn参数,观察返回的数据,发现每页最多只能是60个图片。

注:gsm参数是pn参数的16进制表达,去掉无妨

然后,右键检查网页源代码,直接(ctrl+F)搜索 objURL

这样,我们发现了需要图片的url了。

2.把图片链接保存到本地

现在,我们要做的就是将这些信息爬取出来。注:网页中有objURL,hoverURL…但是我们用的是objURL,因为这个是原图那么,如何获取objURL?用正则表达式!那我们该如何用正则表达式实现呢?其实只需要一行代码…

results = re.findall('"objURL":"(.*?)",', html) 

核心代码:

1.获取图片url代码:

# 获取图片url连接
def get_parse_page(pn,name):for i in range(int(pn)):# 1.获取网页print('正在获取第{}页'.format(i+1))# 百度图片首页的url# name是你要搜索的关键词# pn是你想下载的页数url = 'https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=%s&pn=%d' %(name,i*20)headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4843.400 QQBrowser/9.7.13021.400'}# 发送请求,获取相应response = requests.get(url, headers=headers)html = response.content.decode()# print(html)# 2.正则表达式解析网页# "objURL":"http://n.sinaimg.cn/sports/transform/20170406/dHEk-fycxmks5842687.jpg"results = re.findall('"objURL":"(.*?)",', html) # 返回一个列表# 根据获取到的图片链接,把图片保存到本地save_to_txt(results, name, i)

2.保存图片到本地代码:

# 保存图片到本地
def save_to_txt(results, name, i):j = 0# 在当目录下创建文件夹if not os.path.exists('./' + name):os.makedirs('./' + name)# 下载图片for result in results:print('正在保存第{}个'.format(j))try:pic = requests.get(result, timeout=10)time.sleep(1)except:print('当前图片无法下载')j += 1continue# 可忽略,这段代码有bug# file_name = result.split('/')# file_name = file_name[len(file_name) - 1]# print(file_name)## end = re.search('(.png|.jpg|.jpeg|.gif)$', file_name)# if end == None:#     file_name = file_name + '.jpg'# 把图片保存到文件夹file_full_name = './' + name + '/' + str(i) + '-' + str(j) + '.jpg'with open(file_full_name, 'wb') as f:f.write(pic.content)j += 1

核心代码:

pic = requests.get(result, timeout=10)

f.write(pic.content)3.主函数代码:

# 主函数
if __name__ == '__main__':name = input('请输入你要下载的关键词:')pn = input('你想下载前几页(1页有60张):')get_parse_page(pn, name)

使用说明:

# 配置以下模块
import requests 
import re
import os
import time# 1.运行 py源文件
# 2.输入你想搜索的关键词,比如“柯基”、“泰迪”等
# 3.输入你想下载的页数,比如5,那就是下载 5 x 60=300 张图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/326323.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

指定linux文件夹下所有文件赋权命令“chmod -R 755”

仓库:Ai-trainee/GPT-Prompts-Hub 下面我们假设要为:/opt/robot/lib/robot_control/下所有子文件赋权 如果要为 robot_control 目录中的所有文件分配权限(在 Linux 术语中也称为“更改文件权限”或“chmod”),则可以…

HTML的简单介绍

文章目录 1. HTML1.1 HTML 基础认识1.2 快速生成代码框架1.3 HTML 基础标签 1. HTML 1.1 HTML 基础认识 什么是HTML呢? HTML叫做超文本标记语言。超文本:例如图片,视频,文本,声音,表格,链接等…

大语言模型LLM微调技术:Prompt Tuning

1 预训练语言模型概述 1.1 预训练语言模型的发展历程 截止23年3月底,语言模型发展走过了三个阶段: 第一阶段 :设计一系列的自监督训练目标(MLM、NSP等),设计新颖的模型架构(Transformer&#…

网络协议

一、 网络协议 1.1 网络模型 1.1.1 OSI七层模型 开放系统互联参考模型(Open System Interconnect)是国际标准化组织(ISO)制订的一个用于计算机或通信系统间互联的标准体系。采用七层结构,自下而上依次为:…

七、HTML 文本格式化

一、HTML 文本格式化 加粗文本斜体文本电脑自动输出 这是 下标 和 上标 <!DOCTYPE html> <html><head><meta charset"utf-8"><title>HTML文本格式化</title> </head><body><b>加粗文本</b><br>…

李宏毅机器学习第二十四周周报 Self-attention ConvLSTM

文章目录 week 24 Self-attention ConvLSTM for Spatiotemporal Prediction摘要Abstract一、机器学习二、文献阅读1. 题目2. abstract3. 网络架构3.1基础模型3.2自注意力记忆模块3.3Self-Attention ConvLSTM 4. 文献解读4.1 Introduction4.2 创新点4.3 实验过程4.3.1实现4.3.2数…

玩转Python:用Python处理文档,5个必备的库,特别实用,附代码

在Python中&#xff0c;有几个流行的库用于处理文档&#xff0c;包括解析、生成和操作文档内容。以下是一些常用的库及其简介和简单的代码示例&#xff1a; PyPDF2 - 用于处理PDF文件。 简介&#xff1a;PyPDF2是一个纯Python库&#xff0c;用于分割、合并、转换和提取PDF文件中…

windows 查看所有端口占用情况

winR&#xff0c;调出cmd窗口&#xff1a; 输入命令 netstat -ano 内容太多&#xff0c;显示不全&#xff0c;怎么办? 输入下面命令 netstat -ano > d:\1.log 在d盘根目录下就产生了 输出文件 打开可以看到如下内容 活动连接协议 本地地址 外部地址 状…

CHS_01.1.1.1+1.1.3+操作系统的概念、功能

CHS_01.1.1.11.1.3操作系统的概念、功能 操作系统的概念和定义那我们看一下我们现在所使用的电脑是怎么样一步一步变成我们现在看到的这个样子的操作系统 它是计算机系统当中最基本的系统软件 操作系统 它要向上层提供方便应用的服务 这是什么意思呢我们先来看第一种联机命令接…

基于java,springboot的学生成绩管理系统的设计与实现

背景 本文主要根据目前信息技术发展现状结合人们对于学生成绩管理引出开发学生成绩管理系统的必要性。然后根据管理员及学生、教师需求指定需求分析和可行性分析&#xff0c;并介绍应用到的相应技术&#xff0c;包括java技术&#xff0c;B/S结构等文中已做相关介绍&#xff0c…

建站指南,如何将拥有的域名自定义链接到wordpress

关于Dynadot Dynadot是通过ICANN认证的域名注册商&#xff0c;自2002年成立以来&#xff0c;服务于全球108个国家和地区的客户&#xff0c;为数以万计的客户提供简洁&#xff0c;优惠&#xff0c;安全的域名注册以及管理服务。 在Dynadot上&#xff0c;我们可已经账户中管理的…

大学物理-实验篇——测量误差与数据处理(测量分类、误差、有效数字、逐差法)

目录 测量分类 测量次数角度 测量条件角度 误差 误差分类 系统误差 随机误差 异常值 误差描述 精密度&#xff08;Precision&#xff09; 正确度&#xff08;Trueness&#xff09; 准确度/精确度&#xff08;Accuracy&#xff09; 随机误差的处理 直接测量 算术…