python爬虫 - 爬取图片

文章目录

    • 1、爬取图片示例1:使用 .urlretrieve() 函数
    • 2、爬取图片示例2 - 使用 open/write 函数
    • 3、爬取图片示例3
      • 3.1 使用 open/write 下载
      • 3.2 使用 urlretrieve下载

爬虫的本质:模拟对应的App,浏览器访问对应的地址获取到数据

1、爬取图片示例1:使用 .urlretrieve() 函数

urlretrieve() 方法直接将远程数据下载到本地。下面我们再来看看 urllib 模块提供的 urlretrieve() 函数。


Help on function urlretrieve in module urllib:urlretrieve(url, filename=None, reporthook=None, data=None)
import requestsfrom lxml import etree
from urllib import requestmy_url_test = 'https://www.huya.com/g/4079'url_response_data = requests.get(my_url_test)response_status = url_response_data.status_code
print(f"url_response_data_text : [{response_status}]")
if response_status != 200:   # 应答码为200,表示:查询成功print("download failed")
else:# 通过.text 可以获取到当前网页 返回的一手数据url_response_data_text = url_response_data.text# print(f"url_response_data_text : [{url_response_data_text}]")# 通过 .HTML 可以对原始数据进行清洗(解析)url_response_data_eTreeHtml = etree.HTML(url_response_data_text)print(f"url_response_data_eTreeHtml : [{url_response_data_eTreeHtml}]")# 通过 .xpath() 函数,可以从一手数据中筛选所有以 img class=‘pic‘开头的图片代码块url_response_data_pics = url_response_data_eTreeHtml.xpath('//img[@class="pic"]')print(f"url_response_data_pics : [{url_response_data_pics}]")for i in url_response_data_pics:print(f"url_response_data_pic_src1 : [{i.xpath('./@data-original')}]")print(f"url_response_data_pic_name1: [{i.xpath('./@alt')}]")pic_path = i.xpath('./@data-original')[0]pic_name = i.xpath('./@alt')[0]# 下载到本地request.urlretrieve(pic_path, r'./test001_down/'+pic_name+".jpg")

运行结果:
在这里插入图片描述

2、爬取图片示例2 - 使用 open/write 函数

from lxml import etree
import requests
import os
if __name__=="__main__":url='https://pic.netbian.com/4kyouxi/'headers={'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:2.0.1) Gecko/20100101 Firefox/4.0.1'}response=requests.get(url=url,headers=headers)response.encoding='gbk'#图片名称乱码时的处理方式page_text=response.texttree=etree.HTML(page_text)li_list=tree.xpath('//div[@class="slist"]/ul/li')if not os.path.exists('./4K游戏'):os.mkdir('./4K游戏')for li in li_list:img_src='http://pic.netbian.com'+li.xpath('./a/img/@src')[0]img_name=li.xpath('./a/img/@alt')[0]+'.jpg'img_data=requests.get(url=img_src,headers=headers).contentimg_path='4K游戏/'+img_namewith open(img_path,'wb') as fp:fp.write(img_data)print(img_name,"下载成功")

在 Python 中使用文件的关键函数是 open() 函数。

open() 函数有两个参数:文件名和模式。

有四种打开文件的不同方法(模式):

  • “r” - 读取 - 默认值。打开文件进行读取,如果文件不存在则报错。
  • “a” - 追加 - 打开供追加的文件,如果不存在则创建该文件。
  • “w” - 写入 - 打开文件进行写入,如果文件不存在则创建该文件。
  • “x” - 创建 - 创建指定的文件,如果文件存在则返回错误。

此外,您可以指定文件是应该作为二进制还是文本模式进行处理。

  • “t” - 文本 - 默认值。文本模式。
  • “b” - 二进制 - 二进制模式(例如图像)。

在这里插入图片描述虽然 open 函数也能实现文件的下载保存,但不建议使用IO操作,容易出现问题, for循环执行效率要快于with open的效率。

3、爬取图片示例3

3.1 使用 open/write 下载


from lxml import etree
import requests
from urllib import requesturl = 'http://www.haoduanzi.com/'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36',
}
url_content = requests.get(url, headers=headers).texttree = etree.HTML(url_content)div_list = tree.xpath('//div[@id="main"]/div')[2:-1]i = 0
for div in div_list:img_url = div.xpath('./div/img/@src')[0]img_content = requests.get(url=img_url, headers=headers).contentrequest.urlretrieve(url=img_url, filename='img' + str(i) + '.jpg')i += 1

3.2 使用 urlretrieve下载


from lxml import etree
import requests
from uuid import uuid4
import time
from urllib import requesturl = 'http://www.haoduanzi.com/'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36',
}
url_content = requests.get(url, headers=headers).texttree = etree.HTML(url_content)div_list = tree.xpath('//div[@id="main"]/div')[2:-1]
filename = uuid4()
# i = 0
for div in div_list:img_url = div.xpath('./div/img/@src')[0]img_content = requests.get(url=img_url, headers=headers).content# request.urlretrieve(url=img_url, filename='img' + str(i) + '.jpg')# i += 1time.sleep(2)with open(r'C:\jupyter\day02\%s.jpg' % filename, 'wb') as f:f.write(img_content)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/619872.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何进行计量经济分析

计量经济分析是定量分析的常用方法,在经济分析领域有着广泛且重要的应用。计量经济分析以一定的经济理论和统计数据为基础,运用数学、统计学相关方法,通过建立计量模型,并运用软件进行操作,从而实现对经济问题的定量分…

HTML制作跳动的心形网页

作为一名码农 也有自己浪漫的小心思嗷~ 该网页 代码整体难度不大 操作性较强 祝大家都幸福hhhhh 效果成品&#xff1a; 全部代码&#xff1a; <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN"> <HTML><HEAD><TITLE> 一个…

Linux C应用编程:MQTT物联网

1 MQTT通信协议 MQTT&#xff08;Message Queuing Telemetry Transport&#xff0c;消息队列遥测传 输&#xff09;是一种基于客户端-服务端架构的消息传输协议&#xff0c;如今&#xff0c;MQTT 成为了最受欢迎的物联网协议&#xff0c;已广泛应用于车联网、智能家居、即时聊…

Res2Net网络

Res2Net网络 摘要Abstract1. Res2Net网络1.1 文献摘要1.2 背景1.3 创新点1.4 网络结构1.5 实验1.5.1 在ImageNet数据集上进行实验1.5.2 在CIFAR数据集上进行实验 2. Res2Net代码实现3. 总结 摘要 Res2Net是一种神经网络架构&#xff0c;旨在改善类似ResNet的网络在计算机视觉任…

智能生活新体验:小米香薰加湿器技术解码

在现代家居生活中&#xff0c;科技与舒适性日益交织&#xff0c;智能家居产品成为提升生活品质的重要工具。小米香薰加湿器作为一款集科技与生活美学于一体的产品&#xff0c;其独特的设计和多功能性受到了广泛欢迎。今天&#xff0c;我们就来详细拆解这款融合了科技与香薰元素…

配置linux的oracle 21c启停服务

一、配置启停 1、使用root用户登陆 su - root 2、修改oratab文件 修改oratab文件&#xff0c;将红框里面的N改为“Y”&#xff0c;使启停脚本能够生效 vi /etc/oratab 3、验证 配置好后就能够使用 dbshut 停止服务 和 dbstart 启动服务 了 2.1启动服务 su - oracle dbstart…

【最新整理】3ds Max 大佬都在用的10款爆火插件推荐!

在3D建模和渲染领域&#xff0c;熟悉使用各种插件已经成为了大佬们的标配&#xff0c;而3ds Max作为最受欢迎的三维建模软件之一&#xff0c;更是有着丰富的插件资源。今天&#xff0c;小编将为大家盘点一下最新整理的10款爆火插件&#xff0c;这些插件不仅能够提升你的工作效率…

01 static 代码块 继承 权限修饰符 多态 抽象类 接口 枚举

static、代码块、懒汉单例、继承、权限修饰符 static静态关键字 静态成员变量会在堆内存中存储数据(单独存储,并不会存储在new出来的对象中) static是什么&#xff0c;static修饰成员变量的用法 static是什么 static是静态的意思&#xff0c;可以用来修饰成员变量、成员方法…

电子印章管理软件

电子印章管理软件主要用于企业或机构对电子印章的生成、存储、使用、权限管理、审计追踪等全过程进行集中、安全、高效的管控。以下是一些值得推荐的电子印章管理软件&#xff1a; e-章宝(易友EU3000智能盖章软件) 特点&#xff1a;所见即得操作的快速在pdf文件上盖电子印章和电…

【攻防世界】ics-07

<?php session_start();if (!isset($_GET[page])) {show_source(__FILE__);die(); }if (isset($_GET[page]) && $_GET[page] ! index.php) {include(flag.php); }else {header(Location: ?pageflag.php); } <?phpif ($_SESSION[admin]) {$con $_POST[con];$…

(踩坑)Please refer to 异常和Error creating bean with name 异常

一、Please refer to 异常 如图所示&#xff0c;在使用maven构建项目的时候&#xff0c;如果提示该错误&#xff0c;则可能是xml配置文件有问题或者测试类等。但是没有明确的异常信息&#xff0c;所以做以下小改动&#xff0c;可以查看异常信息。 在IDEA工具中&#xff0c;打…

PTA 编程题(C语言)-- 特殊a串数列求和

题目标题&#xff1a; 判断素数 题目作者&#xff1a;颜晖 浙大城市学院 给定两个均不超过9的正整数a和n&#xff0c;要求编写程序求aaaaaa⋯aa⋯a&#xff08;n个a&#xff09;之和。 输入格式&#xff1a; 输入在一行中给…