Python初识——小小爬虫

一、找到网页端url

  • 打开浏览器,打开百度官方网页点击图片,打开百度图片

  • 鼠标齿轮向下滑,点击宠物图片

  • 进入宠物图片网页,在网页空白处点击鼠标右键,弹出的框中最下方显示“检查”选项,点击(我是用的是edge浏览器)

  • 点击刷新之后,将鼠标放于网页端,将齿轮向下滑可以看到更新的网络日志

  • 点击一条网络日志可以看到url

可以看出,只有部分数字不同,其他相同

二、开始爬取

(1)导入请求模块

# 1.导入请求模块
from urllib import request
import json

(2)发起请求,将请求结果赋予response

# 2. 发起请求 将请求结果赋予response
page = 1
while True:res = request.urlopen(f"https://image.baidu.com/search/albumsdata?pn={30 * page}&rn=30&tn=albumsdetail&word=%E5%AE%A0%E7%89%A9%E5%9B%BE%E7%89%87&album_tab=%E5%8A%A8%E7%89%A9&album_id=688&ic=0&curPageNum={page}")page += 1

(3)获取请求返回值,此时需要解码,将类型转换为字典

# 3.获取请求返回值,解码,将类型转换为字典res = res.read().decode()res = json.loads(res)

(4)解析数据

    # 4.解析数据datas = res['albumdata']['linkData']for data in datas:image_url = data['thumbnailUrl']

(5)请求图片

# 5.请求图片res_image = request.urlopen(image_url)res_image = res_image.read()

(6)保存图片

count += 1file = open(f"{count}.jpg", "wb")file.write(res_image)file.close()if len(datas) != 30:break
print(f"总共{count}张图片")

最后,爬取到的图片就成功的保存到了本地文件夹里。

第一次清晰地直观地感受爬虫,好有趣,期待以后系统的学习!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/418398.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

记录一下uniapp 集成腾讯im特别卡(未解决)

uniapp的项目运行在微信小程序 , 安卓 , ios手机三端 , 之前这个项目集成过im,不过版本太老了,0.x的版本, 现在需要添加客服功能,所以就升级了 由于是二开 , 也为了方便 , 沿用之前的webview嵌套腾讯IM的方案 , 选用uniapp集成ui ,升级之后所有安卓用户反馈点击进去特别卡,几…

数据库的内连接和外连接

数据库的内连接和外连接 内连接: 两个或两个以上的表进行关联查询时,查询的结果集中 返回所有满足连接条件的行。 外连接: 两个或两个以上的表进行关联查询时,查询的结果集中 除了返回满足连接条件的行以外,还返回左(或右&…

搭建网站website

一.领取一个免费域名和SSL证书,和CDN 特点:支持Cloudflare CDN Cloudflare是全球知名的CDN提供商,如果你不想暴露你的源站,又想使用我们的二级域名,不需要前往Cloudflare添加域名,修改NS记录,…

使用Element中的input组件如何实现文字和输入框在一行显示

利用 <el-form-item label"商品名称&#xff1a;">标签包裹即可&#xff0c;label写提示文字 <el-form ref"form" label-width"100px"><el-form-item label"商品名称&#xff1a;"><el-input v-model"na…

CentOS7 修改主机名

目录 主机名分类静态主机名 (Static hostname)瞬态主机名 (Transient hostname)漂亮主机名 (Pretty hostname)查看主机名 修改主机名使用 hostnamectl 命令临时有效永久生效 编辑配置文件 主机名分类 在CentOS7和其他使用systemd的现代Linux发行版中&#xff0c;有三种不同类型…

Javascript简介(全部是基础)

js初识 js是一种解释性语言&#xff0c;不需要编译&#xff0c;直接由浏览器解析执行 组成 ECMAScript是一种开放的&#xff0c;被国际上广为接收的&#xff0c;标准的脚本语言规范&#xff0c;主要描述&#xff1a;语法&#xff0c;变量&#xff0c;数据类型&#xff0c;运算…

ubuntu-20.04.6-live-server-amd64安装教程-完整版

简介 Ubuntu 20.04.6 Live Server AMD64 安装教程 - 完整版" 提供了详细的指南&#xff0c;旨在帮助用户在使用 AMD64 架构的服务器上安装 Ubuntu 20.04.6 Live Server 版本。该教程包含全面的步骤和详细说明&#xff0c;使用户能够顺利完成整个安装过程&#xff0c;建立…

全网最详细丨2024年AMC8真题及答案来了

目录 前言 真题回忆 真题解析 结尾 前言 相信大家都已经知道今年AMC8出事情了吧&#xff0c;但最重要的还是要从中学到新知识。 听说今年考生被提前12分钟强制交卷了&#xff0c;肯定因为试题泄露了。 最新回复&#xff1a;我们这边已经退费了 真题回忆 需要word文档的请…

关于数据库的十道最常见的面试题

面试题一&#xff1a;用自己的话说一下什么是三范式&#xff1f;为什么要遵循三范式&#xff1f;实际开发中一定要严格遵循三范式吗&#xff1f;为什么&#xff1f; 三范式是关系型数据库中的一种规范&#xff0c;包括第一范式、第二范式和第三范式&#xff1a; 假设我们有一…

神策 CDP 获评中国软件评测中心「优秀大数据产品」

近日&#xff0c;中国软件评测中心在第十三届软件大会上揭晓了「第十五期优秀大数据产品、解决方案和案例测评结果」。神策数据基于客户旅程编排的客户数据平台&#xff08;CDP&#xff09;1.3.0 凭借出色的产品能力获评「优秀大数据产品」&#xff0c;并获得大数据基础设施类产…

PDshell16逆向PostgreSQL 工程显示字段comment备注

现状&#xff1a;当刚逆向成功的表结构是没有原来表结构中的&#xff0c;comment备注如下 然后pd逆向工程的sql已经返回了这个备注的含义 解决方案&#xff1a; 1、设置显示注释列 tools——Display Preferences…如下 勾选-按照下面得方式勾选这三个 复制这里的VBS脚本&a…

竞赛保研 机器视觉opencv答题卡识别系统

0 前言 &#x1f525; 优质竞赛项目系列&#xff0c;今天要分享的是 &#x1f6a9; 答题卡识别系统 - opencv python 图像识别 该项目较为新颖&#xff0c;适合作为竞赛课题方向&#xff0c;学长非常推荐&#xff01; &#x1f947;学长这里给一个题目综合评分(每项满分5分…