爬取Microsoft Bing网站图片-编程知识

爬取Microsoft Bing网站图片

news/2025/3/12 13:21:41/文章来源:https://www.cnblogs.com/CodeCraftsMan/p/18767334

说明：
这个小案例主要是访问Microsoft Bing网站去爬取“车牌”图片,代码写的时候不规范，但是效果还行

文件结构为下图：

具体思路

#爬取html.py
import requests
import time
from tqdm import tqdm
import os
url='https://cn.bing.com/images/async'
headers={'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/134.0.0.0 Mobile Safari/537.36 Edg/134.0.0.0',}
# first=input('请输入要爬取的图片数量：')
# count=input('请输入要爬取的图片数量：')params={'q':'车牌',
'first': 13,
'count': 12,#爬取图片的数量，不用改动
'cw': 437,
'ch': 603,
'relp': 12,
'datsrc': 'I',
'layout': 'ColumnBased_Landscape',
'apc': 0,
'imgbf': 'DfCtqwgAAACQAQAAAAAAAAAAAAAFAAAAsUuBIONfTNlAgBAASAEAQgAQIFEABiAGIBgAgNDAoQAIUAAIgUYIAAiAQCAAABIiIBgIIAAAACkCAAAAAAAAAA==',
'mmasync': 2,
'dgState': 'c*2_y*725s715_i*13_w*204',
'IG': '32F3E4B3953D4FFCB5B4E5EDB527C8EC',
'SFX': 2,#页数
'iid': 'images.5306',
}
if not os.path.exists('./chepai_html'):os.mkdir('./chepai_html')
for i in tqdm(range(3)):#这里遍历的数字越大爬取的html文件就越多response=requests.get(url=url,headers=headers,params=params)time.sleep(3)chepai_html=response.textwith open(f'./chepai_html/chepai'+f'_{i}'+'.html','w',encoding='utf-8') as fp:fp.write(chepai_html)params['first']+=params['count']params['SFX']+=1params['count']=35

#处理html文件并爬取图片.pyfrom lxml import etree
import requests
import os
import re
from tqdm import tqdm
def load_img(html_name):headers={'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/134.0.0.0 Mobile Safari/537.36 Edg/134.0.0.0',}with open(f'./chepai_html/{html_name}',encoding='utf-8') as f:text=f.read()tree=etree.HTML(text)img_src_list=tree.xpath('//img/@data-src')p=re.compile(r'https.*/OIP-C\.(?P<name>.*)\?.*')if not os.path.exists('./image_dir'):os.mkdir('./image_dir')for url in img_src_list:response=requests.get(url,headers=headers).contentwith open('./image_dir/'+p.search(url).group('name')+'.jpg','wb') as f:f.write(response)print('end')for html_name in tqdm(os.listdir('./chepai_html')):load_img(html_name)

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/897669.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

打开组策略，提示找不到资源$(string.WHFB_DisablePostLogonCredentialCaching)(在属性 displayName 中引|用)

情况 win11家庭版不提供组策略，因此我使用了网络上提供的命令进行开启。开启后使用win自带的搜索，搜索组策略或是gpedit都没有反应，使用命令行输入gpedit可以正常跳出窗口，然而打开组策略提示如下。未解决 https://bbs.pcbeta.com/viewthread-1688611-1-1.html https://an…

Processing (Java) 中实现2D任意图形的鼠标悬停检测 2D射线检测模拟按钮点击事件

引言如果使用Processing开发应用，画面中需要设定一些按钮，而且这些按钮是不规则图形样式，甚至是以一张图片形式呈现，如何判定其轮廓，定义悬停事件、点击事件是非常核心的算法需求。本文浅析这一问题的通用解决方案。因为Processing是Java衍生语言，同样适合java语言体系。…

运行窗口无法打开软件程序的解决办法

事情起因：　　本人安装了 Notepad-- 文本编辑软件，但是通过Win+R，打开运行窗口，输入Notepad-- 无法打开该软件；报错如下：解决办法　　此电脑-属性-高级系统设置-高级-环境变量　　在系统变量里，找到 Path 变量添加软件安装路径，并上移确定保存，电脑重启，系统环…

牛客题解 | 为数据集行创建复合超向量

牛客题库题解题目题目链接复合超向量是一种将多个向量组合成一个向量的方法，其计算公式为： \[composite\ hypervector = \sum_{i=1}^{n} w_i \times v_i \]其中，$w_i$ 是权重，$v_i$ 是向量。在本题中，这是一个使用超维计算（HDC）的任务，需要通过以下步骤处理数据…

【设计模式】从事件驱动到即时更新：掌握观察者模式的核心技巧

概述定义：又被称为发布-订阅（Publish/Subscribe）模式，它定义了一种一对多的依赖关系，让多个观察者对象同时监听某一个主题对象。这个主题对象在状态变化时，会通知所有的观察者对象，使他们能够自动更新自己。结构在观察者模式中有如下角色：Subject：抽象主题（抽象被…

【设计模式】探索状态模式在现代软件开发中的应用

概述【例】通过按钮来控制一个电梯的状态，一个电梯有开门状态，关门状态，停止状态，运行状态。每一种状态改变，都有可能要根据其他状态来更新处理。例如，如果电梯门现在处于运行时状态，就不能进行开门操作，而如果电梯门是停止状态，就可以执行开门操作。类图如下：代码…

团队展示（组长：金帝彪）

一、团队介绍 1.1 团队概况 1.1.1 博客展示链接团队名称，彩虹小分队 https://www.cnblogs.com/JINjin20040207 1.1.2 团队项目描述健康体重管理平台 1.1.3 队员风采姓名:金帝彪风格：谋定后动擅长的技术：业务分析编程的兴趣：C 希望的软工角色：业务分析师一句话宣言：…

3.12 数字逻辑电路

1.时序逻辑电路 1.1 与组合逻辑电路（比如译码器，多路选择器，全加法器）的区别：时许逻辑电路可以存储信息 1.2 基本存储元件 1.2.1 RS锁存器（存储一个byte位的信息）（低电频使能） R:reset复位;S:set置位 R和S是两个输入端，A和B希望是两个取反状态当S=0，表示要置位（低…

day:19 html实战

一、认识标签 1、标题标题 h1--h6 格式： <!doctype html>认识标签第一大标题第二大标题第三大标题第四大标题第五大标题第六大标题 </body>2、常用标签代码：常用标签段落标签,也叫p标签斜体标签，也叫em标签 b标签，也是加粗斜体标签加粗标签下划线删…

Properties-读取配置文件中的内容

读取配置文件中的内容Properties-读取配置文件中的内容新建子项目properties 修改POM 父POM中加上子项目module。子项目依赖父项目，打包方式jar。引入spring-boot-configuration-processor和lombok(Lombok 的安装与使用)spring-boot-configuration-processor的作用是生成配置…

使用 Arduino 硬件上的 PIL 进行代码验证和验证1. 尝试arduino的PIL程序例程-arduino_pil_bolck 1.1 准备安装包安装arduino 硬件支持包安装编辑器MinG-w64 1.2实现步骤https: //ww2.mathworks.cn/help/simulink/supportpkg/arduino_ref/code-verification-and-validation-wit…