【爬虫作业】python爬虫作业——爬取汽车之家

爬取汽车之家期末作业:

 

代码如下所示: 

import random
import timeimport requests  #发送网络请求
import parsel
import csv
# 1.发送网络请求
headers  = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36 Edg/96.0.1054.62','cookie' :'cna=4PnlF84bLHECATzVzKSn1QVt; sca=affb7120; atpsidas=0812ac0d0153e7414eefc32b_1634996188_1; atpsida=341b48c86ac6a1e14421aa46_1640613502_50'}
csv_lmy = open('lmy-1.csv',mode='a',encoding='utf-8-sig',newline='')
csv_write = csv.writer(csv_lmy)#将文件以csv的方式保存
csv_write.writerow(['品牌','里程(万公里)','车龄','城市','认证','售价(万元)','原价(万元)','链接','车辆图片',])#将列表写入csv的前一行
for page in range(1,101):print(f'------------正在爬取第{page}页----------------------')url = f'https://www.che168.com/china/a0_0msdgscncgpi1ltocsp{page}exx0/'response = requests.get(url=url , headers = headers)# 2。获取数据 网页源代码print(response.text)lmy_html = response.text# 3.解析数据selector = parsel.Selector(lmy_html)lis = selector.css('.viewlist_ul li')for li in lis:try:name = li.css('.card-name::text').get()    #车名unit = li.css('.cards-unit::text').get()    #信息kemNumber = unit.split('/')[0]years = unit.split('/')[1]city = unit.split('/')[2]business = unit.split('/')[3]pirce = li.css('.pirce em::text').get()   #价格yprice = li.css('s::text').get()           #原价carinfo = li.css('.carinfo::attr(href)').get() #详情页链接img = li.css('img::attr(src)').get()       #图片链接#print(name,kemNumber,years,city,business,pirce,yprice,carinfo,img)csv_write.writerow([name,kemNumber,years,city,business,pirce,yprice,carinfo,img])except:pass

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/456903.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JVM 性能调优 - 四种引用(4)

为什么会有四种引用 我们先回顾下在 Java 虚拟机内存体系(1) 中提到了的垃圾回收算法 1、引用计数法 原理:给对象添加一个引用计数器,每当有一个地方引用它,计数器的值就加一。每当有一个引用失效,计数器的值就减一。当计数器值为零时,这个对象被认为没有其他对象引用,…

聚焦网络安全公司,看F5如何应对企业数字化挑战

应用无处不在的当下,从传统应用到现代应用再到边缘、多云、多中心的安全防护,安全已成为企业数字化转型中的首要挑战。有专家指出,目前网络安全市场已经是仅次于计算、存储、网络的第四大IT基础设施市场。那什么网络安全公司应该具有哪些能力…

EMC防护

EMI是指电子设备在自身工作过程中产生的电磁波,对外发射并对设备其它部分或外部其它设备造成干扰。EMI测试项目包括电源线传导骚扰(CE)测试、信号、控制线传导骚扰(CE)测试、辐射骚扰(RE)测试、…

2.6两个线程实现同步代码示例

#include<myhead.h> //1、定义无名信号量 sem_t sem; //定义生产者线程 void *task1(void *arg) {int num 5;while(num--){sleep(1);printf("我生产了一辆飞机\n");//4、释放资源sem_post(&sem);}//退出线程pthread_exit(NULL); } //定义消费者线程 void …

macOS的设置与常用软件(含IntelliJ IDEA 2023.3.2 Ultimate安装,SIP的关闭与开启)

目录 1 系统设置1.1 触控板1.2 键盘 2 软件篇2.1 [科学上网](https://justmysocks5.net/members/)2.1 [安装Chrome浏览器](https://www.google.cn/chrome/index.html)2.2 [安装utools](https://www.u.tools)2.3 [安装搜狗输入法](https://shurufa.sogou.com/)2.4 [安装snipaste…

「AI Party」喊你来!百度Create大会4月16-17日在深圳举办

引领全球AI风潮的百度Create AI开发者大会&#xff0c;正式定档2024年4月16日至17日&#xff0c;将在深圳国际会展中心&#xff08;宝安&#xff09;举办。 百度Create大会是全球首个AI开发者大会&#xff0c;更是2024年科技圈最重要的活动之一。来自世界各地的数万名顶尖开发…

数据结构(C语言)代码实现(七)——一元多项式的表示与相加

目录 前言 参考资料格式 头文件LinkList.h LocateElem函数&#xff0c;定位查找 有序插入&#xff08;没测试&#xff09; 完整代码 头文件polynomial.h 测试函数&#xff08;主函数&#xff09; 测试结果 前言 寒假在家&#xff0c;有点学不下去&#xff0c;写文章的…

net start mysql服务名无效|发生系统错误 解决办法

未输入正确的mysql服务名 解决办法&#xff1a; 使用net start命令查看可用的服务名&#xff0c;找到mysql的服务名 未使用管理员身份运行命令提示符 解决方法&#xff1a; 使用管理员身份运行命令提示符

C# WPF GridControl数据汇总

概述 dev的GridControl自带数据汇总的功能&#xff0c;想对表格数据在底部做一个简单的统计&#xff0c;百度了一下找了很多个博客都没啥用&#xff0c;最终果断查看dev官网实现&#xff0c;官网地址&#xff1a; https://docs.devexpress.com/WPF/7354/controls-and-libraries…

唐嫣、刘诗诗、杨幂齐聚春晚舞台,再现仙剑三美惊艳绝伦的魅力。

♥ 为方便您进行讨论和分享&#xff0c;同时也为能带给您不一样的参与感。请您在阅读本文之前&#xff0c;点击一下“关注”&#xff0c;非常感谢您的支持&#xff01; 文 |猴哥聊娱乐 编 辑|徐 婷 校 对|侯欢庭 近日&#xff0c;娱乐圈的目光将聚焦于三位璀璨的女星——唐嫣…

NLP_神经概率语言模型(NPLM)

文章目录 NPLM的起源NPLM的实现1.构建实验语料库2.生成NPLM训练数据3.定义NPLM4.实例化NPLM5.训练NPLM6.用NPLM预测新词 NPLM小结 NPLM的起源 在NPLM之前&#xff0c;传统的语言模型主要依赖于最基本的N-Gram技术&#xff0c;通过统计词汇的共现频率来计算词汇组合的概率。然而…

C# WinForm开发系列 - DataGridView

原文地址&#xff1a;https://www.cnblogs.com/peterzb/archive/2009/05/29/1491891.html 1.DataGridView实现课程表 testcontrol.rar 2.DataGridView二维表头及单元格合并 DataGridView单元格合并和二维表头.rar myMultiColHeaderDgv.rar 3.DataGridView单元格显示GIF图片 …