爬虫入门四(抽屉半自动点赞、xpath使用、动作链、打码平台、scrapy框架介绍与安装及创建项目)

文章目录

  • 一、抽屉半自动点赞
  • 二、xpath的使用
  • 三、动作链
  • 四、打码平台
    • 介绍
    • 超级鹰打码基本测试
  • 五、自动登录超级鹰
  • 六、scrapy框架
    • 介绍
    • 安装
    • 创建爬虫项目

一、抽屉半自动点赞

	'登录抽屉账号保存cookies'import timeimport jsonfrom selenium import webdriverfrom selenium.webdriver.common.by import Bybro = webdriver.Chrome()bro.get('https://dig.chouti.com/')bro.implicitly_wait(10)bro.maximize_window()# 找到登录按钮,点击submit_btn = bro.find_element(by=By.ID,value='login_btn')submit_btn.click()# 找到用户名密码框--输入用户名和密码username = bro.find_element(By.CSS_SELECTOR,'body > div.login-dialog.dialog.animated2.scaleIn > div > div.login-body > div.form-item.login-item.clearfix.phone-item.mt24 > div.input-item.input-item-short.left.clearfix > input')password = bro.find_element(By.CSS_SELECTOR,'body > div.login-dialog.dialog.animated2.scaleIn > div > div.login-footer > div.form-item.login-item.clearfix.mt24 > div > input.input.pwd-input.pwd-input-active.pwd-password-input')username.send_keys('xxxxx')  # 手机号time.sleep(2)password.send_keys('xxxx')  # 密码time.sleep(2)submit = bro.find_element(By.CSS_SELECTOR,'body > div.login-dialog.dialog.animated2.scaleIn > div > div.login-footer > div:nth-child(4) > button')submit.click()input('等待人工确认登录----回车键后登录')# 登陆成功保存cookiecookies = bro.get_cookies()print(cookies)with open('chouti.json','wt',encoding='utf-8')as f:json.dump(cookies,f)time.sleep(5)bro.close()
	'使用上面保存的cookie进行登录并点赞'# 使用requests模块点赞,把当前页面所有的文章点一遍import requestsfrom bs4 import BeautifulSoupimport json# 1.获取第一个的所有文章的id号headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36','Referer':'https://dig.chouti.com/'}res = requests.get('https://dig.chouti.com/',headers=headers)# print(res.text)# 解析soup=BeautifulSoup(res.text,'lxml')div_list = soup.find_all(name='div',class_='link-item')# 获取本地cookiewith open('chouti.json','rt',encoding='utf-8')as f:cookies = json.load(f)requests_cookies={}for cookie in cookies:requests_cookies[cookie['name']]=cookie['value']print('requests模块需要的cookie格式',requests_cookies)for div in div_list:article_id = div.attrs.get('data-id')# print(article_id)# 要携带cookiedata = {'linkId':article_id}res = requests.post('https://dig.chouti.com/link/vote',headers=headers,cookies=requests_cookies,data=data)print(res.text)

二、xpath的使用

'''
# 语法格式如下(记住这几个)
1 标签名   # 找xml中所有这个标签
2 /       # 只找一层]
3 //      # 子子孙孙都会找
4 .       # 从当前路径下
5 ..      # 上一层
6 @属性名 # 找有这个属性的标签
'''doc='''
<html><head><base href='http://example.com/' /><title>Example website</title></head><body><div id='images'><a href='image1.html' id='id_a' name='lqz'>Name: My image 1 <br /><img src='image1_thumb.jpg' /></a><a href='image2.html'>Name: My image 2 <br /><img src='image2_thumb.jpg' /></a><a href='image3.html'>Name: My image 3 <br /><img src='image3_thumb.jpg' /></a><a href='image4.html'  class='li'>Name: My image 4 <br /><img src='image4_thumb.jpg' /></a><a href='image5.html' class='li li-item' name='items'>Name: My image 5 <br /><img src='image5_thumb.jpg' /></a><a href='image6.html' name='items'><span><h5>test</h5></span>Name: My image 6 <br /><img src='image6_thumb.jpg' /></a></div></body>
</html>
'''
from lxml import etree
html=etree.HTML(doc)  # 加载字符串
# html=etree.parse('search.html',etree.HTMLParser())  # 加载文件# 1 所有节点
print(html.xpath('//*'))
print(html.xpath('/*'))# 2 指定节点(结果为列表)
print(html.xpath('//head'))# 3 子节点,子孙节点
print(html.xpath('//div/a'))
print(html.xpath('//body/a')) #无数据
print(html.xpath('//body//a'))# 4 父节点
print(html.xpath('//body//a[@href="image1.html"]/..'))  # 上一节点 div  a..
print(html.xpath('//body//a[1]/..'))  # 从1开始 第一个a标签..
# 也可以这样
print(html.xpath('//body//a[1]/parent::*'))  # 找父亲---》父亲可以是任意标签
print(html.xpath('//body//a[1]/parent::div'))  # 找父亲---》父亲可以是任意标签# 5 属性匹配
print(html.xpath('//a[@href="image1.html"]'))  # 属性匹配 标签为 a# 6 文本获取(记住)
print(html.xpath('//body//a[@href="image1.html"]/text()'))  # 内容获取 a标签内的内容['Name: My image 1 ']# 7 属性获取(记住)
print(html.xpath('//body//a/@href'))  # 拿所有a的href属性
print(html.xpath('//body//a[1]/@href')) # 从1开始
# 注意从1 开始取(不是从0)
print(html.xpath('//body//a[1]/@href'))# 8 属性多值匹配
#  a 标签有多个class类,直接匹配就不可以了,需要用contains
print(html.xpath('//body//a[@class="li"]')) # 有个类叫li的所有a标签,因为这个a有俩类
print(html.xpath('//body//a[contains(@class,"li")]'))  # 属性多值匹配 匹配a标签内有class = li的标签
print(html.xpath('//body//a[contains(@class,"li")]/text()'))  # 属性多值匹配 匹配a标签内有class = li的标签的值# 9 多属性匹配
print(html.xpath('//body//a[contains(@class,"li") or @name="items"]'))   # 多属性匹配 匹配a标签内有class=li or name=itmes的内容
print(html.xpath('//body//a[contains(@class,"li") and @name="items"]/text()'))  # 多属性匹配 匹配a标签内有class=li and name=itmes的内容
print(html.xpath('//body//a[contains(@class,"li")]/text()'))# 10 按序选择
print(html.xpath('//a[2]/text()'))  # 按序选择 查找第二个a标签的内容
print(html.xpath('//a[2]/@href'))  # 按序选择 查找第三个a标签的@href内容
# 取最后一个
print(html.xpath('//a[last()]/@href'))  # 按序选择 查找最后一个a标签的@href内容
# 位置小于3的
print(html.xpath('//a[position()<3]/@href'))  # 按序选择 查找标签位置小于3的位置
# 倒数第二个
print(html.xpath('//a[last()-2]/@href'))  # 按序选择 查找倒数第二个a标签# 11 节点轴选择
# ancestor:祖先节点
# 使用了* 获取所有祖先节点
print(html.xpath('//a/ancestor::*'))
# # 获取祖先节点中的div
print(html.xpath('//a/ancestor::html'))# attribute:属性值
print(html.xpath('//a[1]/attribute::*'))  # 获取第一个a标签的属性值
print(html.xpath('//a[1]/attribute::id'))# child:直接子节点
print(html.xpath('//a[1]/child::*'))  # 获取第一个a标签的的子节点
print(html.xpath('//a[1]/child::img'))
# descendant:所有子孙节点
print(html.xpath('//a[6]/descendant::*'))  # 获取第六个a标签的子节点
# following:当前节点之后所有节点
print(html.xpath('//a[1]/following::*'))  # 获取第一个a标签之后的所有节点
print(html.xpath('//a[1]/following::*[1]/@href'))  # 获取第1个a标签之后的所有节点里面的第一个href里面所有的节点
# following-sibling:当前节点之后同级节点
print(html.xpath('//a[1]/following-sibling::*'))  # 获取第一个a标签之后所有同级节点
print(html.xpath('//a[1]/following-sibling::a'))  # 获取第一个a标签之后同级a节点
print(html.xpath('//a[1]/following-sibling::*[2]'))  # 获取第一个a标签之后所有同级节点第二个节点
print(html.xpath('//a[1]/following-sibling::*[2]/@href'))  # 获取第一个a标签之后所有同级节点第二个节点里面href的属性

三、动作链

	from selenium import webdriverfrom selenium.webdriver import ActionChainsfrom selenium.webdriver.support.wait import WebDriverWait  # 等待页面加载某些元素import timefrom selenium.webdriver.common.by import Bydriver = webdriver.Chrome()driver.get('http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable')driver.implicitly_wait(3)driver.maximize_window()try:driver.switch_to.frame('iframeResult')  ##切换到iframeResultsourse = driver.find_element(By.ID, 'draggable')target = driver.find_element(By.ID, 'droppable')'''拿到actions对象后,对象有很多方法1 把标签1 拖动到标签2上actions.drag_and_drop(标签1,标签2) 2 一点点滑动某个标签actions.click_and_hold(标签1).perform()actions.move_by_offset(x,y) # 把标签1 滑动x轴和y轴的距离3 滑动某个标签,一些距离actions.drag_and_drop_by_offset(标签1,x,y)'''# 方式一:基于同一个动作链串行执行# actions = ActionChains(driver)  # 拿到动作链对象# actions.drag_and_drop(sourse, target)  # 把动作放到动作链中,准备串行执行# actions.perform()# 方式二:不同的动作链,每次移动的位移都不同ActionChains(driver).click_and_hold(sourse).perform()  # 鼠标点中源 标签 不松开distance=target.location['x']-sourse.location['x']track = 0while track < distance:ActionChains(driver).move_by_offset(xoffset=10, yoffset=0).perform()track += 10ActionChains(driver).release().perform()# 方式三:# actions = ActionChains(driver)# actions.drag_and_drop_by_offset(sourse,200,0).perform()time.sleep(5)finally:driver.close()

四、打码平台

介绍

	'网站有验证码,验证码破解'-简单验证码:字母数字组合---》免费的就能破---》ddddocr-https://www.jb51.net/article/249636.htm-复杂的:收费---》打码平台--》花钱帮我们破解验证码把验证码图片传给它--->它识别完--》返回结果---》根据复杂度收费-超级鹰:http://www.chaojiying.com/-下载SDK-云打码:https://zhuce.jfbym.com/price/

超级鹰打码基本测试

#!/usr/bin/env python
# coding:utf-8import requests
from hashlib import md5class Chaojiying_Client(object):def __init__(self, username, password, soft_id):self.username = usernamepassword =  password.encode('utf8')self.password = md5(password).hexdigest()self.soft_id = soft_idself.base_params = {'user': self.username,'pass2': self.password,'softid': self.soft_id,}self.headers = {'Connection': 'Keep-Alive','User-Agent': 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0)',}def PostPic(self, im, codetype):"""im: 图片字节codetype: 题目类型 参考 http://www.chaojiying.com/price.html"""params = {'codetype': codetype,}params.update(self.base_params)files = {'userfile': ('ccc.jpg', im)}r = requests.post('http://upload.chaojiying.net/Upload/Processing.php', data=params, files=files, headers=self.headers)return r.json()def PostPic_base64(self, base64_str, codetype):"""im: 图片字节codetype: 题目类型 参考 http://www.chaojiying.com/price.html"""params = {'codetype': codetype,'file_base64':base64_str}params.update(self.base_params)r = requests.post('http://upload.chaojiying.net/Upload/Processing.php', data=params, headers=self.headers)return r.json()def ReportError(self, im_id):"""im_id:报错题目的图片ID"""params = {'id': im_id,}params.update(self.base_params)r = requests.post('http://upload.chaojiying.net/Upload/ReportError.php', data=params, headers=self.headers)return r.json()if __name__ == '__main__':# chaojiying = Chaojiying_Client('超级鹰用户名', '超级鹰用户名的密码', '96001')	#用户中心>>软件ID 生成一个替换 96001im = open('a.jpg', 'rb').read()		#本地图片文件路径 来替换 a.jpg 有时WIN系统须要//print(chaojiying.PostPic(im, 1902))	#1902 验证码类型  官方网站>>价格体系 3.4+版 print 后要加()#print chaojiying.PostPic(base64_str, 1902)  #此处为传入 base64代码

五、自动登录超级鹰

import time
from selenium import webdriver
from selenium.webdriver.common.by import By
from PIL import Image
from chaojiying import Chaojiying_Client
bro = webdriver.Chrome()
bro.get('https://www.chaojiying.com/user/login/')
bro.implicitly_wait(10)
bro.maximize_window()# 截图全屏
bro.save_screenshot('main.png')
# 找到用户名和密码,验证码输入框
username = bro.find_element(By.CSS_SELECTOR,'body > div.wrapper_danye > div > div.content_login > div.login_form > form > p.login_form_item > input')
password = bro.find_element(By.CSS_SELECTOR,'body > div.wrapper_danye > div > div.content_login > div.login_form > form > p:nth-child(2) > input')
code = bro.find_element(By.XPATH,'/html/body/div[3]/div/div[3]/div[1]/form/p[3]/input')# 输入用户名,密码,验证码
username.send_keys('')
time.sleep(2)
password.send_keys('!')
time.sleep(2)
# 破解验证码,从截图中获取验证码
img=bro.find_element(By.XPATH,'/html/body/div[3]/div/div[3]/div[1]/form/div/img')
# 找到img的大小和位置
location = img.location
size = img.size
print('大小是:', img.size)
print('位置是:', img.location)
# 获取图的 起始位置坐标  结束位置坐标
img_tu = (int(location['x']), int(location['y']), int(location['x'] + size['width']), int(location['y'] + size['height']))
# 使用pillow,根据坐标,扣除验证码图片
img = Image.open('./main.png')
# 抠图
fram = img.crop(img_tu)
# 截出来的小图
fram.save('code1.png')# 调用超级鹰
# chaojiying = Chaojiying_Client('17786176326','Mao0227!','958083')
# im = open('code1.png', 'rb').read()		#本地图片文件路径 来替换 a.jpg 有时WIN系统须要//
# real_code = chaojiying.PostPic(im, 1902)['pic_str'] #1902 验证码类型  官方网站>>价格体系 3.4+版 print 后要加()# 使用ddddocr
import ddddocr
ocr = ddddocr.DdddOcr(old=True,show_ad=False)
# 第一个验证码截图保存:verification_code_1.png
with open('./code1.png','rb')as f:image = f.read()
real_code = ocr.classification(image)code.send_keys(real_code)
time.sleep(5)# 找到登录按钮,登录
submit = bro.find_element(By.XPATH,'/html/body/div[3]/div/div[3]/div[1]/form/p[4]/input')
submit.click()
time.sleep(10)
bro.close()

六、scrapy框架

介绍

前面讲的都是使用模块 做专业的爬虫可以使用框架Scrapy爬虫框架(做爬虫用的东西都封装好了只需要在固定的位置写固定的代码即可)

Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛,可用于如数据挖掘、监测和自动化测试等领域,也可以应用在获取API所返回的数据或者通用的网络爬虫

安装

	'安装 (win看人品,linux,mac一点问题没有)'-pip install  scrapy-装不上,基本上是因为twisted装不了,单独装1、pip3 install wheel #安装后,便支持通过wheel文件安装软件,wheel文件官网:https://www.lfd.uci.edu/~gohlke/pythonlibs3、pip3 install lxml4、pip3 install pyopenssl5、下载并安装pywin32:https://sourceforge.net/projects/pywin32/files/pywin32/6、下载twisted的wheel文件:http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted7、执行pip3 install 下载目录\Twisted-17.9.0-cp36-cp36m-win_amd64.whl8、pip3 install scrapy在 D:\Python解释器对应的版本\Scripts 路径下 会有scrapy可执行文件-它等同于,你安装了django--》多两个djagno-admin可执行文件

创建爬虫项目

	1.创建项目scrapy startproject 爬虫名称2.创建爬虫scrapy genspider cnblogs www.cnblogs.com  # 这里是创建一个cnblogs的爬虫3.scrapy crawl cnblogs --nolog 		# --log 取消日志功能4.pycharm中运行新建run.pyfrom scrapy.cmdline import executeexecute(['scrapy', 'crawl', 'cnblogs','--nolog'])

在这里插入图片描述

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/496762.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

c# 异常处理

异常类 .NET Framework 类库中的所有异常都派生于 Exception 类&#xff0c;异常包括系统异常和应用异常。 默认所有系统异常派生于 System.SystemException&#xff0c;所有的应用程序异常派生于 System.ApplicationException。 系统异常一般不可预测&#xff0c;比如内存堆…

代码库管理工具Git介绍

阅读本文同时请参阅-----免费的Git图形界面工具sourceTree介绍 Git是一个分布式版本控制系统&#xff0c;它可以帮助开发者跟踪和管理代码历史。Git的命令行工具是使用Git的核心方式&#xff0c;虽然它可能看起来有些复杂&#xff0c;但是一旦掌握了基本命令&#xff0c;你…

stable-diffusion-webui-forge 介绍,安装,运行

一 stable-diffusion-webui-forge 介绍 stable-diffusion-webui-forge 的作用和stable-diffusion-webui一样&#xff0c;但性能上作了优化&#xff0c;说得上是是stable-diffusion-webui优化版&#xff0c;本人在使用stable-diffusion-webui时偶尔会有内存不够报错。本人的环境…

‘grafana.ini‘ is read only ‘defaults.ini‘ is read only

docker安装grafana 关闭匿名登录情况下的免密登录遇到问题 grafana.ini is read only defaults.ini is read only 参考回答&#xff08;Grafana.ini giving me the creeps - #2 by bartweemaels - Configuration - Grafana Labs Community Forums&#xff09; 正确启动脚本 …

《系统架构设计师教程(第2版)》第5章-软件工程基础知识-05-净室软件工程(CSE)

文章目录 1. 概述2. 理论基础2.1 函数理论2.2 抽样理论 3. 技术手段3.1 增量式开发3.2 基于函数的规范与设计3.3 正确性验证3.4 统计测试 (Statistically Based Testing) 和软件认证 4. 应用与缺点1&#xff09;太理论化2&#xff09;缺少传统模块测试3&#xff09;带有传统软件…

仅用于个人记录:地热文章阅读

22年Q1 The Geothermal Artificial Intelligence for geothermal exploration 目的&#xff1a;像素级探测地热。 步骤&#xff1a; 一、选AOI&#xff0c;包括Brady和Desrt Peak 二、 地热指标分析 1&#xff09;温度 temperature 2018年至2019年期间25张LANDSAT 8的二级…

图搜索基础-深度优先搜索

图搜索基础-深度优先搜索 参考原理引入流程解析手推例子 代码实现运行结果结果分析 参考 理论参考&#xff1a;深蓝学院 实现参考&#xff1a;github项目 原理 引入 对于这样一个图&#xff0c;我们试图找到S到G的通路&#xff1a; 计算机程序不会像人眼一样&#xff0c;一…

通过代码加载mybatis的mapper xml

通过代码加载mybatis的mapper xml jpa 性能确实差&#xff0c;转战 mybatis 了 依赖 <!-- https://mvnrepository.com/artifact/org.mybatis/mybatis --><dependency><groupId>org.mybatis</groupId><artifactId>mybatis</artifactId>&l…

ruoyi框架学习

RBAC模型 数据字典 拦截器 token没有&#xff0c;submit&#xff0c;request.js中&#xff0c;前端前置拦截器&#xff0c;响应拦截器 后台 注解

[极客大挑战 2019]LoveSQL1 题目分析与详解

一、题目简介&#xff1a; 二、通关思路&#xff1a; 1、首先查看页面源代码&#xff1a; 我们发现可以使用工具sqlmap来拿到flag&#xff0c;我们先尝试手动注入。 2、 打开靶机&#xff0c;映入眼帘的是登录界面&#xff0c;首先尝试万能密码能否破解。 username: 1 or 11…

5G网络介绍

目录 一、网络部署模式 二、4/5G基站网元对标 三、4/5G系统架构对比 四、5G核心单元 五、边缘计算 六、轻量化&#xff08;UPF下沉&#xff09; 方案一&#xff1a;UPF下沉 方案二&#xff1a;UPF下沉 方案三&#xff1a;5GC下沉基础模式 方案四&#xff1a;…

论文阅读-CheckFreq:频繁、精细的DNN检查点操作。

论文名称&#xff1a;CheckFreq: Frequent, Fine-Grained DNN Checkpointing. 摘要 训练深度神经网络(DNNs)是一项资源密集且耗时的任务。在训练过程中&#xff0c;模型在GPU上进行计算&#xff0c;重复地学习权重&#xff0c;持续多个epoch。学习到的权重存在GPU内存中&…