解锁网络无限可能:揭秘微软工程师力作——付费代理IP池深度改造与实战部署指南

news/2024/9/20 2:48:39/文章来源:https://www.cnblogs.com/CodeRealm/p/18303890

基于付费代理的代理IP池

项目来源

此项目为微软某个工程师构建的代理IP池,我对此进行了改造。可以用于生产环境中的爬虫项目

阅读前建议

阅读我之前发布的爬虫基础的文章,了解代理如何获取、使用等。

分为四大模块

  1. 代理生成
    • 基于购买的付费代理接口获取代理IP,利用redis数据库的有序集合进行存储。初始序为10。
    • 检测模块检测时,若检测成功,将序变为100,若检测失败,将序减一,直至减为0则抛弃此代理
  2. 代理检测利用redis数据库的zsan方法每次从数据库中取出20条数据和游标,每20条20条地进行检测。
    • 首先检测代理IP的格式(检测是否含有冒号,若有则根据冒号进行分割获取IP和Port,分别检测IP(根据 '.' 进行分割,判断是否包含4部分且每部分是证书且在0到255之间则为有效)和Port(判断是否是整数)
    • 之后检测代理IP是否可用,找一个检测IP网站。不加代理访问并记作IP1,加代理访问记作IP2,判断IP1和IP2是否不相等,再判断加的代理IP和IP2是否相等,来决定此代理是否有效
    • 再用此代理IP去访问通用的网站(百度)或者你要爬取的网站,如果状态码在200到302之间,那么认为代理IP检测通过,将序改为100,若检测失败,则将序减一
    • 检测模块采取了协程机制,增加检测速度
  3. 代理存储
    • 封装了redis数据库的一些操作供其他三个模块调用
  4. 接口模块
    • 将代理IP从redis数据库中读出,通过Flask开接口的方式展示到前台。
    • 展示代理规则:优先随机展示序为100的,没有100的再随机展示序为10到100的

本地部署

前提:电脑已经装好了redis和redis可视化工具(如果不会装,可以私信我)

  1. conda 建立一个虚拟环境

    conda create -n new_env python=3.x  # 替换 x 为你需要的 Python 版本 
    
  2. 激活新建环境

    conda activate new_env
    
  3. 安装依赖项

    pip install -r requirments.txt
    
  4. 更改项目 settings.py 配置项

    # redis host
    REDIS_HOST = env.str('REDIS_HOST', '127.0.0.1')
    # redis port
    REDIS_PORT = env.int('REDIS_PORT', 6379)
    # redis password, if no password, set it to None
    REDIS_PASSWORD = env.str('REDIS_PASSWORD', None)
    # redis db, if no choice, set it to 0
    REDIS_DB = env.int('REDIS_DB', 0)
    # redis connection string, like redis://[password]@host:port or rediss://[password]@host:port/0# redis hash table key name
    REDIS_KEY = env.str('REDIS_KEY', 'proxies:universal')  # 前面是标识符,后面是redis数据库的表名# definition of proxy scores
    PROXY_SCORE_MAX = 100  # 如果检测成功,序设置为100
    PROXY_SCORE_MIN = 0  # 接口模块取代理时会优先取序为100的,没有的话再取PROXY_SCORE_MIN和PROXY_SCORE_MAX之间的代理,这里可以自行设置
    PROXY_SCORE_INIT = 10  # 代理IP初始序# definition of proxy number
    # PROXY_NUMBER_MAX = 50000
    PROXY_NUMBER_MAX = 5  # 代理IP池容量
    PROXY_NUMBER_MIN = 0# definition of tester
    # 检测代理IP是否有效的测试网址,但是需要改成http:避免ssl验证
    TEST_URL = env.str('TEST_URL', 'http://www.baidu.com')
    # TEST_URL = env.str('TEST_URL', 'https://antispider7.scrape.center/login')
    TEST_TIMEOUT = env.int('TEST_TIMEOUT', 10)
    TEST_BATCH = env.int('TEST_BATCH', 20)# 检测成功的状态码
    TEST_VALID_STATUS = env.list('TEST_VALID_STATUS', [200, 206, 302])# definition of api
    # 端口模块相关配置
    API_HOST = env.str('API_HOST', '127.0.0.1')
    API_PORT = env.int('API_PORT', 5555)
    API_THREADED = env.bool('API_THREADED', True)# flags of enable
    # 是否开启对应模块
    ENABLE_TESTER = env.bool('ENABLE_TESTER', True)
    ENABLE_GETTER = env.bool('ENABLE_GETTER', True)
    ENABLE_SERVER = env.bool('ENABLE_SERVER', True)
  5. 修改代理IP提取链接urls(proxypool/crawlers/base.py)

    @logger.catch
    def crawl(self):"""crawl main method"""# for url in self.urls:#     logger.info(f'fetching {url}')#     html = self.fetch(url)#     time.sleep(.5)#     for proxy in self.parse(html):#在父类里调用自身方法,此处的proxy是一页链接的代理IP列表#         logger.info(f'fetched proxy {proxy.string()} from {url}')#         yield proxy#此处的proxy是返回的是所有页的代理IP列表# 小象代理提取代理IP的链接urls = "https://api.xiaoxiangdaili.com/ip/get?appKey=1130083050647343104&appSecret=5ch2dc4Q&cnt=5&wt=json&method=https&city=&province="logger.info(f'fetching {urls}')html = self.fetch(urls)time.sleep(.5)for proxy in self.parse(html):  # 在父类里调用自身方法,此处的proxy是一页链接的代理IP列表logger.info(f'fetched proxy {proxy.string()} from {urls}')yield proxy  # 此处的proxy是返回的是所有页的代理IP列表
    
  6. 运行redis服务

  7. 运行run.py文件

  8. 通过访问http://127.0.0.1:5555即可访问代理IP池的前台

    • /all:全部代理IP
    • /random:根据规则(上面模块讲解过)展示随机一个代理IP
    • /count:代理IP数量

项目源码

https://blog.csdn.net/m0_74087660/article/details/140447563?csdn_share_tail={"type"%3A"blog"%2C"rType"%3A"article"%2C"rId"%3A"140447563"%2C"source"%3A"m0_74087660"}

有意私信我也可以(微信公众号)

更多精致内容

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/744284.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SpringIOC 容器

SpringIOC 容器 一、组件的概念 什么是组件? 常规的三层架构处理请求流程:划分为组件后:组件就是所有可以重用的java对象,组件一定是对象,对象不一定是组件二、Spring 进行组件管理 Spring框架替代了程序员原有的new对象和对象属性赋值的动作组件对象实例化组件属性赋值组…

javap和字节码

javap字节码的基本信息public class Test {private int age = 10;public int getAge() {return age;} }在 class 文件的同级目录下输入命令 javap -v -p Test.class 来查看一下输出的内容// 字节码文件的位置 Classfile /D:/Code/code/JavaCode/JavaSourceLearn/out/production…

Prometheus之钉钉

要实现Prometheus通过Alertmanager发送告警到钉钉,您可以按照以下步骤进行配置:创建钉钉机器人:首先,您需要在钉钉群中添加一个自定义机器人,并获取机器人的Webhook地址。创建机器人时,您可以设置安全验证方式,如加签。创建完成后,保存好Webhook地址和加签后的秘钥(如…

Java——N以内累加求和

2024/07/15 1.题目 2.错误 3.分析 4.答案 1.题目2.错误 import java.util.Scanner;public class Main {public static void main(String[] args) {Scanner scanner = new Scanner(System.in);int N = scanner.nextInt();int sum = 0;while (N<=1000) {for (int i=1;i<=N;…

SQLCoder部署和应用

SQLCoder文生SQL部署和应用主页个人微信公众号:密码应用技术实战 个人博客园首页:https://www.cnblogs.com/informatics/SQLCoder简介 SQLCoder是一个用于生成SQL语句的工具,可以通过输入自然语言描述的需求,生成对应的SQL语句。SQLCoder支持连接数据库,对生成的SQL语句可…

NOIP 十三连测 #2 补题

逆天输出文件 .ans reverse 水题,随便自己造两组数据都能看出规律: \[\begin{cases}a_n a_{n - 2} \dots a_1 + a_2 a_4 \dots a_{n - 1}(n \mod 2 = 1) \\ a_n a_{n - 2} \dots a_2 + a_1 a_3 \dots a_{n - 1 } (n \mod 2 = 0)\end{cases} \]logistics 先求出最小生成树的 \…

MySQL时间戳转成日期格式

将时间戳转换为日期格式:-- 如果时间戳为毫秒级长度为13位,需要先除以1000 SELECT id, `task_name` ,FROM_UNIXTIME(`task_register_begin_time`/1000,%Y-%m-%d %H:%i:%s) as task_register_begin_time,FROM_UNIXTIME(`task_register_end_time`/1000,%Y-%m-%d %H:%i:%s) as t…

使用GSAP制作动画视频

GSAP 3Blue1Brown给我留下了深刻印象。利用动画制作视频,内容简洁,演示清晰。前两天刚好碰到一件事,我就顺便学习了一下怎么用代码做动画。 以javascrip为例,有两个动画引擎,GSAP和Animajs。由于网速的原因,询问了GPT后,我选择了GSAP来制作我的第一个动画视频。 制作动画…

log4cpp的安装及使用

介绍开源库log4cpp的安装及使用目录前言安装使用示例代码配置文件编译链接输出 前言 本文的操作均在ubuntu20.04下进行 安装 本文仅介绍从源码编译安装log4cpp的过程。 ①在开始编译前,首先要确保系统中安装了g++,make,autoconf和libtool ②下载log4cpp源码 下载log4cpp的特…

Intellij springboot远程调试

服务器端配置: java -jar -Xdebug -Xrunjdwp:transport=dt_socket,server=y,suspend=n,address=*:5005 XXXX.jar 说明: address:IP:端口;*代表所有IP地址都可访问,5005需要可IDEA远程请求的端口一致 XXXX.jar:你的springboot程序 IDEA端配置:

采购订单列表根据多条件设置单元格背景色

bos配置: 如果值存在空字符串和空格,空格会标红,为空不会。因此单独针对空字符串标红。 测试效果:

面试准备【LLM】

目录其他注意力过拟合的表现有哪些?BN 训练和测试的区别在哪里?梯度下降的公式?反向传播优化器 & Adam均方误差损失交叉熵损失梯度消失问题梯度爆炸问题权重正则化过拟合分词器BERT掩码语言建模 (MLM)下一个句子预测 Next Sentence Prediction(NSP)BERT微调BERT模型创新…