Rust与python联动进行多线程跑数据

最近有个学弟想请教我联动多线程爬取数据的案例,看了以前的模版没有合适的,我就利用空闲时间,专门给他写了一段模版作为参考。这里遇到注意的是需要代理IP介入,才能让多线程爬取减少网站风控限制。

在这里插入图片描述

以下是一个使用 Rust 编写的爬虫程序,用于爬取 python 进行多线程跑数据的内容。这个爬虫使用代理信息(proxy_host:duoip, proxy_port: 8000)进行网络请求,并使用了 Rust 的 async-std 库进行异步编程。

use async_std::net::{TcpStream, TcpListener};
use async_std::io::{BufReader, BufWriter};
use async_std::task::{await, spawn};
use async_std::prelude::*;
use std::io::{self, Write};
use std::net::IpAddr;
use std::thread;
use std::sync::Mutex;const PROXY_HOST: &str = "duoip";
const PROXY_PORT: u16 = 8000;
const URL: &str = "http://localhost:8000";
const 免费IPURL= "jshk.com.cn/mb/reg.asp?kefu=xjy&csdn";struct Worker {stream: TcpStream,
}impl Worker {fn new(stream: TcpStream) -> Self {Worker { stream }}
}impl Future for Worker {type Item = ();fn poll(self: Pin<&mut Self>, cx: &mut Context) -> Poll<Self::Item> {match self.stream.read_to_string(&mut self.stream.buffer()) {Ok(size) => {let url = format!("http://localhost:8000/data?{}={}", URL, size);match self.stream.write_to(&url, &mut self.stream.buffer()) {Ok(_) => {println!("Worker finished reading and writing data");},Err(err) => {println!("Worker failed to write data: {}", err);}}},Err(err) => {println!("Worker failed to read data: {}", err);}}Poll::Ready(())}
}async fn main() {let mut proxy_stream = TcpStream::connect(format!("{}:{}", PROXY_HOST, PROXY_PORT))?;let proxy_listener = TcpListener::bind("127.0.0.1:8000")?;let mut workers = Vec::new();for _ in 0..10 {let mut worker = Worker::new(proxy_stream);let task = spawn(move || worker.run());workers.push(task);}loop {let (socket, _) = proxy_listener.accept()?;for worker in workers {let task = worker.clone();let mut conn = worker.stream;if let Ok(conn) = conn {task.detach().join();proxy_stream = TcpStream::connect(format!("{}:{}", PROXY_HOST, PROXY_PORT))?;}}}
}async fn run(self: &mut Worker) {self.stream.read_to_string(&mut self.stream.buffer())?;let url = format!("http://localhost:8000/data?{}={}", URL, self.stream.buffer().string().trim());self.stream.write_to(&url, &mut self.stream.buffer())?;
}

步骤如下:

1、引入所需的 Rust 库,包括 async-std、std 和 io。

2、定义一个 Worker 结构体,它有一个 TcpStream 对象作为成员。

3、实现 Worker 的 Future 和 poll 方法。poll 方法用于处理网络请求,并将结果写入 URL 地址。

4、在 main 函数中,创建一个 TcpListener 对象,并使用它创建多个 Worker 线程。

5、在 main 函数中,循环监听连接请求。每当有新的连接请求时,都会创建一个新的 Worker 线程,并将其添加到 workers 列表中。

6、在 main 函数中,当所有的 Worker 线程都运行完毕后,退出循环。对于每个 Worker 线程,都会尝试将其连接与代理服务器断开,并重新连接到代理服务器。

上面就是有关联动多线程爬虫的案例和详细步骤,并且有些地方坐了标注解释,因为长时间没有写这类相对来说比较小众的代码了,如有不足的地方各位大佬可以多多指正。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/285019.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

传统软件集成AI大模型——Function Calling

传统软件和AI大模型的胶水——Function Calling 浅谈GPT对传统软件的影响Function Calling做了什么&#xff0c;为什么选择Function CallingFunction Calling简单例子&#xff0c;如何使用使用场景 浅谈GPT对传统软件的影响 目前为止好多人对chatGPT的使用才停留在OpenAI自己提…

打响指针的第一枪:指针家族

前言 指针其实是我们学习C语言中最难的知识点&#xff0c;很多人在学习指针的时候会被绕晕&#xff0c;包括博主也是&#xff0c;当初百思不得其解&#xff0c;脑袋都要冒烟了&#xff0c;本来打算在学习指针的时候就写一篇博客&#xff0c;但是当初自己的能力还是没有办法去完…

【具身智能评估7】ProcTHOR: Large-Scale Embodied AI Using Procedural Generation

论文标题&#xff1a;ProcTHOR: Large-Scale Embodied AI Using Procedural Generation 论文作者&#xff1a;Matt Deitke, Eli VanderBilt, Alvaro Herrasti, Luca Weihs, Jordi Salvador, Kiana Ehsani, Winson Han, Eric Kolve, Ali Farhadi, Aniruddha Kembhavi, Roozbeh M…

【TI毫米波雷达】上电时序、串口回环BUG及SOP模式不正常工作的解决方案(LP87524电源PMIC芯片的BUCK供电时序配置)

【TI毫米波雷达】雷达上电时序及SOP模式不正常工作的解决方案&#xff08;LP87524电源PMIC芯片的BUCK供电时序配置&#xff09; 文章目录 上电时序上电以后的雷达串口回环问题延迟上电时序LP87524电源PMIC芯片的BUCK供电时序LP87524电源PMIC芯片的BUCK默认供电输出附录&#x…

早期的OCR是怎么识别图片上的文字的?

现在的OCR技术融合了人工智能技术&#xff0c;通过深度学习&#xff0c;无论是识别的准确率还是效果都非常不错&#xff0c;那您知道在早期的OCR是通过什么技术来实现的吗&#xff1f;如果您不知道&#xff0c;那么&#xff0c;就让我来告诉您&#xff1a;它主要是基于字符的几…

LibreNMS:从docker出发

引言 LibreNMS 是一个免费开源的网络监控和自动化工具&#xff0c;用于监视网络设备、服务器和应用程序的性能和状态。它提供了一个集中的管理平台&#xff0c;帮助管理员实时监控和管理整个网络基础设施。 以下是 LibreNMS 的一些主要特点和功能&#xff1a; 自动发现&#…

【.NET】控制台应用程序的各种交互玩法

关于控制台交互&#xff0c;大伙伴们也许见得最多的是进度条&#xff0c;就是输出一行但末尾不加 \n&#xff0c;而是用 \r 回到行首&#xff0c;然后输出新的内容&#xff0c;这样就做出进度条了。不过这种方法永远只能修改最后一行文本。 于是&#xff0c;有人想出了第二种方…

小程序地图检索

<template><view style"background-color: #f5f5f5"><!-- 头部开始 --><viewstyle"position: fixed;left: -5rpx;right: -5rpx;z-index: 99;top: -5rpx;width: 101vw;"><view style"position: relative"><view…

三大主流前端框架介绍

在前端项目中&#xff0c;可以借助某些框架&#xff08;如React、Vue、Angular等&#xff09;来实现组件化开发&#xff0c;使代码更容易复用。此时&#xff0c;一个网页不再是由一个个独立的HTML、CSS和JavaScript文件组成&#xff0c;而是按照组件的思想将网页划分成一个个组…

Go集成elasticsearch8极简demo,光速入门

Go集成elasticsearch8极简demo,光速入门 配置go环境创件go mod工程代码实现配置go环境 编辑器添加goproxy GO111MODULE=on;GOPROXY=https://mirrors.wps.cn/go/,https://goproxy.cn,direct;GOSUMDB=off创件go mod工程 mkdir demo cd demo go mod init demo代码实现 在demo…

人工智能与底层架构:构建智能引擎的技术支柱

导言 人工智能与底层架构的交融塑造了智能系统的基石&#xff0c;是推动智能时代发展的关键动力&#xff0c;本文将深入研究人工智能在底层架构中的关键作用&#xff0c;以及它对智能引擎的技术支持&#xff0c;探讨人工智能在计算机底层架构中的作用&#xff0c;以及这一融合如…

MongoDB的数据库引用

本文主要介绍MongoDB的数据库引用。 目录 MongoDB的数据库引用 MongoDB的数据库引用 MongoDB是一种面向文档的NoSQL数据库&#xff0c;它使用BSON&#xff08;Binary JSON&#xff09;格式存储和查询数据。在MongoDB中&#xff0c;数据库引用是一种特殊的数据类型&#xff0c;…