go 爬虫速度控制

go 爬虫速度控制

  • 使用go语言用原生net/http写爬虫如何优雅的控制并发和请求速度
    • 控制并发
    • 限流
    • 并发和限流的区别
      • 简单说明
      • 有了并发控制为什么还要限流
    • 最总代码

使用go语言用原生net/http写爬虫如何优雅的控制并发和请求速度

go程序的执行效率相对python要快的多,且占用的内存和cpu更少
本教程实现控制爬虫程序并发上限,同时控制程序对外请求上限。

如果只是控制并发程序对外请求速度并不稳定,所以我们需要同时控制请求速度

控制并发

var maxTaskLen = make(chan bool, 1000) // 通过管道控制并发数量,最大100个并发
var wg = sync.WaitGroup{}             // 计数器,记录正在执行的任务数量
func main()  {for i:=0;i<= 100;i++{// 提交异步任务maxTaskLen <- true // 当管道满了。会在这里阻塞wg.Add(1)          // 计数器加一// 开启协程go func(goodsId string, mongoObjectId string) {defer func() {<-maxTaskLen // 从管道取出一个wg.Done()    // 并发计数器减一}()TB(goodsId, mongoObjectId)  // 爬虫函数}(result.GoodsId, result.Id)}wg.Wait() // 等待计数器归零(所有任务执行完毕)再结束主进程
}

限流

var rateLimit = rate.NewLimiter(500, 20)	// 限流
func main()  {for i:=0;i<= 100;i++{// 限流for {if rateLimit.Allow() {  // 桶满了阻塞在这里break}}// 开启协程go func(goodsId string, mongoObjectId string) {TB(goodsId, mongoObjectId)  // 爬虫函数}(result.GoodsId, result.Id)}
}

并发和限流的区别

简单说明

可以将整个采集流程看成一段河流,将数据当作水。
并发就相当于河道的宽度,河道越宽单位时间内流过的水就越多。
而限流就相当于桥洞,河流要经过桥洞,桥洞的大小决定了瞬间有多少水流过河流

有了并发控制为什么还要限流

采集过程中需要使用代理,代理是有并发和带宽的上限的,代理的上限就是限流的大小,限流只控制爬虫调用代理的速度,踩着代理的上限跑爬虫

代理的并发表现

最总代码

var maxTaskLen = make(chan bool, 1000) // 通过管道控制并发数量,最大100个并发
var wg = sync.WaitGroup{}             // 计数器,记录正在执行的任务数量
var rateLimit = rate.NewLimiter(500, 20)	// 限流
func main()  {for i:=0;i<= 100;i++{// 限流for {if rateLimit.Allow() {  // 桶满了阻塞在这里break}}// 提交异步任务maxTaskLen <- true // 当管道满了。会在这里阻塞wg.Add(1)          // 计数器加一// 开启协程go func(goodsId string, mongoObjectId string) {defer func() {<-maxTaskLen // 从管道取出一个wg.Done()    // 并发计数器减一}()TB(goodsId, mongoObjectId)  // 爬虫函数}(result.GoodsId, result.Id)}wg.Wait() // 等待计数器归零(所有任务执行完毕)再结束主进程
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/19905.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

今天实习第一天,用git

老板问了我是否用过gitee&#xff0c;并且是否用过git&#xff0c;在集成工具中&#xff0c;会git来提交代码。我说没有。 所以&#xff0c;先使用gitee。 01.登录gitee的官网&#xff0c;在此处登录。 02.绑定邮箱&#xff0c;我用的是QQ邮箱。 03.git的历史 git是分布式的…

用OpenCV进行图像分割--进阶篇

1. 引言 大家好&#xff0c;我的图像处理爱好者们&#xff01; 在上一篇幅中&#xff0c;我们简单介绍了图像分割领域中的基础知识&#xff0c;包含基于固定阈值的分割和基于OSTU的分割算法。这一次&#xff0c;我们将通过介绍基于色度的分割来进一步巩固大家的基础知识。 闲…

Java实现站内信

假如后台某个任务比较耗时&#xff0c;这时就需要任务完成时&#xff0c;通知一下用户&#xff0c;如下图&#xff0c;实现站内信的效果 两张表即可实现 t_message_content内容表 CREATE TABLE t_message_content (c_id int(11) NOT NULL AUTO_INCREMENT COMMENT 消息的id,se…

flink-conf.yaml的参数

参数 ⚫jobmanager.memory.process.size&#xff1a;对 JobManager 进程可使用到的全部内存进行配置&#xff0c; 包括 JVM元空间和其他开销&#xff0c;默认为 1600M&#xff0c;可以根据集群规模进行适当调整。⚫ taskmanager.memory.process.size&#xff1a;对 TaskManage…

【全栈开发指南】OAuth2授权获取token调试接口的方式

在我们实际应用接口的调用调试过程中&#xff0c;需要用到token或者刷新token&#xff0c;GitEgg支持OAuth2.0协议进行认证授权&#xff0c;这里介绍说明如何通过Postman获取token和refresh_token并进行接口调试。 1、使用密码模式获取token 根据spring-security-oauth2的实现…

怎么使用文件高速传输,推荐镭速高速文件传输解决方案

​​随着互联网的发展&#xff0c;文件传输越来越频繁&#xff0c;如何实现文件高速传输已经越来越成为企业发展过程中需要解决的问题&#xff0c;在当今的业务中&#xff0c;随着与客户和供应商以及内部系统的所有通信的数据量不断增加&#xff0c;对 高速文件传输解决方案的需…

[静态库和动态库][VS2022]

静态库和动态库 前言&#xff1a;一、静态库二、动态库三、静态库和动态库的使用 前言&#xff1a; 我们写代码&#xff0c;可以分模块去写&#xff0c;最后可以协作&#xff0c;能整合起来&#xff1b; 可以吧代码的实现和声明分离。 比如&#xff1a;我的这篇博客C语言猜拳小…

JavaScript ES6实现继承

1 对象的方法补充 2 原型继承关系图 3 class方式定义类 4 extends实现继承 5 extends实现继承 6 多态概念的理 function 创建的名称如果开头是大写的&#xff0c;那这个创建的不是函数&#xff0c;是创建了类。 ES6-class类中的内容 <!DOCTYPE html> <html lang&…

CUDA编程实战(使用Sobel算子对rgb图片进行边缘检测)

写在前面&#xff0c;本篇文章为一个CUDA实例&#xff0c;使用GPU并行计算对程序进行加速。如果不需要看环境如何配置&#xff0c;可以直接到看代码部分:点击直达 关于如何更改代码和理解代码写在这个地方:点击直达 运行环境&#xff1a; 系统:windows10专业版 显卡:NVIDIA …

uniapp 在app中获取经纬度

在uniapp中app端&#xff0c;uni.getLocation获取经纬度会有大概1-2公里的偏差&#xff0c;在实际项目中&#xff0c;有的需求对经纬度的准确度要求比较严格&#xff0c;研究了很多种方式&#xff0c;最终发现使用高德地图api的微信小程序的插件获取的准确性是最准的&#xff0…

vue3前端模拟https安全策略同局域网内测试方法-local-ssl-proxy

文章目录 前言建议全局安装运行安全策略模拟运行效果如果其他客户端不能访问 直接在cmd跑即可&#xff0c;不过我们应该先运行项目 前言 为什么要用https安全策略呢&#xff0c;因为http浏览器策略访问权限有限&#xff0c;不能使用navigator的激活“用户音频或视频”的方法&a…

解密Vue 2的Diff算法:如何实现高效的DOM更新?

文章目录 1. 虚拟DOM2. Diff算法深度优先遍历双端比较 3. Diff优化策略&#xff1a;为了提高Diff算法的效率&#xff0c;Vue采用了一些优化策略&#xff1a;4.对Vue 2中Diff算法的规划进行表格总结附录&#xff1a;「简历必备」前后端实战项目&#xff08;推荐&#xff1a;⭐️…