Python 爬虫并发极限是多少呢?

30次阅读

共计 718 个字符，预计需要花费 2 分钟才能阅读完成。

模块介绍: 爬取网上很多公开的代理 IP 网址, HTTP HTTPS Sock5 , 去重后, 访问自己域名(返回 Json, 小于 300 字节), 用来测试匿名程度后保存

  不使用代理, 仅本地网络测试
  设备:  联通光纤宽带(我一个人用) 下行 300M 上行 30    CPU: I7 7700HQ 4 核 8 逻辑处理器 内存: 16G 
  国内的服务器: 阿里云  1 核 2 内  1M

  单进程 + 异步: 
      URL 500 个
      asyncio.Semaphore(500)   
      aiohttp 设置超时时间为 1 秒

  结果: 并发 500 的成功率为 97% 左右(偶尔抽风)
      每秒并发个数: 485

  多进程 + 异步:
      URL 500 个
      5 个进程 (每个进程平均 100 个 URL)
      asyncio.Semaphore(100)   
      aiohttp 设置超时时间为 1 秒

  结果: 并发 500 的成功率为 99% 左右(偶尔抽风)
      每秒并发个数: 495

  多进程 + 异步:
      URL 1600 个
      8 个进程 (每个进程平均 200 个 URL)
      asyncio.Semaphore(200)   
      aiohttp 设置超时时间为 1 秒

  结果: 并发 1600 的成功率为 4% ~ 75% 左右(大概率低于 30%)
      每秒并发个数: 64 ~ 1200

当前遇到的问题:
超过 500 并发后极其不稳定

  目前猜测之所以 500 是临界点, 可能联通限制连接数 1000 导致 或是  Windows 平台 select 限制

当前策略每三秒对所有代理 IP 访问自己服务器进行测试测试代理 IP 超时时间为 3 秒通过超时次数, 和响应时间(使用) 对每个 IP 分配权重来筛选, 排序, 所以要很大程度上减少自身网络或程序的错误, 才尽可能保证代理 IP 的准确性于可用性, 毕竟能用的 IP 太少, 误封就太可惜了

  电脑性能和上行带宽没跑满, 多加几个服务器太浪费了

请问各位, 有什么方式能提高并发量, 或容错 (误封可用 IP) 的策略呢,

正文完

并发进程

发表至： V2EX

2024-05-14

0

如何绝对公平地切分蛋糕

技术方案咨询：有没有什么技术可以通过在 Linux 中启动一个安卓虚拟机，像 selenium 抓取 APP 动态页面内容

苹果备忘录和 icloud 里的备忘录打开速度快了一个数量级

才发现币安用 usdc 开合约限免手续费，换成 usdc 有风险吗？

有没有类似于 P3 Tiny 这种 1L 小主机，能装 ecc 内存条的？

Python 爬虫并发极限是多少呢?

关于李星玮以结婚为名玩弄感情并冷暴力的公开信

求一个最新发布的不忘初心系统

发现 Mac 端网易有道翻译的一个有趣的设置项

国内Docker 的镜像服务器必须下架

DockerHub 国内镜像源列表（2024 年 6 月 18 日亲测可用）

Python 爬虫并发极限是多少呢?

关于李星玮以结婚为名玩弄感情并冷暴力的公开信

求一个最新发布的不忘初心系统

发现 Mac 端网易有道翻译的一个有趣的设置项

国内Docker 的镜像服务器必须下架

DockerHub 国内镜像源列表（2024 年 6 月 18 日 亲测可用）

DockerHub 国内镜像源列表（2024 年 6 月 18 日亲测可用）