scrapy代理ip池结构简介

  互联网时代,从事爬虫工作的人非常多,经常使用爬虫的网络用户应该听过scrapy,它是一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。它最吸引人的地方在于它是一个框架,可以根据个人需求修改,这里主要介绍一下代理IP池结构,请看下面。

  代理池是由四部分组成:

  ProxyGetter:

  代理获取接口每调用一次就会抓取这个网站的最新代理放入DB,可自行添加额外的代理获取接口;

  DB:

  用于存放代理IP,现在暂时只支持SSDB。如果你没有用过SSDB,安装起来也很简单;

  Schedule:

  计划任务用户定时去检测DB中的代理可用性,删除不可用的代理。同时也会主动通过ProxyGetter去获取最新代理放入DB;

  ProxyApi:

  代理池的外部接口,功能是给爬虫提供get/delete/refresh等接口,方便爬虫直接使用。

  这个就是scrapy代理ip池结构的简单介绍了,大家明白了吗?