爬虫基础篇之IP代理池

代理池介绍

由众多ip组成提供多个稳定可用代理IP的ip池。

当我们做爬虫时，最常见的反爬手段就是IP反爬，当同一个IP访问网站超出频控限制，将会被限制访问，那么代理IP池应运而生。资金充足的情况下个人建议还是付费ip代理池，比较免费ip时效性低，且难以维护。

爬取流程

代理IP采集模块：采集代理IP -> 检测代理IP ->如果不可用用, 直接过滤掉, 如果可用, 指定默认分数 -> 存入数据库中

代理IP检测模块：从数据库中获取所有代理IP -> 检测代理IP -> 如果代理IP不可用用, 就把分数-1, 如果分数为0从数据库中删除, 否则更新数据库, 如果代理IP可用, 恢复为默认分值,更新数据库

代理API模块：从数据库中高可用的代理IP给爬虫使用;

模块

爬虫模块

从代理IP网站上采集代理IP ,对抓取的ip进行校验(获取代理响应速度, 协议类型, 匿名类型), 并存储到数据库中。

校验模块

网站上所标注的响应速度,协议类型和匿名类型是不准确的，通过http://httpbin.org进行检测，获取指定代理的响应速度, 支持的协议以及匿名程度。

数据库模块

使用MongoDB来存储代理IP并实现对代理IP的增删改查操作。

检测模块

定时从数据库读取所有的代理IP，对代理IP进行逐一检测, 开启多个协程, 以提高检测速度，如果该代理不可用, 就让这个代理分数-1, 当代理的分数到0了, 就删除该代理; 如果检测到代理可用就恢复为满分。

API模块

根据协议类型和域名获取多个随机的高质量代理IP，根据代理IP不可用域名, 告诉代理池这个代理IP在该域名下不可用, 下次获取这个域名的代理IP时候, 就不会再获取这个代理IP了, 从而保证代理IP高可用性。

其他模块

数据模型

代理IP的数据模型, 用于封装代理IP相关信息, 比如ip,端口号, 响应速度, 协议类型, 匿名类型,分数等。

程序入口

代理池提供一个统一的启动入口

工具模块

日志模块: 用于记录日志信息

http模块: 用于获取随机User-Agent的请求头

配置文件

用于默认代理的分数, 配置日志格式, 文件, 启动的爬虫, 检验的间隔时间等。

实战

思路1：依据流程图，逐步实现各个模块，当需要依赖其他模块时，暂停当前模块，开发其他模块功能，实现完毕再回头开发联调。

思路2：先实现不依赖其他模块的基础模块，再逐步实现具体的功能模块，比如爬虫模块, 检测模块, 代理API模块。

这里我们选择思路2实现爬虫代理IP池，因为思路1适合个人完成，不适合分工合作，且不易维护，思路跳来跳去，必须逻辑清晰。

数据模型domain

settings.py 中定义MAX_SCORE = 50, 表示代理IP的默认最高分数

日志模块log

导入settings中日志配置信息,如下

LOG_LEVEL = logging.DEBUG # 默认等级

LOG_FMT = ‘%(asctime)s %(filename)s [line:%(lineno)d] %(levelname)s: %(message)s’ # 默认日志格式

LOG_DATEFMT = ‘%Y-%m-%d %H:%M:%S’ # 默认时间格式

LOG_FILENAME = ‘log.log’ # 默认日志文件名称

请求模块http

返回随机请求头和随机User-Agent,对抗反爬

校验模块httpbin_validator

检查代理IP速度和匿名程度;

代理IP速度: 就是从发送请求到获取响应的时间间隔

匿名程度检查:

对 http://httpbin.org/get 或 https://httpbin.org/get 发送请求

如果响应的origin 中有’,分割的两个IP就是透明代理IP

如果响应的headers 中包含 Proxy-Connection 说明是匿名代理IP

否则就是高匿代理IP

检查代理IP协议类型

如果 http://httpbin.org/get 发送请求可以成功, 说明支持http协议

如果 https://httpbin.org/get 发送请求可以成功, 说明支持https协议

数据库模块mongo_pool

在init中, 建立数据连接, 获取要操作的集合, 在 del 方法中关闭数据库连接

提供基础的增删改查功能

提供代理API模块使用的功能

实现查询功能: 根据条件进行查询, 可以指定查询数量, 先分数降序, 速度升序排, 保证优质的代理IP在上面.

实现根据协议类型和要访问网站的域名, 获取代理IP列表

实现根据协议类型和要访问网站的域名, 随机获取一个代理IP

实现把指定域名添加到指定IP的disable_domain列表中.

爬虫模块base_spider

在base_spider.py文件中,定义一个BaseSpider类, 继承object

提供三个类成员变量:

urls: 代理IP网址的URL的列表

group_xpath: 分组XPATH, 获取包含代理IP信息标签列表的XPATH

detail_xpath: 组内XPATH, 获取代理IP详情的信息XPATH, 格式为: {‘ip’:‘xx’, ‘port’:‘xx’, ‘area’:‘xx’}

提供初始方法, 传入爬虫URL列表, 分组XPATH, 详情(组内)XPATH

对外提供一个获取代理IP的方法

遍历URL列表, 获取URL

根据发送请求, 获取页面数据

解析页面, 提取数据, 封装为Proxy对象

返回Proxy对象列表

具体爬虫实现proxy_spiders

实现西刺代理爬虫: http://www.xicidaili.com/nn/1

定义一个类,继承通用爬虫类(BasicSpider)