由于代理行业鱼龙混杂,各种报价和包装,使得研发难以快速的找到性价比高的产品。因此将产品选择过程中的方法进行了整理以便大家参考:
市面上的产品按照使用方式分为两大类:
1、网页提取代理
网上名字有 API 提取代理、动态短效代理、动态混拨、优质代理等,通过 HTTP 请求 URL 提取文本,格式一般是 IP:PORT,也有一些是支持 JSON,这种产品适合程序提取之后存入队列,自建 IP 池做策略管理,需要进行存活检测、控制有效时间和线程锁定。
2、认证信息代理
网上名字有爬虫代理、动态转发代理、隧道代理等,是代理服务器自动转(隧道技术),通过配置固定代理域名、端口、用户名和密码直接使用,一般默认每个 HTTP 请求自动转发。有些产品是定时自动进行 IP 切换,在一个时间段内所有请求都是相同 IP 转发。
那么如何快速的选择产品呢,从几个方面作为考虑依据:
1、目标网站反爬难度
2、爬虫策略复杂程度
3、代理 IP 有效时间
4、部署是单机还是集群
参考上面的要点,推荐如下
一般采集的网站反爬较多,爬虫程序需要控制 IP 策略,例如登录、数据采集需要相同 IP、控制 IP 访问频率、部署机器群进行数据采集等这些情况下推荐网页提取代理(又称 API 代理),因为提取之后的代理 IP,可以通过 IP 池的策略进行管理、分配和使用。
采集的网站反爬不多,那么建议认证信息代理(又称转发代理、爬虫代理、隧道代理),这种产品是自动实现 IP 切换和转发,爬虫程序只需要使用代理信息直接发送请求即可,使用快捷方便。
如果不清楚目标的网站反爬情况咋办呢?那就先测试认证信息代理,因为使用简单方便,部分代理厂家还会提供 demo,直接复制输入代理信息即可运行,观察爬虫采集情况,如果效果不理想,再调整爬虫策略或者更换代理产品。
如何快速测试找到适合的产品呢?
代理厂家将代理产品进行了各种包装,但是万变不离其宗,根据不同的产品重点关注几个方面:
1、网页提取代理
(1) 提取 IP 的单价
(2) IP 的有效时间
(3) HTTP 请求延迟
(4) 每秒并发
(5) 线路带宽
上面的几个参数一眼就能看明白对吧,肯定是选择价格低、有效时间长、延迟低、每秒并发高、线路带宽高的产品。但有趣的是代理厂家通过包装就能够鱼目混珠啦。