目录
本文相关链接、代码等均可通过【阅读原文】崔庆才的博客链接获得。
前言
随着大数据时代的到来,爬虫已经成了获取数据必不可少的方式,做过爬虫的想必都深有体会,爬取的时候莫名其妙 IP 就被网站封掉了,毕竟各大网站也不想自己的数据被轻易地爬走。
对于爬虫来说,为了解决封禁 IP 的问题,一个有效的方式就是使用代理,使用代理之后可以让爬虫伪装自己的真实 IP,如果使用大量的随机的代理进行爬取,那么网站就不知道是我们的爬虫一直在爬取了,这样就有效地解决了反爬的问题。
那么问题来了,使用什么代理好呢?这里指的代理一般是 HTTP 代理,主要用于数据爬取。现在打开搜索引擎一搜 HTTP 代理,免费的、付费的太多太多品牌,我们该如何选择呢?看完这一篇文章,想必你心中就有了答案。
对于免费代理,其实想都不用想了,可用率能超过 10% 就已经是谢天谢地了。真正靠谱的代理还是需要花钱买的,那这么多家到底哪家可用率高?哪家响应速度快?哪家比较稳定?哪家性价比比较高?为此,我对市面上比较流行的多家付费代理针对可用率、爬取速度、爬取稳定性、价格、安全性、请求限制等做了详细的评测,让我们来一起看一下到底哪家更强!
测评范围
免费代理
在这里我主要测试的是付费代理,免费代理可用率太低,几乎不会超过 10%,但为了作为对比,我选取了西刺免费代理进行了测试。
付费代理
付费代理我选取了站大爷、芝麻 HTTP 代理、太阳 HTTP 代理、讯代理、快代理、蘑菇代理、阿布云代理、全网代理、云代理、大象代理进行了对比评测,购买了他们的各个不同级别的套餐使用同样的网络环境进行了测评,详情如下:
代理商家
套餐类型
官方网站
芝麻 HTTP 代理
默认版
阿布云代理
专业版
https://www.abuyun.com
动态版
经典版
大象代理
个人版
http://www.daxiangdaili.com
专业版
企业版
全网代理
普通版
http://www.goubanjia.com
动态版
快代理
VIP 套餐
https://www.kuaidaili.com
蘑菇代理
默认版
http://www.mogumiao.com
太阳 HTTP 代理
默认版
http://http.taiyangruanjian.com
讯代理
优质代理
http://www.xdaili.cn
混播代理
独享代理
云代理
VIP 套餐
http://www.ip3366.net
站大爷代理
普通代理
http://ip.zdaye.com
短效优质代理
注:其中蘑菇代理、太阳 HTTP 代理、芝麻 HTTP 代理的默认版表示此网站只有这一种代理,不同套餐仅是时长区别,代理质量没有差别。
嗯,我把上面的套餐全部买了一遍,以供下面的评测使用。
测评目标
本次测评主要分析代理的可用率、响应速度、稳定性、价格、安全性、使用频率等因素,下面我们来一一进行说明。
可用率
可用率就是提取的这些代理中可以正常使用的比率。假如我们无法使用这个代理请求某个网站或者访问超时,那么就代表这个代理不可用,在这里我的测试样本大小为 500,即提取 500 个代理,看看里面可用的比率多少。
响应速度
响应速度可以用耗费时间来衡量,即计算使用这个代理请求网站一直到得到响应所耗费的时间。时间越短,证明代理的响应速度越快,这里同样是 500 个样本,计算时只对正常可用的代理做统计,计算耗费时间的平均值。
稳定性
由于爬取时我们需要使用大量代理,如果一个代理响应速度特别快,很快就能得到响应,而下一次请求使用的代理响应速度特别慢,等了三十秒才得到响应,那势必会影响爬取效率,所以我们需要看下商家提供的这些代理稳定性怎样,总不能这一个特别快,下一个又慢得不行。所以这里我们需要统计一下耗费时间的方差,方差越大,证明稳定性越差。
价格
价格,这个当然是需要考虑的内容,如果一个代理不论是响应速度还是稳定性都特别不错,但是价格非常非常高,这也是不可接受的。
安全性
这的确也是需要考虑的因素,比如一旦不小心把代理提取的 API 泄露出去了,别人就肆意使用我们的 API 提取代理使用,而一直耗费的是我们的套餐。另外一旦别人通过某些手段获取了我们的代理列表,而这些代理是没有安全验证的,这也会导致别人偷偷使用我们的代理。在生产环境上,这方面尤其需要注意。
使用频率
有些代理套餐在 API 调用提取代理时有频率限制,有的代理套餐则会限制请求频率,这些因素都会或多或少影响爬虫的效率,这部分因素我们也需要考虑进来。
测评标准
要做标准的测评,那就必须在标准的测评环境下进行,且尽可能排除一些杂项的干扰,如网络波动、传输延迟等一系列的影响。
主机选取
由于我的个人笔记本是使用 WiFi 上网的,所以可能会有网络波动,而且实际带宽其实并不太好把控,因此它并不适合来做标准评测使用。评测需要在一个网络稳定的条件下进行,而且多个代理的评测环境必须相同,在此我选择了一台腾讯云主机作为测试,主机配置如下:
参数名
参数值
操作系统
Ubuntu 16.04.1 LTS (GNU/Linux 4.4.0-53-generic x86_64)
带宽
5 Mbps
核心数
2
内存
4GB
Python 版本
3.5.2
这样我们就可以保证一个标准统一的测试环境了。
现取现测
另外在评测时还需要遵循一个原则,那就是现取现测,即取一个测一个。现在很多付费代理网站都提供了 API 接口,我们可以一次性提取多个代理,但是这样会导致一个问题,每个代理在提取出来的时候,商家是会尽量保证它的可用性的,但过一段时间,这个代理可能就不好用了,所以假如我们一次性提取出来了 100 个代理,但是这 100 个代理并没有同时参与测试,后面的代理就会经历一个等待期,过一段时间再测这些代理的话,肯定会影响后半部分代理的有效性,所以这里我们将提取的数量统一设置成 1,即请求一次接口获取一个代理,然后立即进行测试,这样可以保证测试的公平性,排除了不同代理有效期的干扰。
时间计算
由于我们有一项是测试代理的响应速度,所以我们需要计算程序请求之前和得到响应之后的时间差,这里我们使用的测试 Python 库是 requests,所以我们就计算发起请求和得到响应之间的时间差即可,时间计算方法如下所示:
这里 used_time 就是使用代理请求的耗时,这样测试的就仅仅是发起请求到得到响应的时间。
测试链接
测试时我们也需要使用一个稳定的且没有反爬虫的链接,这样可以排除服务器的干扰,这里我们使用百度来作为测试目标。
超时限制
在测试时免不了的会遇到代理请求超时的问题,所以这里我们也需要统一一个超时时间,这里设置为 60 秒,如果使用代理请求百度,60 秒还没有得到响应,那就视为该代理无效。
测试数量
要做测评,那么样本不能太小,如只有十几次测试是不能轻易下结论的,这里我选取了一个适中的测评数量 500,即每个套餐获取 500 个代理进行测试。
测评过程
嗯,测评过程这边主要说一下测评的代码逻辑,首先测的时候是取一个测一个的,所以这里定义了一个 test_proxy() 方法:
这里需要传入一个参数 proxy,代表一个代理,即 IP 加端口组成的代理,然后这里使用了 requests 的 proxies 参数传递给 get() 方法。对于代理无效的检测,这里判断了ProxyError, ConnectTimeout, SSLError, ReadTimeout, ConnectionError 这几种异常,如果发生了这些异常统统视为代理无效,返回错误。如果在 timeout 60 秒内得到了响应,那么就计算其耗费时间并返回。
在主程序里,就是获取 API 然后统计结果了,代码如下:
这里加了一些判断,如 is_proxy() 方法判断了获取的是不是符合有效的代理规则,即判断它是不是 IP 加端口的形式,这样可以排除 API 返回一些错误信息的干扰。另外这里设置了 total_count 和 valid_count 变量,只有符合代理规则的代理参与了测试,这样才算一次有效测试,total_count 加一,如果测试可用,那么 valid_count 加一并记录耗费时间。最后调用了 stats_results 方法进行了统计:
这里使用了 Numpy 来统计了耗费时间的均值和方差,分别反映代理的响应速度和稳定性。
嗯,就这样,利用这个方法我对各个不同的代理套餐逐一进行了测试。
测评结果
经过测评,初步得到如下统计结果:
注:
表中的响应时间方差越大,代表稳定性越低。
阿布云代理经典版方差较小是因为它是长时间锁定了同一个 IP,因此极其稳定,但每秒最大请求默认 5 次。
下面我们将从各个方面分析一下各个套餐的优劣。
可用率
通过可用率统计,我们可以发现可用率较高的代理套餐有:
响应速度
通过平均响应速度判别,我们可以发现响应速度较快的代理套餐有:
稳定性
通过平均响应速度方差分析,我们可以发现稳定性较高的代理套餐有:
价格
我们可以先看一下各个套餐的价格:
按照包月的价格,我们可以统一对比如下:
安全性
对于安全性,此处主要考虑提取 API 是否有访问验证,使用代理时是否有访问验证,即可以通过设置白名单来控制哪些可以使用。
其中只有芝麻 HTTP 代理、太阳 HTTP 代理默认使用了白名单限制,即只有将使用 IP 添加到白名单才可以使用,可以有效控制使用权限。
另外阿布云代理提供了隧道代理验证,只有成功配置了用户名和密码才可以正常使用。
所以在此归纳如下:
调取频率
不同的接口具有不同的 API 调用频率限制,归纳如下:
在此可以简单总结如下:
特色功能
除了常规的测试之外,我这边还选取了某些套餐的与众不同之处进行说明,这些特点有的算是缺点,有的算是优点,现列举如下:
测评综合
分项了解了各个代理套餐的可用率、响应速度、稳定性、性价比、安全性等内容之后,最后做一下总结:
所以综合来看,比较推荐的有:芝麻代理、讯代理、阿布云代理三家,详细的对比结果可以参照表格。
以上便是各家代理的详细对比测评情况,希望此文能够在大家选购代理的时候有所帮助。
图书推荐
如果你喜欢这篇文章,节后春暖花开的 3 月预售的爬虫大书想必是你绝对不想错过的。先默默告诉你,要学爬虫,除了《Python 网络数据采集》,记得等下面这本书哦!崔庆才(网名静觅)倾力打造的《Python 3 网络爬虫开发实战》3 月下旬即可预订——现在一起开启期待好书上架模式吧!
作者:崔庆才 定价:99
预售时间:2018 年 3 月
本书介绍了如何利用 Python 3 开发网络爬虫,书中首先详细介绍了环境配置过程和爬虫基础知识,然后讨论了 urllib、requests 等请求库和 Beautiful Soup、XPath、pyquery 等解析库以及文本和各类数据库的存储方法,接着通过多个案例介绍了分析 Ajax 进行数据爬取,Selenium 和 Splash 进行动态网站爬取的过程,接着介绍了爬虫的一些技巧,如使用代理爬取和维护动态代理池的方法,ADSL 拨号代理的使用,图形、极验、点触、宫格等各类验证码的破解方法,模拟登录网站爬取的方法及 Cookies 池的维护。
此外,本书还结合移动互联网的特点探讨了使用 Charles、mitmdump、Appium 等工具实现 App 爬取的方法,紧接着介绍了 pyspider 框架、Scrapy 框架的使用和分布式爬虫的知识,最后介绍了 Bloom Filter 效率优化、Docker 和 Scrapyd 爬虫部署、Gerapy 爬虫管理等方面的知识。
崔庆才 北京航空航天大学硕士,北京钉趣网络公司技术总监,个人博客 cuiqingcai.com,其上爬虫文章浏览量总计已过百万。
大咖推荐
在互联网软件开发工程师的分类中,爬虫工程师是非常重要的。爬虫工作往往是一个公司核心业务开展的基础,数据抓取下来,才有后续的加工处理和最终展现。数据的抓取规模、稳定性、实时性、准确性就显得非常重要。早期的互联网充分开放互联,数据获取的难度很小。随着各大公司对数据资产日益看重,反爬水平也在不断提高,各种新技术不断给爬虫软件提出新的课题。本书作者对爬虫的各个领域都有深刻研究,书中探讨了关于Ajax数据的抓取、动态渲染页面的抓取、验证码识别、模拟登录等高级话题,同时也结合移动互联网的特点探讨了App的抓取等,更重要的是提供了大量源码,可以帮助读者更好理解。强烈推荐给各位技术爱好者阅读。
——梁斌,八友科技总经理
数据既是当今大数据分析的前提,也是各种人工智能应用场景的基础。得数据者得天下,会爬虫者走遍天下也不怕! 一册在手,让小白到老司机都能有所收获!
——李舟军,北京航空航天大学教授,博士生导师
本书从爬虫入门基础到分布式抓取,详细介绍了爬虫技术的各个要点,并针对不同的场景提出了对应的解决方案。另外,本书通过大量的实例来帮助读者更好地学习爬虫技术,通俗易懂,干货满满,强烈推荐给大家!
——宋睿华,微软小冰首席科学家
有人说中国互联网的带宽全给各种爬虫占据了,这说明网络爬虫的重要性以及中国互联网数据封闭垄断的现状。爬是一种能力,爬是为了不爬。
——施水才,北京拓尔思信息技术股份有限公司总裁
崔庆才
静觅博客博主
隐形字
进击的Coder
长按识别二维码关注
☟【阅读原文】查看作者博客