1、匿名保平安!
2、截止2020年4月15日的所有回答,是不是广告你细品!
讲道理,这个行业水深火热,各种营销,各种名词,各种私密代理、公开代理等等,其实都是质量残次不齐的表现,讲几个关键词
住宅IP:高匿是付费代理的基本要求,不是高匿的就不在本次讨论范围,就好像我们讨论哪款汽车好,不应该考虑自行车一样,那什么是住宅IP?我们可以理解成IP真人率的问题,你获取的IP代理,通过检测网站:https://ip.rtbasia.com/,显示如下:
我们再输入一个阿里云的服务器地址,注意对比我红框框选的内容有什么区别,结果如下:
那么问题来了,如果你是目标网站,你发现访问你网站的IP都来自于数据中心,你会认为它是正常用户吗?当你认为它是爬虫程序时,你还会给它返回正常的数据吗?拒绝访问、返回空白这些都还是轻的,有些网站会返回给你“加工”过的数据,而你自己还不自知,这才是最恐怖的,当你利用了这些不正确的数据,后果你细品。
这里要说明一点,检测是不是真实宽带或者数据中心的IP,一定要检测发送请求的IP,而不是服务器的ip,服务器的IP一定是显示数据中心的,因为有些二次转发的模式,返回给你的IP都是服务器IP,但是请求IP会另外分配。
独享IP:是指当你获取IP后,这段时间内,这个IP就只提供给你使用而不会分配给其他人使用,这样保证了IP的稳定性,同时确保了带宽,不会受到其它用户干扰,如果是共享IP,那同时有很多人在使用这个IP发送请求,速度就得不到保证,如果同时有另外一个用户也在爬取跟你一样的网站,同一个IP发送多个请求,你细品会发生什么?那么如何区分独享还是共享呢?很简单,提取不收费,使用才收费的,就都是共享的,因为IP放在哪里,你不用别人在用,我没什么损失,独享IP一般都是提取就计费的,因为分配给你之后,这个IP就被你占用了,我无法卖给其它人,所以无论你用不用,我都会收费,现在你还觉得提取不扣费,使用才扣费的就是好产品吗?
IP池大小:现在声称几十万、几百万、几千万IP的都有,但是重复调用的和真实IP要区分开,有些有1万IP,重复调用每天能有几十万,会声称自己几十万IP,有些有十万IP,重复调用每天可到百万级别,会吹嘘自己有几百万IP,我目前用到过的,真实IP每天能获取240万左右,重复调用在4000万左右,避免广告嫌疑,我就不说是哪家了,不过真有这么大需求的话,我想你也不会轻易下手购买,市面上主流的都测试一遍,你就知道我说的是哪家了。无论广告怎么吹嘘,一测就什么都出来了,所以重要的事情说三遍:多测试多对比!多测试多对比!多测试多对比!
并发量:并发是什么意思大家都懂,测试一家供应商实力除了看IP池,其实看并发量也是很好的一个指标,小打小闹的,并发量肯定是不高的,我用过最高的并发可以达到万级的。同样是上面的那家。
分布:真正离散分布的住宅IP,分布肯定是遍布全国所有的城市,或者全球几乎所有互联网覆盖的国家和地区,只是数量多与少的问题,这样与网民IP高度重合的,才是网站反爬程序最无解的。
时效:其实爬虫对于IP时效要求很低,因为一个IP一般短时间内根据反爬,发送几次请求就需要更换了,所以对时效要求不高,短的几十秒1分钟就够,长的也就十几分钟半个小时。所以这点对爬虫不那么重要。
所以,爬虫程序在选择IP代理的时候,一定要选择住宅IP,而且必须独享,一分钱一分货,一块钱五分货是没错的,所以那些几百块钱包月不限量提取的,你问问为什么那么便宜。那些所谓的开放代理、私密代理,如果你是个人小需求,可以试试看,大公司就别去浪费时间了,一来它没那么大量满足你,二来质量也满足不了你的要求。
另外,所谓的不限量,实际上是限量的,因为它池子有限,所以会限制你提取频率,限制并发,比如每10秒才能提取50个IP,那你算算一天最多是多少IP?这叫不限量吗?
空闲随便写了写,有空再来补充,也许也不会补充[狗头]
做爬虫的大佬们,可以一起交流一下呀,看到了我会私信你们的,卖IP的就别来了,仅限技术交流。
公司长期需要采集数据,因此经常到找各种代理 IP 进行测试,由于代理行业鱼龙混杂,各种报价和包装,使得研发难以快速的找到性价比高的产品。因此将产品选择过程中的方法进行了整理以便大家参考:
市面上的产品按照使用方式分为两大类:
1、网页提取代理
网上名字有 API 提取代理、动态短效代理、动态混拨、优质代理等,通过 HTTP 请求 URL 提取文本,格式一般是 IP:PORT,也有一些是支持 JSON,这种产品适合程序提取之后存入队列,自建 IP 池做策略管理,需要进行存活检测、控制有效时间和线程锁定。
2、认证信息代理
网上名字有爬虫代理、动态转发代理、隧道代理等,是代理服务器自动转(隧道技术),通过配置固定代理域名、端口、用户名和密码直接使用,一般默认每个 HTTP 请求自动转发。有些产品是定时自动进行 IP 切换,在一个时间段内所有请求都是相同 IP 转发。
那么如何快速的选择产品呢,从几个方面作为考虑依据:
1、目标网站反爬难度
2、爬虫策略复杂程度
3、代理 IP 有效时间
4、部署是单机还是集群
参考上面的要点,推荐如下
一般采集的网站反爬较多,爬虫程序需要控制 IP 策略,例如登录、数据采集需要相同 IP、控制 IP 访问频率、部署机器群进行数据采集等这些情况下推荐网页提取代理(又称 API 代理),因为提取之后的代理 IP,可以通过 IP 池的策略进行管理、分配和使用。
采集的网站反爬不多,那么建议认证信息代理(又称转发代理、爬虫代理、隧道代理),这种产品是自动实现 IP 切换和转发,爬虫程序只需要使用代理信息直接发送请求即可,使用快捷方便。
如果不清楚目标的网站反爬情况咋办呢?那就先测试认证信息代理,因为使用简单方便,部分代理厂家还会提供 demo,直接复制输入代理信息即可运行,观察爬虫采集情况,如果效果不理想,再调整爬虫策略或者更换代理产品。
如何快速测试找到适合的产品呢?
代理厂家将代理产品进行了各种包装,但是万变不离其宗,根据不同的产品重点关注几个方面:
1、网页提取代理
(1) 提取 IP 的单价
(2) IP 的有效时间
(3) HTTP 请求延迟
(4) 每秒并发
(5) 线路带宽
上面的几个参数一眼就能看明白对吧,肯定是选择价格低、有效时间长、延迟低、每秒并发高、线路带宽高的产品。但有趣的是代理厂家通过包装就能够鱼目混珠啦。以下是三个产品的介绍,大家选择看看那个性价比最好
开始揭晓答案了:
大部分会选择 B 产品,因为价格最低,并且提取速度不限制,这个看起来就很好,但是这款产品是最贵的,因为每天 5 元只能提取 1000 个 IP,一个字贵,两个字用不起。
接下来应该选择 A,因为价格适中,并且使用无上限,还没有 IP 白名单的的限制,应该是最适合的吧。
说说 C 产品吧,一看去是最差的,因为价格最高、还限制 ip 白名单。
最后我们公司购买了 C 产品,还是年付合作,为啥会这样,我将结果选择过程整理如下:
B 产品首先淘汰,因为最贵,并且 IP 有效时间也不够长,相同成本下的采集量最低。
A 产品看起来很不错,但是这个价格和有效时间下,意味着可发出的请求和 IP 可用量比 C 产品减少 1 倍,性价比就差多了,但是 IP 白名单不限制这个很好,可以机器集群多开,这样算下来,多跑一台机器,性价比就回来了。因此我们开始也是选择 A 产品,然后进行测试,发现如果机器增加上去,根本就跑不动,带宽和并发都被限制了,请求延迟高达 1 秒以上、并发小于 10。
接下来是 C 代理了,由于有效时间长,因此可用 IP 及请求总量都是最好的,但是限制 IP 白名单呀,上线测试一下,请求延迟小于 300ms、并发超过 10 以上,采集速度很快,需要机器集群多开咋办?联系客服后每台机器增加一点带宽费用就可以了,算下来相同成本下,采集的数据量是最多的,看看这才是优秀的产品嘛。
通过上面的案例大家知道如何选择了吧。
1、认证信息代理
(1) HTTP 请求延迟
(2) 线路带宽
认证信息代理使用简单也是最容易入坑的,因为参数各家都差不多,一般都是按照每秒并发数进行报价,因此谁家便宜就用谁即可。但是采购经费和采集数量的对比,才能提现性价比。如果要量化对比,就是每秒并发价格与每秒采集数量,而这个参数需要靠请求的延迟和带宽情况测试才能确定。因此一定一定一定要运行测试程序统计代理参数,才能准确比较,而不是简单看报价。
因此采购这类产品的时候,我们直接用程序进行压力测试,按照每秒请求数、请求延迟时间、线路带宽进行综合评测,结合每秒并发报价,就可以选择性价比最高的产品。另外测试过程中还发生了一个有趣的事情,其中一家代理产品,竟然默认开启了数据缓存,对延迟时间造假,对于相同的请求,第一次 HTTP 请求延迟很高,接下来大量的请求延迟非常低(甚至低于服务器响应时间)的假象,如下图:
这种情况下会很容易让测试程序被骗,测试的时候采集速度很快,其实返回的都是缓存数据,真实线上运行的时候,速度就很慢,延迟也从 100ms 变成 1000ms 以上,同时还会干扰爬虫程序策略,因为目标网站反爬就是返回缓存数据,这样情况下没法判断是代理缓存还是被目前服务器缓存,太坑啦。
爬虫的小伙伴可以去领取免费的代理IP试一下啦!
国内高质动态IP。时效2-10分钟,注册免费领取一万代理IP。官网地址
代理云 - 企业级分布式代理IP池PAAS平台|提供HTTP代理IP池租用与定制服务www.dailiyun.com注册电脑端
代理云 - 可视化用户控制台console.v4.dailiyun.com/user/?channel=wyh注册手机端
代理云 - 可视化用户控制台console.v4.dailiyun.com/user/mobile/?channel=wyhM————————————————
原文作者:jackcoden
转自链接:爬虫代理产品如何快速选择 | Python 技术论坛
版权声明:著作权归作者所有。商业转载请联系作者获得授权,非商业转载请保留以上作者信息和原文链接。
爬虫一般使用高匿名的代理ip比较好,因为高匿代理ip能够隐藏我们本地的ip地址,能够保护个人的信息。
寻找高匿名ip的小技巧:
首先进入品易http然后点击api提取,提取自己想要的ip协议及类型。
然后点击生成api链接就可以了。
大家可以点击复制链接或者直接打开链接。就可以测试是否适合爬虫了。
品易HTTP-爬虫代理IP-千万动态HTTP代理IPhttp.py.cn/?utm-source=py&utm-keyword=?1007大规模的爬虫业务,可以去代理云测试一下。
首先使用IP不限设备数量,海量并发吞吐,API不限提取速度,API提取IP数量1000+,IP池24小时源源不断生成代理IP,不会因为IP使用光了提取不出IP,造成业务暂停,做爬虫业务完全没压力。
在选择代理的时候应满足一下的条件。
http的稳定性:鉴于爬虫时我们需要使用大量代理,假如一个代理响应速度特别快,很快就能得到响应,而下一次请求使用的代理响应速度特别慢,等了三十秒才得到响应,那势必会影响爬取效率,所以我们需要看下商家提供的这些代理稳定性怎样。
http的可利用率:可利用率,是指提取的这些代理http中能够正常使用的比率。假如说我们无法使用这个http请求网站、服务器或是访问时超时,那么就代表这个代理http可用率太差,甚至是不可用。
http的安全性:http的安全性也是一个非常关键的对比因素,用于维护我们网络的安全,保护我们的个人信息。
芝麻HTTP代理包括200+地区ip资源,支持自定义提取、快速响应、低延迟、稳定配合爬虫工作。注册领取10000IP免费测试。
芝麻HTTP官网:高匿HTTP代理IP,SOCKS5代理IP,360天IP去重服务h.zhimaruanjian.com/?utm-source=yj&utm-keyword=?1