你是否还在为找不到合适的代理IP而发愁?你是否在为不知道如何设置代理IP而头疼?你是否在为不知道选用哪种代理IP能解决问题而纠结?一篇文章,让你彻底了解代理IP,前嗅大数据带你走进代理IP的世界!前嗅将从代理IP的原理、动静态代理IP的区别、市场上代理IP的行业分析、设置代理IP、常见几种反爬的解决方案等方面来为你揭开代理IP的神秘面纱。一. 什么是代理IP?(代理ip有哪几种?)IP是上网需要唯一的身份地址,身份凭证,而代理IP就是我们上网过程中的一个中间平台,是由本机电脑先访问代理IP,之后再由代理IP访问目标网站页面,所以在这个页面的访问记录里留下的是就是代理IP的地址,而不是本机IP。代理IP根据协议可分为http协议代理、https协议代理和socket5代理。1. http协议代理http协议代理仅仅用于转发,其原理是由本机联系代理服务器,服务器请求,访问目标网站服务器解析数据,最后返回数据到本机。2. https协议代理https协议代理是加密协议代理,先由本机发送请求到代理服务器,代理服务器核实请求中的用户名密码,确认无误后,连接目标网站的服务器,返回传输回来的加密数据到本机。3. Socket5代理socket5代理也是一种代理协议,与https类似,区别在于socket发送的是标明请求类型及含义的二进制代码。Socket5代理更底层,即可访问http协议网站,又可访问https协议网站。其相同点在于:访问https协议网站时返回的也是加密后的数据,访问http协议网站时返回的是不加密数据。 什么是VPN?VPN一般指虚拟专用网络。虚拟专用网络功能是:在公用网络上建立专用网络,进行加密通讯。在企业网络中有广泛应用。VPN网关通过对数据包的加密和数据包目标地址的转换实现远程访问。VPN有多种分类方式,主要是按协议进行分类。VPN可通过服务器、硬件、软件等多种方式实现。VPN与代理IP有什么区别?VPN主要用于从外网访问企业、公司的内部网络,原理是先登录到VPN防火墙、服务器,得到权限,在进入内网。这个过程,用户一直是以自己的身份进行的。而代理IP是一种代理,也就是先所有的交互数据都先经过另一台服务器(代理IP服务商),这个过程中用户访问其他网络是都是使用的代理服务提供者的身份。二.动态代理和静态代理有什么区别?市场上一般根据访问目标服务器的代理IP短时间内是否变化来判断动静态。1.什么是动态代理IP?访问目标服务器的代理IP是不断变化的,或短时间内更换访问的。市场上的动态代理IP一般可分为两种:短效代理和隧道代理。2.什么是静态代理IP?访问目标服务器的代理IP在一天及以上的一段时间内IP不变且持续有效。 三. 市场上有哪些代理IP?代理IP哪家好?(史上最全代理IP服务商对比分析)1. 短效代理代理IP服务商一般会有一个IP库,每个代理IP存活期1-2分钟、3分钟、5分钟、10分钟等。适用于需要代理IP数量大但时效短的业务场景。从衡量方式来分类,一般可分为按量购买和按时间购买两种。有些服务商只按量售卖,有些商家既按量售卖,也按时间售卖。PS:有些商家称为动态代理IP,动态短效代理IP、短效IP、动态IP、共享IP、静态短效代理、HTTP代理、HTTPS代理等。(1)按量购买①小象代理:小象代理有1000万+的IP池,套餐多样,短效代理IP价格如下:代理商单价起售数量性能介绍小象代理0.01元/ip20000个起售高匿名度、不限制最小提取间隔、HTTP、 HTTPS、SOCKS5、存活期二分钟、 余量永久有效②猿人云代理:动态短效代理IP基本都是按量计算,140万+不重复高匿IP。代理商单价起售数量性能介绍猿人云0.01币/个50起售;猿人币由人民币充值所得,一元对应一币,赠送猿人币的越多增的越多一分钟时效、一线及新一线城市0.03币/个三分钟时效、一线及新一线城市0.05币/个五分钟时效、一线及新一线城市0.09币/个十分钟时效、一线及新一线城市0.008币/个一分钟时效、二线城市及其他城市0.025币/个三分钟时效、二线城市及其他城市0.045币/个五分钟时效、二线城市及其他城市0.08币/个十分钟时效、二线城市及其他城市 ③MERO:MeroConnect平台主要与国内各大运营商合作,拥有50万+IP池。代理商单价起售数量性能介绍MERO0.01元/个1000个起售三分钟时效,按量购买,买多更便宜0.016元/个五分钟时效,按量购买,买多更便宜0.032元/个十分钟时效,按量购买,买多更便宜0.1元/个三十分钟时效,按量购买,买多更便宜 ④代理精灵:每天可用IP20万+,隶属于广州万宸软件科技有限公司,旗下有:智连代理、变机精灵、挂机精灵等产品。代理商单价起售数量性能介绍代理精灵0.003元/个500个起售1—5分钟时效0.01元/个300个起售5—25分钟时效0.03元/个100个起售25分钟—3小时时效0.18元/个50个起售3—6小时时效0.36元/个20个起售6-12小时时效0.72元/个10个起售12—24小时时效 ⑤Liuguan:500万+IP,均为住宅IP,有流量、IP数、并发计费三种模式来购买使用。代理商单价起售数量性能介绍Liuguan0.003币/个10元起充;金币由人民币充值所得,一元对应一币,赠送金币的越多增的越多一分钟时效0.005币/个三分钟时效0.01币/个五分钟时效0.02币/个十分钟时效0.03币/个十五分钟时效0.05币/个三十分钟时效 (2)按时间购买①快代理:快代理每天有15万私密代理及高品质代理服务器。代理商单价时间性能介绍快代理5元/个包天每天更换/固定;带宽1Mb/s;爬虫并发请求5次/s;独享7元/个包天固定;带宽2Mb/s;爬虫并发请求10次/s;独享11元/个包天固定;带宽4Mb/s;爬虫并发请求20次/s;独享22元/个包周每天更换/固定;带宽1Mb/s;爬虫并发请求5次/s;独享29元/个包周固定;带宽2Mb/s;爬虫并发请求10次/s;独享43元/个包周固定;带宽4Mb/s;爬虫并发请求20次/s;独享54元/个包月每天更换/固定;带宽1Mb/s;爬虫并发请求5次/s;独享72元/个包月固定;带宽2Mb/s;爬虫并发请求10次/s;独享108元/个包月固定;带宽4Mb/s;爬虫并发请求20次/s;独享 ②品赞代理:品赞代理拥有1000万+代理IP池,每天住宅IP数量将近 500 万左右。代理商单价时间性能介绍品赞代理3元包天一分钟时效,日IP上线1000个5元包天三分钟时效,日IP上线1000个10元包天五分钟时效,日IP上线1000个20元包天十分钟时效,日IP上线1000个21元包周一分钟时效,日IP上线1000个35元包周三分钟时效,日IP上线1000个70元包周五分钟时效,日IP上线1000个140元包周十分钟时效,日IP上线1000个90元包月一分钟时效,日IP上线1000个150元包月三分钟时效,日IP上线1000个300元包月五分钟时效,日IP上线1000个600元包月十分钟时效,日IP上线1000个 ③MERO:MeroConnect平台主要与国内各大运营商合作,拥有50万+IP池。代理商单价时间性能介绍MERO0.005元/个包天三分钟时效,1000个起售0.008元/个包天五分钟时效,1000个起售0.016元/个包天十分钟时效,1000个起售0.05元/个包天三十分钟时效,1000个起售 ④齐云:齐云代理IP,产品分为私密代理IP和开放代理IP,私密代理IP有10万+的代理IP池,开放代理IP有30万+的代理IP池。代理商单价时间性能介绍齐云6元包天动态IP;提取次数无限制;开放代理30元包周80元包月399元包年39元包天动态IP;提取次数无限制;单次可获取50-60个;199元包周699元包月 ⑤小象代理:小象代理有1000万+的IP池,套餐多样,短效代理IP价格如下:代理商单价时间性能介绍小象5元包天单次提取1个IP;1—2分钟时效;最小提取间隔10s;109元包月309元包季1099元包年 2.隧道代理隧道代理无需切换代理IP,系统自动切换代理IP。通常有短效版和动态转发版两种情况。(1)隧道代理-动态短效隧道代理(动态短效)每个IP代理的使用时长一般为1分钟到5分钟(不同服务商定义短效时长不同),到期后隧道将自动切换到另一个IP。有部分商家也允许手动切换IP,切换间隔时间一般不得少于 10 秒(服务商不同,最短切换间隔可能不同)。①阿布云:阿布云动态隧道代理,根据有效时长分为了专业版和经典版,具体价格如下:代理商单价时间性能介绍阿布云1元包时每秒请求数5个;手动切换最低间隔1s;1分钟有效;20元包天128元包周499元包月1元包时每秒请求数5个;手动切换最低间隔1s;15分钟有效;22元包天138周包周512月包月 ②MERO:MERO隧道代理可包天、包周、包月和包年,隧道代理IP带宽为5Mb/s,在此列举了包天/周的价格:代理商单价时间性能介绍MERO15元包天并发连接数10个/s;1分钟有效;14元包天并发连接数10个/s;3分钟有效;12元包天并发连接数10个/s;10分钟有效;11元包天并发连接数10个/s;11分钟有效;94.5元包周并发连接数10个/s;1分钟有效;88.2元包周并发连接数10个/s;3分钟有效;81.9元包周并发连接数10个/s;10分钟有效;75.6元包周并发连接数10个/s;11分钟有效; ③小象代理:小象代理隧道代理(短效版)每个IP使用时长为1分钟,到期后隧道将自动切换到另一个IP。同时也允许手动切换IP,切换间隔时间不得少于 10 秒。隧道代理有并发请求限制,默认每秒允许 5 个请求。代理商单价时间性能介绍小象1元包时每秒请求数5个;手动切换最低间隔10s;1分钟有效;16元包天432元包月1152元包季4320元包年 ④快代理:隧道代理每天可转发的IP量超过6万,隧道代理IP带宽为5Mb/s。代理商单价时间性能介绍快代理16元包天并发连接数5个/s;1分钟有效;15元包天并发连接数5个/s;5分钟有效;14元包天并发连接数5个/s;10分钟有效;97元包周并发连接数5个/s;1分钟有效;92元包周并发连接数5个/s;5分钟有效;86元包周并发连接数5个/s;10分钟有效; (2)隧道代理-动态转发隧道代理(动态转发)无须切换 代理IP,每一个请求一个随机 IP。隧道代理有并发请求限制,一般默认每秒允许 5 个请求。①阿布云:阿布云产品名为隧道代理动态版,每个请求请求一个随机IP。代理商单价时间性能介绍阿布云1元包天每秒请求数5个;16元包月108元包季429元包年 ②无忧代理:产品名为隧道动态转发,无忧代理服务器分布于国内200多个城市,A段超过80个,IP池总量超过6000万个。代理商单价时间性能介绍无忧代理1元包时每秒请求数5个;12元包天80元包周350元包月1000元包季1000元包半年3200元包年 ③小象代理:隧道代理(动态转发)无须切换代理IP,每一个请求一个随机 IP。隧道代理有并发请求限制,默认每秒允许 5 个请求。代理商单价时间性能介绍小象1元包时每秒请求数5个;15元包天399元包月1099元包季4299元包年 ④代理精灵:产品名为动态转发,拥有200万+IP池,代理IP来源为家庭IP。代理商单价时间性能介绍代理精灵14.4元包天每秒请求数1个;100.8元包周432元包月1296元包季2592元包半年5256元包年 ⑤快代理:隧道代理每天可转发的IP量超过6万,隧道代理IP带宽为5Mb/s。代理商单价时间性能介绍快代理18元包天并发请求书5个/秒;3Mb/s带宽;108元包周360元包月 ⑥猿人云:产品名为动态转发,140万+不重复高匿IP。代理商单价时间性能介绍猿人云22元包天单次调用5个,最快调用频率10秒;149元包周529元包月1399元包季 3.静态长效代理ip静态代理IP是基于高性能主机构建的高品质代理服务器,可用率超过99%,具有极快的速度和极高的稳定性。代理IP使用时长自由控制,灵活多变,可长期使用,亦可最低1小时切换一次,适用于切换IP频率低时效长的业务场景。PS:有些商家称为长效代理IP、长效静态代理IP、静态IP、静态代理、静态长效代理、静态短效代理、长效IP等。①小象代理:不限制IP的提取次数。IP提取后即被应用持有,最低持有时间1小时,最长为应用的有效截止时间。持有超过1小时之后,可通过接口主动释放,代理IP带宽最低保证4M最高可达200M。代理商单价时间性能介绍小象代理4元/个包天有效时长1小时至有效截止时间;并发请求数不限制;60元/个包月168元/个包季640元/个包年 ②枫之叶:长效独享高匿名代理IP,均为长效IP,IP一直有效。代理商单价时间性能介绍枫之叶50元/个包月-45元/个包月10个起售;20M独享带宽;28元/个包月10个起售;10M独享带宽;30元/个包月1个起售;独享长效代理IP ③精灵代理:长效IP是基于高性能主机构建的高品质Http/Https/Socks代理服务器。代理商单价时间性能介绍精灵代理5元/个包天-15元/个包周30元/个包月60元/个包季240元/个包年 温馨提示:不同类型的代理ip适用于不同的场景,大家在选择代理IP的时候可根据实际场景需要来进行选购。价格只是一个参考,大家使用之前最好提前进行测试,检测能够满足需要后再进行购买。四.如何在ForeSpider数据采集引擎中设置代理IP?前嗅ForeSpider数据采集引擎,是一款通用的数据采集系统,并且还带有数据挖掘、清洗分类及筛选导出的功能,能够满足绝大多数客户的数据采集及数据挖掘需求。ForeSpider爬虫软件采集速度可高达8000万条/天,支持多线程并行采集。采集限制IP的网站时,为保证采集质量及速度需要设置代理IP。ForeSpider数据采集系统有成熟的代理IP接口,可接入市场上绝大多数的代理IP,兼容性强,操作简单,可自行设置调用IP的频率,灵活控制调用频率,有效降低成本,提高采集效率。在ForeSpider数据采集器中设置代理IP具体步骤如下:1. 创建代理IP打开ForeSpider数据采集引擎,IP代理设置,如下图所示创建代理IP。(1)名称:自定义即可,可由文字、字母、其他符号等组成;(2)类型:有静态代理和动态代理,ForeSpider采集系统中动静态与市场上不同,ForeSpider爬虫软件中代理IP动静态代理可以通过代理IP接入形式来区分静态和动态。 ①动态代理:爬虫使用的代理IP是变化的,一般情况是通过代理IP服务商提供的一个API链接来获取代理IP,这种情况是动态代理。在系统中,在如下图标记位置填入API链接。②静态代理:爬虫使用的代理IP是固定一个/多个IP地址,一般代理IP服务商会提供IP地址、端口、用户名、密码,这种情况是静态代理IP。有的代理IP服务商只有IP地址和端口,这类也是属于静态代理,遇到这种情况时用户名和密码为空即可。(3)请求频率:是指ForeSpider运行时调用每个代理IP的频率,爬虫运行时,线程数目=请求频率*代理IP数。比如:接入了一个每秒请求10个IP的代理,设置的请求频率为5。那么爬虫运行时,每秒请求50次代理IP,这时候采集运行速度中的线程数目最佳为50。2. 代理IP设置(1)动态代理IP设置:在ForeSpider爬虫中,新建一个动态代理IP后,填写以下几个基本参数:①协议类型:默认http/https,两种协议均支持;②返回格式:是指返回IP格式,包括TXT和未知格式,选择TXT格式即可返回TXT格式,TXT格式可以不用写脚本获取IP;③刷新周期:请求调用API的频率,单位是毫秒,根据实际购买情况来填写即可。④请求地址:填写API链接即可。填写完以上信息后可点击【测试】按钮进行测试,测试结果会显示在屏幕下方。测试成功后,确认勾选所用代理IP,点击保存按钮,如下图所示:保存好之后,就可以开始进行数据采集了。(2)静态代理IP设置在ForeSpider爬虫中,新建一个静态代理IP后,需要填写以下参数:①IP地址:由代理IP服务商提供。②端口:由代理IP服务商提供。③类型:根据要采集网站类型来选择,有http和https类型;④有效时长:可理解为到期时长,非必填。当同时使用多个代理IP且到期时长不一致时可以根据实际情况填写,有效期到则自动停止使用该代理IP;当有效时间在1天以内时,建议填写,防止出现代理IP到期,ForeSpider爬虫还在运行而导致采集失败的情况。如果不填写,需要在代理IP到期之前手动关闭,否则会导致采集失败。如下图所示:⑤用户名:由代理IP服务商提供。⑥密码:由代理IP服务商提供。填写完之后在需要使用的代理IP前打上对勾,打开代理IP按钮,后保存。如下图所示:(3)脚本设置在ForeSpider数据采集系统中,当代理IP接入情况不属于以上描述静态/动态接入方式时,使用脚本设置代理IP。
脚本设置与动态设置类似,需要先把以下几项根据实际情况来进行设置,具体如下:
①协议类型:默认http/https,两种协议均支持;
②返回格式:选择未知格式即可,脚本可获取TXT格式。
③刷新周期:请求调用API的频率,单位是毫秒,根据实际购买情况来填写即可。
④请求地址:填写代理商提供的API链接。
⑤POST DATA:根据代理不同,post请求的情况下填写该内容。
⑥代码编辑区:需要填写一段脚本,以调用代理IP。代码如下:
ips = DOWNDATA.Split(\n);var t;for(i=0;i<ips.size;i++) { t = ips[i].TrimAll(); this.Insert(t,"","",60, "https"); //60秒有效期, 如果有效期为其他,则改相应的数}将以上的代码粘贴到编辑框后,通常仅需修改最后一句脚本,括号里分别填写:IP地址+端口、用户名、密码、有效时长、http/https即可。3. 其他设置ForeSpider爬虫系统中,代理IP混用策略有以下三个:
(1)采集禁用本地IP:设置后采集只用代理IP,如果代理IP失效或未开启,则会采集失败。
(2)代理失败使用本地IP:代理IP失效或者失败后会直接使用本地IP进行采集。
(3)只使用本地IP:设置后采集时仅用本地IP。
ForeSpider数据采集引擎IP代理设置注意事项:
①在采集过程中修改代理IP,需要暂停/停止采集然后再修改。②当请求代理IP的api地址是变化的,比如链接地址中有时间戳的情况时,ForeSpider中代理IP暂不支持接入。③当返回内容不带密码,但要求必须提供密码时,可以使用脚本设置来接入。④在不知道代理IP的请求数时,请求频率最好填1,也可填写1-10中任意数。⑤请求到一批新的代理IP时,在有效期内的旧代理IP依然可以使用。五. 常见网站反爬策略与解决方案
网站反爬,原理是服务器通过访问者请求中夹带的一些访问者的信息,来识别访问者,并对访问者进行限制。
比如服务器通过请求识别到访问者IP,对同一个IP访问频率做出了限制,那么当同一个IP访问频率超过限制时,访问就会出现问题。
前嗅ForeSpider数据采集引擎根据网站常见的几种反爬策略,研发了对应解决的设置,用户在使用过程中可以针对不同反爬,进行对应的设置,常见的反爬策略及解决方案有以下几种:
1.仅限制用户IP访问频率
限制IP访问频率通常表现为:当使用本地IP采集速度高于某频率时,就会出现采集错误,页面重定向等情况。当访问者IP信息存储在cookie中时,会增加爬虫难度。
解决方案:(1)cookie中没有记录IP时需要使用动态短效代理IP/隧道代理IP,根据网站限制IP强度,调整采集速度,购买适量代理IP,在ForeSpider爬虫IP代理处设置即可。(2)cookie中记录IP时需要使用静态长效代理IP,根据网站限制IP强度,调整采集速度,购买适量代理IP,在ForeSpider数据采集系统IP代理处设置即可。2.限制用户ID访问频率限制用户ID通常表现为:采集一段时间后,停止采集/采集错误,浏览器中该页面显示不出来(页面重定向、有验证码、错误页面等情况),清空浏览器浏览记录后,再次打开又可以正常显示。这时可以看页面的cookie来确认服务器是否限制用户ID,当访问页面的cookie中有UID或其他ID字符串时,表示服务器对用户ID有识别。还有一种对UID加密的情况,这时cookie中有一串加密后的字符串。解决方案:使用ForeSpider采集器高级设置中的多通道采集功能,并设置最大登录用户数,设置代理IP(使用静态长效代理IP),通过模拟多用户浏览网站,来解决网站对ID的限制。3.用户IP访问频率用户ID访问频率双重限定双重限制通常表现为:采集一段时间后,停止采集/采集错误,浏览器中该页面显示不出来(页面重定向、有验证码、错误页面等情况),清空浏览器浏览记录后,再次打开又可以正常显示。爬虫设置为多通道采集后采集一段时间发现IP被封了。也可通过观察页面cookie中是否既有IP又有UID/UID加密的信息,来进行判断。解决方案:使用ForeSpider数据采集系统高级设置中的多通道采集功能,同时打开动态IP锁定,设置好代理IP(使用静态长效代理IP),并设置最大登录用户数,来解决网站对账号的限制。如下图所示:4.限制用户账号访问频率一般表现为:网站需要登录,登录后采集账号被封。这种情况一般是由于服务器识别用户账号,并限制用户账号访问频率导致的。解决方案:注册多个账号,供封号后替换使用;5.用户账号访问频率和用户IP访问频率双重限制一般表现为网站需要登录,登录后采集账号被封,IP也被封。使用多通道或者用代理IP采集均无效果。这种情况是由于服务器对用户账号和访问IP双重限制导致的。解决方案:注册多个账号,供封号后替换使用;降低采集速度,使用静态长效代理IP进行采集。看到这里,相信大家对代理IP也有了一个深刻的认识与了解,如果对于代理IP及数据采集有疑问,可关注前嗅大数据,在线联系。