Python构建代理池，突破IP的封锁爬取海量数据

bestproxy • 2022年4月22日 am10:19 • 代理百科

今天带大家使用爬虫来获取免费的ip。

1. 打开网站首页，可以看到总共有十页数据，总共100条ip记录。咱们的目的很简单，就是要这100条ip和对应端口号。完了我们再去筛选那些ip是可用的。

http://www.ip3366.net/?stype=1&page=1

2. 我们打开浏览器模式模式分析页面看到这些ip信息都位于tr标签内，所以我么可以使用xpath来获取这些信息。

#获取当前页面10个ip数据 ips = selector.xpath(//*[@id="list"]/table/tbody/tr) print(len(ips)) 10

3. 获取到当前页面所有ip信息之后我们就可以使用for循环获取tr标签内部具体的ip和端口号。

# 获取端口和IP for ip in ips: ip_num = ip.xpath(td[1]/text()).get() # ip port_num = ip.xpath(td[2]/text()).get() # port print(ip_num, port_num) 49.70.151.180 3256 49.87.44.221 9999 42.177.142.239 9999 42.177.141.141 9999 42.176.134.43 9999 42.176.134.212 9999 49.71.142.114 9999 49.87.221.46 9999 49.87.221.120 9999 49.87.221.61 9999

4. 接下来就使用for循环获取十个页面的100条数据。

for page in range(1, 10+1): print(f-------正在爬取第{page}页数据-------) url = f?stype=1&page={page}

5. 测试可用性，现在所有的ip都已经获取到了，能不能用还是未知数，所以我们试着有这些ip登陆一下百度页面，检测其可用性。

for ip in ip_list: try: response = requests.get(url=https://www.baidu.com, proxies=ip, timeout=2) if response.status_code == 200: use_proxy.append(ip) except Exception as e: print(f当前为第{count}个代理ip:, ip, 请求超时, 检测不合格!!!) else: print(f当前为第{count}个代理ip:, ip, 检测通过)

检测结果如下：

因为这些代理每小时都在更新，所以没事多跑两遍程序，总会获取到你想的ip的。

私信【multip】获取源码！

赞 (0)

如何科学上网【NordVPN】---7200W动态住宅代理IP【Luminati】---适用Shadowsock\Clash等软件的机场，支持ZFB【搬瓦工】

从零开始写Python爬虫 --- 2.4 爬虫实践：代理的爬取和验证

« 上一篇 2022年4月22日 am10:18

Python爬虫数据采集与IP代理的关联

下一篇 » 2022年4月22日 am10:20

Warning: Undefined array key "related_news" in /www/wwwroot/bestproxy.cc/wp-content/themes/justnews/single.php on line 201

爬虫付费代理ip点赞!都江堰巴布熊猫荣获“最具影响力城市IP”称号!

9月25日，2019CCIF爬虫付费代理ip中国卡通产业论坛在西安市开幕。在2019中国城市·文旅IP推优环节中，12个IP经过5个月的组织、征集、筛选、评审工作脱颖而出，其中波波椰、巴布熊猫、国士吕端、南孔爷爷（孔子爷爷）、韩城-芮都姑娘、唐妞六个原创形象荣获“最具影响力城市IP ”，波波椰、丽江萌蛙、克拉玛依-阳阳、演义·秦风、艺术熊猫、功夫宝宝六个原创...

代理百科 2022年5月30日
代理ip报价张小娴说过的那句话：留住一个人的，从来不是卑微，而是活得出色和独立

　　张小娴说过的那句话：“留住一个人的，从来不是卑微，而是活得出色和独立。”认清这一点，对方是否继续联系你或许已经不重要了。因为那时，真爱早已悄然而至。　　特别声明：以上文章内容仅代表作者本人观点，不代表新浪网观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与新浪网联系。

代理百科 2022年5月30日
海外(国外)动态代理IP，爬虫动态IP，Socks5动态IP操作流程技术分析

国外动态IP_海外动态代理IP_国外住宅民用代理IP用于注册爬虫www.haiouys.com 在我们做海外网络项目的时候需要用到大量的国外动态IP，这里为您推荐九方IP代理，主要做海外民用住宅家庭的动态IP，真实度高，存活率大。具体操作流程技术分析：整体流程 1. 获取授权 2. 获取授权服务器的ip和端口 3. 通过授权服务器获取代理服务器IP和端...

代理百科 2022年4月5日
Lanproxy任意文件读取漏洞(CVE-2021-3019)复现

漏洞概述 Lanproxy是一个将局域网个人电脑、服务器代理到公网的内网穿透工具，支持tcp流量转发，可支持任何tcp上层协议（访问内网网站、本地支付接口调试、ssh访问、远程桌面等等）本次Lanproxy 路径遍历漏洞 (CVE-2021-3019)通过../绕过读取任意文件。该漏洞允许目录遍历读取/../conf/config.properti...

代理百科 2022年4月19日
nginx有哪些反向代理的方式，你知道吗_

Reverse proxy 正向代理正向代理，和平常我们说代理上网的代理基本一样，他的工作原理就像一个代理人的角色，举个粟子，一个用户访问不了某网站，但是能访问一个代理服务器，这个代理服务器呢，它能访问那个用户不能访问的网站，于是用户可以先连上代理服务器，告诉它用户需要那个无法访问网站的内容，代理服务器去取回来，然后返回给用户。也就是用户通过了代理人访问了...

代理百科 2022年3月16日
Kube-OVN0.4.1发布，支持PodIP直接暴露和OVN高可用

近日，灵雀云基于 Kubernetes 的企业 OVN 网络系统Kube-OVN 发布了更新版本0.打开凤凰新闻，查看更多高清图片近日，灵雀云基于 Kubernetes 的企业 OVN 网络系统Kube-OVN 发布了更新版本0.4.1版。 Kube-OVN是灵雀云开源的基于OVN的Kubernetes网络组件，提供了大量目前Kubernetes不具备的网...

代理百科 2022年5月13日