跟黄哥学Python爬虫抓取代理IP。

bestproxy • 2022年4月4日 am2:05 • 代理百科

为了防止被反爬虫策略禁止访问，有的时候需要用到代理IP，代理IP可以到一些提供

代理IP的网站上爬取，也可以自己扫描。（想想这些提供代理IP的网站是怎么得到这些代理IP的，是通过扫描得来的）。

下面的代码用到requests和BeautifulSoup，到一个网站上采集IP，为了初学者学习方便，只取前面10页的内容，

请大家修改代码。

# coding:utf-8 import requests from bs4 import BeautifulSoup class SpiderProxy(object): """黄哥Python培训黄哥所写 Python版本为2.7以上""" headers = { "Host": "www.xicidaili.com", "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.11; rv:47.0) Gecko/ Firefox/47.0", "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8", "Accept-Language": "en-US,en;q=0.5", "Accept-Encoding": "gzip, deflate", "Referer": "", } def __init__(self, session_url): self.req = requests.session() self.req.get(session_url) def get_pagesource(self, url): html = self.req.get(url, headers=self.headers) return html.content def get_all_proxy(self, url, n): data = [] for i in range(1, n): html = self.get_pagesource(url + str(i)) soup = BeautifulSoup(html, "lxml") table = soup.find(table, id="ip_list") for row in table.findAll("tr"): cells = row.findAll("td") tmp = [] for item in cells: tmp.append(item.find(text=True)) data.append(tmp[1:3]) return data session_url = url = p = SpiderProxy(session_url) proxy_ip = p.get_all_proxy(url, 10) for item in proxy_ip: if item: print item

建议：为了保持代理IP可用，需要创建一个代理池，定期检测可用的代理，无效的代理及时删除。可以用redis实现。

赞 (0)

如何科学上网【NordVPN】---7200W动态住宅代理IP【Luminati】---适用Shadowsock\Clash等软件的机场，支持ZFB【搬瓦工】

转贴：Oculus Quest 解锁+SideQuest安装教程

« 上一篇 2022年4月4日 am2:04

跟黄哥学Python爬虫抓取代理IP和验证。

下一篇 » 2022年4月4日 am2:06

ip代理的浏览器【萌萌图书馆】【壮哥IP创业营】_x0002_‖【YCYD】医承有道学堂穴位100天训练营‖芳萌萌‖萌萌家会员代理合伙人

一次信任终身朋友 01 — ip代理的浏览器萌萌家网课会员、代理、合伙人推荐 ①为什么要办理课程终身会员？课程更全面、使用更方便、经济更划算会员，就如同一把可以打开知识宝库的钥匙，呈现的一座涵盖全网课程的多媒体移动图书馆，每周更新课程100多门，关键是可以永久免费使用，不再加价。目前，课程已增至11+3大领域板块，价格不定期调整，越早办理...

代理百科 2022年5月31日
夜分享丨为什么孩子长大以后和父母不亲了？这3大真相，你一定要尽早知道……

　　养育孩子，最令父母感到无奈的是：“我的孩子跟我不亲”。　　我们崇尚的家庭文化总是强调“父慈子孝”，孩子身上的这种“冷淡”无疑让我们难以接受。　　认识一位妈妈，就深受这个问题的困扰。　　她的女儿自从去外地上学之后，跟她的联系就少了，很少打电话、开视频，毕业之后，就留在学校所在的城市工作。　　她也尝试主动亲近女儿，但孩子始终都冷冷淡淡的。　　她有点...

代理百科 2022年6月20日
网信办宣布整治手机浏览器华为、QQ、小米等先查

【手机中国新闻】现在我们每个人几乎都是手机重度使用者。不过就我本人来说，所有手机APP中，我最排斥的就是打开手机浏览器，也不想收到手机浏览器给我推送的信息。一是因为我对这些信息不感兴趣，二是因为这些信息太过于混乱，看起来不是很舒服。不过往后这种现象应该会有所改善了！手机浏览器 10月26日晚间，国家网信办宣布对手机浏览器扰乱网络传播秩序突出问题开展专项集中...

代理百科 2022年7月15日
网络篇三_openwrt软路由配合smartDns和AdGuardHome实现优化DNS以及...

作者：奉天程序员一、配置smartDns 广告2020开网店新套路，教你快速领先同行的技巧！×广告114.114.114.114 的DNS 靠谱吗?×广告靠谱的互联网招聘网站有哪些?×广告招聘网站,哪个靠谱?×广告测试工程师经常浏览的网站或论坛,社区推荐?×广告海外广告投放岗位前景如何?× 服务器名称：你可以理解为这是一个分组名。这里设置为china是为了...

代理百科 2022年3月27日
甘肃启动治理涉企违规收费专项行动

3月23日，甘肃省市场监督管理局下发相关通知，启动2022年治理涉企违规收费“纾困减负”专项行动，重点检查公用事业、金融领域2020年1月1日以来的收费行为。原标题：甘肃省启动治理涉企违规收费专项行动新华网兰州3月25日电（宋燕李昭辉）23日，甘肃省市场监督管理局下发相关通知，启动2022年治理涉企违规收费“纾困减负”专项行动，重点检查公用事业、金融...

代理百科 2022年3月29日
她如何拥有开挂的人生？深扒台湾大姐大蓝心湄的豪华朋友圈

最近，因为全国疫情再起，各省都不太平静，明星们也都夹着尾巴做人，内娱一片寂静，热搜上只有三三两两的“姐姐演技惊人”“姐姐辟谣税务问题”等消息。此时，岛媒显得格外聒噪。打开凤凰新闻，查看更多高清图片先是大S汪小菲离婚的衍生剧情生生不息，大S全家在热搜包年看得人直呼“你够了”，接着又是过气金曲歌王曹格，打人闹事吵不停甚至隔空对前辈喊话！！喂，这是几个意思...

代理百科 2022年4月17日