ip代理 动态在用网络爬虫获取网站数据时, 网站通常都会有一系列的反爬虫措施, 其中一项就是检测到同一ip频繁快速访问网站时该ip将被封禁, 为了绕过这个限制, 就需要在爬虫中使用代理ip了。
百度搜索免费代理ip, 将会出现很多提供免费代理ip的网站, 如果免费的达不到预期, 可购买付费的代理ip。
当从快代理、西刺代理等提供免费代理的网站获取到一系列的代理ip后, 并不是所有的代理服务器都是可用的, 这需要编写python脚本来验证所获得的代理ip的有效性, 以下介绍下如何验证。
将从免费代理网站获取到的代理ip保存到文件proxy.txt中, 如下图格式:
2. 编写testProxy.py, 原理是从proxy.txt中按行读取, 从每一行中提取出ip、port、protocol后用requests模块测试是否可用。为了加快测试速度, 这里开启了10个线程同时测试:
3. 运行以下命令测试:
$ python testProxy.py
执行完成后可用的代理ip将全部保存在alive.txt中。 下次将讲解如何用alive.txt中的可用代理ip来爬取内容