UA池和ip代理池

UA池

背景

我们在使用下载中间件处理请求,一般会对请求设置随机的User-Agent,设置随机的代理.目的就是防止爬取网站的反爬虫策略,但是同一类型User-Agent的浏览器还是容易被监测到,开启UA池放置更多类型的User-Agent就能够极大避免反扒机制

作用

  - 尽可能多的将scrapy工程中的请求伪装成不同类型的浏览器身份

操作流程

在下载中间件中拦截请求将拦截到的请求的请求头信息中的UA进行篡改伪装在settings.py中开启下载中间件

具体代码

ip代理池

作用

  - 尽可能多的将scrapy工程中的请求的IP设置成不同的,防止被反扒策略封禁本机IP

操作流程

在下载中间件拦截请求将拦截到的请求IP修改成某一代理ip在settings.py中开启下载中间件

具体代码

这里推荐一款适合爬虫的代理IP——代理云,遍及全国200多个城市,千万级IP池,24小时自动去重,IP可用率超越95%,稳定、高效、高匿,具有强大的技术团队,7*24处理运用中的问题,现在注册还能免费领取一万代理IP

代理云 - 可视化用户控制台​console.v4.dailiyun.com/user/?channel=wyh-zh