目录
UA池
背景
我们在使用下载中间件处理请求,一般会对请求设置随机的User-Agent,设置随机的代理.目的就是防止爬取网站的反爬虫策略,但是同一类型User-Agent的浏览器还是容易被监测到,开启UA池放置更多类型的User-Agent就能够极大避免反扒机制
作用
- 尽可能多的将scrapy工程中的请求伪装成不同类型的浏览器身份
操作流程
在下载中间件中拦截请求将拦截到的请求的请求头信息中的UA进行篡改伪装在settings.py中开启下载中间件具体代码
ip代理池
作用
- 尽可能多的将scrapy工程中的请求的IP设置成不同的,防止被反扒策略封禁本机IP
操作流程
在下载中间件拦截请求将拦截到的请求IP修改成某一代理ip在settings.py中开启下载中间件具体代码
这里推荐一款适合爬虫的代理IP——代理云,遍及全国200多个城市,千万级IP池,24小时自动去重,IP可用率超越95%,稳定、高效、高匿,具有强大的技术团队,7*24处理运用中的问题,现在注册还能免费领取一万代理IP
代理云 - 可视化用户控制台console.v4.dailiyun.com/user/?channel=wyh-zh