我们在做爬虫的过程中经常遇到:爬虫运行的好好的,结果一会儿出现了错误,如 403 等。出现这个问题的原因是网站采取了一些反爬虫措施,服务器会检查 ip 在单位时间内的请求次数,如果超过了某个阈值,那么就会直接拒绝服务。怎么解决这个问题呢?就是这节课的代理的使用。
代理的设置
前面介绍了很多请求库,如 urllib、requests、selenium 等,下面介绍一下这些库怎么使用代理。
获取代理
我们需要一个可用的代理,百度搜索“代理”,有很多免费的代理网站,比如西刺,当然,免费的代理一般都不好用,所以有条件的同学可以买付费代理。
urllib
requests
Selenium