微博爬虫三部曲_ip被封了怎么办_

上一篇文章给大家介绍了爬取微博转发数据的基本方法,如果你实际跑了一遍代码就会发现,大概爬到100页的时候,爬虫就停止了,这个时候你会发现,在浏览器中访问这条微博的链接被微博禁止了,这种情况就是爬虫被微博识别到了,然后暂时封了你的ip,不过不用太担心,过个几分钟你的ip就会恢复,但这种情况大大影响了我们的爬虫效率,所以我们尝试通过ip代理来解决这个问题。

ip代理,顾名思义就是使用别的ip来请求微博的数据,当我们有大量的ip的时候就可以频繁切换ip,以达到让微博识别不到目的,那么第一个问题来了,我们从哪里获得大量的ip呢?

一、如何获取大量可用ip

获取ip通常有两种方法,一种是去免费代理ip的网站,爬取大量的ip,验证ip是否可用,拿到可用的ip之后在代码中使用,常用的比如说:西刺代理

首页上都是免费的。

第二种就是付费ip,有很多平台都可以购买,如果是公司任务需要的话建议使用付费的Ip,特点就是可用性高、支持高并发,可以节省大量的时间,并且价格也不贵,通常是5块钱1000条的水平。

二、怎样使用代理ip?

如果需要使用代理,你可以通过为任意请求方法提供 proxies 参数来配置单个请求:

访问的时候使用proxies 参数就可以直接切换ip。

我的项目中使用的是付费的ip,先来看下项目代码:

通过判断 r.status_code 是否等于200,来判断ip是否可用,如果不可用就获取一个新的ip重新爬取,这样就可以顺利的爬取到所有的转发数据了。

以上就是关于代理ip的使用,想要获取源码的同学可以在文章下方留言,欢迎大家一起讨论。