使用代理IP实现爬虫

1.使用代理ip爬虫

我们在进行爬虫任务的时候经常会遇到网站设置的反爬关卡,比如限制单个ip一秒或者几秒内访问服务器几次,超过这个次数就把这个ip拉进"黑名单",我们一般自己的网络只有一个ip,ip封了就没办法继续访问这个网站了,那我们怎么办呢,我们可以使用别人的ip去访问啊,这样就算封了,我们再换一个就好了。

这里推荐一款适合爬虫的代理ip---代理云

爬虫的小伙伴可以去领取免费的代理IP试一下

国内高质动态IP。时效2-10分钟,现在注册还能免费领取一万代理IP

代理云 - 可视化用户控制台​console.v4.dailiyun.com/user/?channel=wyh-zh

2。获取代理IP池

首先我们请求该网站,并解析页面。

接下来我们就要”组装“IP地址,我们知道一般我们完整的IP地址格式为http://192.168.1.1:8888(举例说明),前面为我们的协议格式,也可以为https格式,中间部分是我们的ip地址,:后面的为端口号,一个完整的IP地址应该为这样,所以我们根据获取到的IP和端口号组装成一个完整的IP。

这样我们的IP代理池已经创建好了,接下来就来访问具体的地址

最后我们看看输出的结果:

这里我们输出的不是element格式,在上面修改一下即可,不过确定的是我们可以访问成功,至此,一个代理IP实现爬虫就实现了。