我们都知道,爬虫使用代理IP可以大大提高爬取效率,那如果爬虫不使用代理IP是不是就不行呢?答案当然不是,没人去强迫你使用代理IP帮助爬虫完成任务。但我们也知道代理IP对爬虫来说是很重要的,所以可以分情况决定是否使用代理IP。
当我们手头的工作量不是太大时,比如说采集一些文章、图片,像这种小型任务量是可以不用代理IP来解决的,一天爬取的量也足够使用了。
但是当工作量繁重的时候,面对巨大的数据库,爬虫一点点去爬取也是不可能的,根本完不成所有数据信息的采集。加速爬取的话,目标服务器承受不住压力,就会封掉IP;因为服务器一般不欢迎不守规矩的特殊用户,会动用各种反爬手段发现和禁止。这种情况下不用代理IP是不行的。
代理IP对于爬虫来说不是必须的,但是用代理IP也绝对没坏处,使用起来也很方便。爬虫爬取进程中需要应对反爬虫的招数,有了代理IP还能更好地突破限制,继续高效率地抓取爬虫。