1、此IP池需要为不同的源配给响应源最优的IP【也就是延迟最低的IP】
2、对被爬虫已经使用过的IP做过期处理,即使抓取IP脚本再次抓取到此IP,也不能将此IP给予爬虫使用
3、控制IP池IP数量保证在一定的数量内,当IP池内IP数量低于某一个值时,启动抓取IP脚本去抓取IP
4、难点:对抓取到的IP进行验证是一个非常耗时的事情,要对每个IP进行验证,因为存在一个IP对某一个网站效果会好,某些网站效果会差,所以如何对一个IP进行标识是个问题
5、IP池一是一个高频读写的表,使用什么数据库可以抗住这种频率的操作,目前我想到的是 redis。