要从一个网站抓几个页面,但是抓到第500多个的时候,被对方屏蔽了ip好像。最终用了迅雷,有没有什么不这么2办法?

伪装UserAgent为主流浏览器,或主流搜索引擎;伪装refer为网站主页;控制速率;设置一些常用的http header, 如:Accept,Accept-Charset,Accept-Encoding,Accept-Language如果可设置cookie,尽量设上

做好这几步,除了你的程序不能运行js和渲染页面外,基本就是一个浏览器了

偶尔可以完全突破些较烂的防采集机制的方法:

1. 伪装Useragent并随机轮换

2. 伪装Uesragent为Baiduspider

3. 伪装IP

其实量很小的情况下,也或许可以隔几秒抓一次,睡一觉之后也完成了。

只针对一个网站的话,租几个Proxy,抓完了就退掉呗:)

代理IP