伪装UserAgent为主流浏览器,或主流搜索引擎;伪装refer为网站主页;控制速率;设置一些常用的http header, 如:Accept,Accept-Charset,Accept-Encoding,Accept-Language如果可设置cookie,尽量设上
做好这几步,除了你的程序不能运行js和渲染页面外,基本就是一个浏览器了
偶尔可以完全突破些较烂的防采集机制的方法:
1. 伪装Useragent并随机轮换
2. 伪装Uesragent为Baiduspider
3. 伪装IP
其实量很小的情况下,也或许可以隔几秒抓一次,睡一觉之后也完成了。
只针对一个网站的话,租几个Proxy,抓完了就退掉呗:)
代理IP