很多人都使用过代理IP,比如说网络爬虫,可以通过使用代理IP来突破反爬,不过只有高匿代理才能实现反爬目标。那么该如何判断一个代理是否为高匿代理呢?
其实想要识别代理IP的匿名等级并不复杂,只需要通过脚本程序(如ASP PHP JSP等)即可在服务器端识别出来,识别的办法就是抓数据包里的相关字段:REMOTE_ADDR,HTTP_VIA以及HTTP_X_FORWARDED_FOR。
1、透明代理
REMOTE_ADDR = Proxy IP
HTTP_VIA = Proxy IP
HTTP_X_FORWARDED_FOR = Your IP
2、普通匿名代理
REMOTE_ADDR = proxy IP
HTTP_VIA = proxy IP
HTTP_X_FORWARDED_FOR = proxy IP
3、高匿代理
REMOTE_ADDR = Proxy IP
HTTP_VIA = not determined
HTTP_X_FORWARDED_FOR = not determined
透明代理会向目标服务器透露自己的真实IP,普匿代理会向目标服务器透露用了代理,髙匿代理什么都不透露给目标服务器。
由此可见,用透明代理和普通匿名代理被识别的几率非常大,设置反爬策略的网站一般都可以轻而易举的识别,使用髙匿代理IP的话则不能轻易的被识别。