使用高匿名代理IP就不会被识别吗?

在大多数的人认知里,使用高匿名代理IP就一定不会被目标网站识别并限制,IP如果被目标网站识别并限制了就一定不是高匿名代理IP。

这个说法正确吗?今天我们来探讨一下。

打开凤凰新闻,查看更多高清图片

一、高匿名代理IP不被识别的原因

服务器端从客户端发送请求中的相关字段来识别是否使用代理IP,识别的办法就是抓取数据包里的相关字段:REMOTE_ADDR,HTTP_VIA以及HTTP_X_FORWARDED_FOR三个字段。

使用高匿名代理IP发送请求时的这三个字段的值,和没有使用代理IP发送请求时的值是一样的,也就是说,服务器端想从这三个字段来分辨是否使用代理IP是毫无办法的,这也就是高匿名代理IP不会被识别到地原因。

二、使用高匿代理IP被限制的原因

服务器端从客户端发送请求的相关行为来识别是否使用代理IP,识别的办法一般是分析访问请求行为是否反人类,比如访问频率超快,访问非常规律等。

爬虫工作量无疑是非常巨大的,那么请求量就会非常庞大,一秒几十个几百个请求都是常有的事情,远超正常人访问网页的速度。于是相关反爬策略就会作出判断,该用户为非正常用户,对IP作出限制处理。这种情况并不是识别了客户端使用了高匿代理IP,而是客户端的相关请求行为太不正常了,就算不使用高匿代理IP,是自己的真实IP在请求,这样的行为也一样会被限制。

综上所述,我们使用高匿名代理IP是为了最大程度地提高工作效率,保障工作的稳定性,只要我们使用得当,不去触发反爬虫机制,高匿名代理IP就不会被限制。