在刮谷歌时防止禁令和验证码的代理

在收集Google收集大量数据时需要的最后一件事是IP禁令。您需要的二对决事件是CAPTCHA在您的人类身上检查。这些保护措施中的每一个都是由搜索巨头到杂草出局的机器人,这正是你正在运行的那样,如果你来这篇文章就是在他们身上运行的。

在我们进入特定方法以防止这些可怕的事情,我想解决刮谷歌的伦理方面

。作为经验的规则,是的,刮谷歌是道德的。收获数据本身是一个常见的做法,这就是谷歌一直这样做,从互联网上拉动你正在寻找的网站上的相同数据。实际上,它是如此在打开谷歌上有一个全面的

Googlebot

,数据擦写工具代表谷歌抓取了网站的数据擦写工具。 讨论可能不那么伦理,这取决于您的计划与刮刀有关数据。我不是在这里判断,所以我不会,但是你应该知道,来自谷歌刮的一些非常合法和普遍实践的功能,如

竞争分析

关键词嘎吱作响个人研究。翻转硬币,你会发现一个同样大量的非法职能,如DDOS攻击和未经请求的批量电子邮件营销。

涂抹谷歌的数据的伦理在你手中。[123 ]

你也可能想知道为什么谷歌拥有IP禁令和CAPTCHA,如果这么多的刮擦方法是技术上的合法性。简而言之,

谷歌希望人类使用其网站

。类型的终结者,机器人是可能的死亡和破坏的内在的先草者,谷歌希望从互联网上保护网站,从所有这些臭名杀戮活动允许。个人人类不能为网络带来这样的邪恶事情,所以谷歌对他们很好。 你可以看到由两个级别的安全性播放,你的IPS必须要经历。谷歌并不通过禁止代理IPS(除非您已经做了非常糟糕) - 否,它通过呈现CAPTCHA来开始。这专门用于挡板机器人。你之前看过CAPTCHA盒子,如果你刮擦你可能经常看到它。这是第一层 - 第二层是禁令,这可能是永久性的或无常的,这取决于你的违规。问题仍然存在,

你是如何绕过那些禁令的问题和CAPTCHAS?

我们已经有六种方法,下面列出。

1。限制单个代理IP使用

我将从Web Scraping礼仪的更基本原则中开始。在大多数情况下,您或您的公司将使用大批代理进行数据收集。这几乎总是如此,因为整个点是要快速地刮掉数据,如果您只有5个代理,则无法轻松地执行此操作。


我需要有多少代理?

因此,您将在刮擦数据时使用大量的IP。在软件程序中,您用来刮掉(其中有许多,

    刮板

  • 是一个很好的

),可能是代理可以查询或搜索的频率的设置。你很可能在API(应用程序接口)中找到这一点。

查询频率将以秒,或分钟为单位确定“重新想要非常谨慎。我建议至少设置每2-5秒使用单独的代理IP,如果您正在使用战斗机运营商或关键字(我将进入下面),则可能更多地使用。

让我们假设您将搜索频率设置为5秒钟。这将确保单个IP地址,您使用的代理或租用,不会比每5秒更频繁地进行特定查询。这种联系直接进入整个人类概念。真正的人类禾ULD不太可能查询谷歌每秒10分钟。这将意味着600个个人谷歌搜索,只是为了它的乐趣。

不,那就是机器人做了什么,并准确地说是什么刮擦。将单个代理IP查询限制设置为每2-5秒,以安全,或更长时间更安全,您将避免为该特定IP的禁令和验证码。

是什么最好的CAPTCHA与代理打破的服务?

2。设置代理速率限制

  • 这与前面的例子相同,略有扭曲。虽然之前,我建议经常从查询中限制单个代理IP,您也希望限制所有代理的开始查询主题的频率。

时间范围可以为此变化,而且您可以错开了您的代理,以使DI FF的速率限制为进一步减少谷歌的怀疑。例如,您希望谨防“社交ME”制作5,000个疑问直径“一下子。尽管这些请求由DI FF发送,看似未连接的IP地址,但它们已经到了


触发了谷歌的禁令和CAPTCHA程序

在最不定位的代理速率限制1-2秒。要对此这一点进行万无一失,最多可达5秒的代理,2秒为第三个,最终第三个代理2秒。结合各个知识产权查询限制执行这一点将显着降低谷歌禁止代理的风险。

对代理相容性的最终指南

3。在Google中设置您的IP位置

这是一个笑话,因为IPS通常位于特定国家,如美国或U.K.,以便在更多的主流外观中访问内容并剥夺用户。当谷歌错误地确定您的IP地址时,它可能觉得整个目的您的IP已缩小。不要害怕,有一种方法!

    解决了谷歌地理位置重定向的最佳方式是简单访问

  • http://google.com/ncr
  • ,而不是你的典型

http://google.com


“NCR”自动将您发送到美国Google

(这是大多数人正在尝试访问的),无论您的IP所在的位置如何。

在避免禁止禁令和验证码时,这一步骤的目的是将您的请求从一个国家居中。正如我之前所提到的那样,您的代理软件将向Google发送许多请求以搜索信息。如果这些类似的搜索来自十五个DI FF Erent国家,谷歌已经错误地丢弃了您,它将发送红色标志。 记住,这真的涉及为什么你刮擦数据。如果您想刮掉日本人写的日本绿茶收获博客,你真的需要谷歌认为你在日本,就像一个正常的日本人。尝试获得一个具有多个世界范围的地点的代理提供商,如果您不确定IP的位置,请询问您的提供者或自己检查

如果你想搜索最常见的市场(AKA美国)使用“NCR”诀窍来确保您的爬虫开始搜索谷歌版本。

使用代理从任何国家/地区流传输Netflix和YouTube

4。设置推荐人URL 这与最后一步一起携手并进,因为它是关于确保您在右脚启动您的查询。为了刮谷歌,您需要访问Google的特定部分。具有最大网络的最常见的搜索通常在

https://www.google.com/search

,更好地称为Google的一般搜索页面。这是我们大多数我们想要了解的内容。对于我们使用Chrome的人,我们只需输入一个短语即可URL BAR和Google搜索被用来给我们列表。

  • 这是人类搜索的所有
  • 。请记住,避免使用谷歌的禁令和验证措施的最佳方式是像人类一样行事。大多数人转到

Google.com


开始搜索,而Chrome用户则使用

Google.com

进行搜索。


]

BOT搜索的问题是,如果单独左侧,机器人将使用您的搜索操作员或关键字收集数据而不访问Google.com。他们只需收获Google搜索的麦田,就像没有人都需要Google.com。放入DI FF的方式,一个实际访问Google.com的机器人绕过,因为它没有必要。一个人不会那样。

解决方案是专门将您的推荐人设置为Google.com。构建用于刮擦的大多数软件程序都具有API的特定部分,使其成为可能。如果你的不是,请考虑使用那样的。如果你写哟你自己的脚本,确保将此包含为函数。

5。为代理创建唯一的用户代理

用户代理是基于浏览器信息识别计算机设置的技术术语。不误认为是实际身份,如您的密码或信用卡信息,用户代理是常见的,通常没有真正需要隐藏它们。

然而,在刮掉谷歌的数据时,这是多样化您的用户代理信息。这个原则回到了你需要改变大部分设置的同样的旧原因 - 谷歌想要相信人类正在搜索。

关键字和运算符和查询时间设置,如果谷歌在十秒钟内收到10,000个请求,所有这些都有1024 x 768屏幕分辨率,使用当前版本的Firefox,并在Windows 7上运行,它开始得到非常可疑的。

] 更改浏览器中的用户代理信息很简单,特别是如果您使用的 Google Chrome

    Firefox

  • 。您可以通过安装允许您对单个代理的用户代理信息交换位的扩展来执行此操作,这将愚弄谷歌。

如果您正在运行数百(或数千),这可能会复杂且耗时代理,所有这些都需要有轻微的调整。有时,您的代理提供商将包括在


API中执行此操作的工具 - MyPrivateProxy作出

,只是询问。如果您担心此步骤,请务必联系您的代理提供商的客户支持部门。

使用Chrome无头和专用代理来刮擦任何网站

[ 6。避免谷歌搜索运算符,提高红色标志

  • 这是一个主要的一个主要的,而且大多数人在谷歌上刮下数据时使用的一个FF enter。搜索操作员是用于在Google上进行超级查询的术语。何时使用FF,它们可以为您提供巨大的高度相关数据。 您可以看到的最常见的搜索操作员是:
  • inurl
  • ]

  • INTITLE

INTEXT

也许你已经使用过或看到每个这样的条款: “Allinurl”等等。它基本上是谷歌排序内容类型的指示,它为您和机器人提供了更具体的结果列表。搜索操作员有很多规则,并以无数的方式使用,但是在禁止禁止时,它们非常重要。由于他们在机器人搜索中的普及,

谷歌根本不喜欢他们

。正常的人类,您正在尝试效仿的生物,不要转到

Google.com

并输入“inurl:graarhppers”,找到关于蚱蜢的网站。它们只是输入“蚱蜢”。 当您和您的机器人使用多个搜索运算符进行查询时,这将复合(字面上)。如果我们继续上面的例子,运行此搜索 - “intext:蚱蜢演进inurl:grasshoppers” - 将获得更具体的信息,如网站,如URL中的蚱蜢和文本,文本指的是蚱蜢进化的文本。



到谷歌,它变得痛苦很明显,你不是一个试图在蚱蜢上写一个生物纸的人。您可能是由人类开始启动他们的下一个利基网站的机器人搜索。搜索操作员的数量和类型是大规模的,所以首先,尝试远离普通的。相反,将多个关键字放在一起进行更唯一的搜索,并在寻找查询的新方法时,请参阅此列表。另外,尝试在搜索操作员中阐明真正的常见关键字,因为这些关键字在它们周围有更多的红旗。 为什么使用SEO工具的代理 禁令和CAPTCHAS CAPTCHA将减慢你,这可能是对CLIE的损害你有没有努力的项目的成功。 IP禁令是另一个头痛,并将要求您联系到代理提供商。上面的六个技巧将使您看到较少的禁令和验证码,这将增加您的E FF频率和界限的效应和可靠性。 与此同时,我可以在谷歌禁令时赋予最重要的信息是进行研究,并限制搜索的机器人。有时,走慢,看起来像是人类,而不是推动信封并像机器人一样刮擦。 更可持续的是在长期的情况下更可持续? 使用代理从Linkedin刮除数据 如何用刮擦软件刮擦CRAIGSLIST数据 挑选最佳的住宅Web扫描代理