糟糕的机器人101:好的机器人与糟糕的机器人|如何检测&阻止糟糕的机器人?

作为网站所有者或管理员,重要的是您了解糟糕的机器人和他们网站上可以拥有的一些不良效果,以及如何阻止它们。所有这些和更多将来将在下面讨论。

互联网流量的一半是BOT流量,并且一半来自坏机器人。这对您是Web服务所有者甚至管理员的意义如何?如果您不小心,您将根据污染数据做出决定 - 由于BOT流量。

悲伤的新闻给他们 - 大量的交通不是人类 - 另一端的电脑以自动的方式与您的网站交互,并且您将一些行动误认为是人类行为。

[ 123]遗憾的是,他们进行的一些行动有不利影响 - 或者可以访问他们不应该的内容。出于这些原因,您需要主动,并学习如何使用Web属性搞乱何时默认。

你知道这意味着什么?在这篇文章中,我将把眼睛睁开眼睛,他们如何影响你的网站,以及如何阻止他们,以及学习的其他经验教训。

是什么互联网机器人?


目录

本文是关于互联网机器人,侧重于坏人。出于这个原因,让我们看看互联网机器人是什么。 Internet Bots,也称为Web机器人或简单的机器人,是计算机程序,可以在Internet上执行自动任务。基本上,它们根据您与Web浏览器一起发送Web请求,但有权才能执行此操作在重复和快速的速度。虽然人类只能在一分钟内发送少数请求,但是在一分钟内,网站机器人可以发送数百个甚至数千个请求。在关于网络机器人需要了解的是,他们执行重复和简单的任务 - 但有些可以进行复杂的任务。

用机器人,您可以自动化购买限制项目的结帐进程,监控您的网站性能,执行SEO审核,并从网页刮除数据。同样,您可以使用计算机机器人执行拒绝服务攻击。它也可用于点击欺诈,查看欺诈,甚至垃圾邮件。

从两组中,您可以看到有糟糕的机器人和好的机器人。虽然你想要保持良好的机器人,你将尽可能多地将糟糕的机器人保持在您的网站上。


是什么让机器人呢?[123 从上面,你已经知道并非所有机器人都坏了。那么,是什么让一个糟糕的机器人?一般来说,是什么让机器人糟糕的机器人是主观的。

采取,例如,Bing搜索引擎Web履带可能对您是一个网站所有者它有助于索引您的网站 - 并且可能会向您发送流量。

但是,如果同一Bing Web爬虫爬上Google Serps并刮掉他们的上市和排名以使用它来提高自己的排名,那么它变得糟糕对谷歌吧,同时对你有好处。然而,这并不意味着没有一般性接受,这是什么让机器人是坏机器人。



一体机器在它使用时变得糟糕的机器人执行恶意行为。但是,没有,就是所有的机器人可能无法真正具有恶意的意图,如Web刮板,而是他们可能对他们提取数据的网站有不利影响而没有任何益处或IT所有者,然后他们也可以被视为坏机器人。

坏机器人也可以被视为恶意差。他们的活动是以他们运作的网站为代价奖励他们的运营商。不幸的是,糟糕的机器人交通的增加就是增加,你需要注意为他们。

良好的机器与糟糕的机器人

  • 从上面来看,你有一个糟糕的机器人是什么。他们的好同行呢?机器人背后的意图是通常使它成为一个好的机器人,只要它坚持这一点并且不会对其运作的网站产生不利影响。有两件事需要注意。

    首先是意图必须是好的,而第二件 - 它对它与其互动的网站并没有任何负面影响。此外,良好的机器人尊重网站的robots.txt指令,而糟糕的机器人则没有。有了这个,你需要了解一个好的机器人可以快速变成一个糟糕的机器人。 采取,例如,已经旨在抓取您的网站的索引的爬虫可能会对您的网站产生不利影响如果它发送太多的请求,您的网站可以处理。

所以,良好的机器人出来了帮助你。那么,那里的好机器的例子是什么?也许是最不可能的良好机器人的例子是搜索引擎爬虫,如GoogleBot。

这些机器人抓取您的网站才能索引您的网站内容,以便当用户搜索相关的关键字时,他们可以将这些用户发送到您的网站。这些网站尊重robots.txt文件,如果您不希望它们爬网抓取您的网站,则不会爬网。审计机器人是好机器人。其中一些机器人可能对您没有有益,而是对互联网的提高,例如互联网档案的爬行者提供有害的。良好的机器人被称为称为有用的机器人。

坏机器类型

  • 只是如果你不知道,那么有很多类型的坏在市场上的机器人,每个人都有这种恶意行为意味着实现。在本文的本文中,我们将讨论与网站和我们的流行的坏机器人b中的互联网上的服务。

交通博特


  • 交通机床是已开发的互联网机器人,以向网站发送假流量。这些是将膨胀您的PageView计数的机器人,让您希望在现实情况下,当实际上没有增加流量时,他们的流量增加。

    这些类型的机器人被销售的Web服务使用交通。他们将使您承诺向您的网站发送真实用户,但最终会发送机器人流量。交通机床存在不同的变化。

  • 虽然描述了与充气页面视图计数的协议,但我们有用于在广告欺诈的情况下单击广告的那些,其中一些观看视频,以及点击链接其他。

垃圾垫

 

垃圾邮件机器人是访问的互联网机器人的类型网页并执行可视为垃圾邮件的任务。其中一个notaptE垃圾邮件机器人的示例是在博客的评论部分或讨论论坛中发布自动评论的机器人。

如果您管理博客或允许用户生成内容的网站,则有很高的您必须遇到这种类型的机器人的机会,因为评论是通用的,垃圾邮件,通常包含URL,操作员对运营商有兴趣。一些垃圾邮件机器人用于政治运动和改变叙述。

 


[(\\u003e] Web刮板是您将呼叫内容盗窃促进机器人的互联网机器人。这是因为它们旨在访问网页并在没有Web所有者或管理员的权限的情况下访问它们的数据。它们是Web数据提取的工具。

虽然面对法律的Web刮擦行为是合法的,但由于内容公开可用,不需要认证n访问,并且被称为的内容没有受版权保护,网站所有者皱眉,因此,可以被视为一个糟糕的机器人。在某些情况下,如果发送太多请求,Web刮板甚至可以关闭低功耗网站。

  • 并发请求的自动代理旋转

僵尸网络可以被称为僵尸计算机的集合。僵尸计算机受到影响的计算机,黑客无法访问其业主的知识。黑客可以利用僵尸网络用于协调DDOS攻击,以便延迟计算机。他们也可以为其他恶意任务利用它们。

倒置代理指南:后反应代理是如何工作的?

  • 签出机器


]

另一类机器人的被视为坏机器人是在限量版发行版中使用结帐机器人。这是一个知名的有限版本S是竞争力的,用户有权只有一个项目,它’ Sneeher Copping上的炎热。

然而,已经开发了一些机器人来通过购买的过程购买更多单位的快速速度,从而剥夺了其他机会购买购买的机会,以便以转售价格向他们销售。这在服装,票务和运动鞋市场中很常见。

除了上述类型的坏机器人外,还有许多其他类型,但上面描述的是互联网上最常见的。

  • 坏机器人的研究

从上面的,如果你在字里行间已阅读,你知道一些的坏机器人的不利影响。但如果你没有。然后不要担心;我们将在下面详细讨论它们。

机器人污染您的接合数据

你需要了解一件事这是可以检测到一些机器人流量,并与真实的h分开uman交通,有些是隐身的,并且没有办法将它们与人类交通区分开来。并且存在问题。交通机床可以增加PageView,甚至为您提供您拥有独特的访客的印象。

如果发生这种情况,那么只要知道您的订婚数据被污染,以及您删除的任何决定都是错误的,除了你能够估计机器人交通的百分比,然后从整个流量中减去它。

  • 减慢性能


  • 当Web服务器获取太多请求时比可以处理的更大,其性能将被锻炼。不幸的是,已知机器人发送太多请求,因此,如果Web服务器有效,则可能会压倒Web服务器。这就是一些机器人运营商夜间跑步机的原因。

除了没有故意开发的机器人放慢网站的机器人,还有一些人设计ACK一个网站通过将其发送太多请求,而不是它可以处理,因此,它被关闭。作为DDoS攻击这种类型的网络攻击的已知和使用僵尸网络中进行。

    窃取数据

  • [123

来自网站管理员的观点的另一种副本效果是在未经他们的同意和许可的情况下提取他们网站上的数据,这可能意味着窃取。

一些实例,这些数据会花费网站的钱来生成,只能在付费墙后面提供。使用Web刮刀,可以收集数据并公开。

 
    增加服务器运行成本

  • 如果你可以,最好让您在网站上劝阻机器人流量。这是因为即使您没有看到它在您的网站上的任何侧面效果,那么您需要知道他们将运行成本增加,因为Web葫芦粗心请求是否来自人类或机器人因此,他们可以扩展,收到太多请求,然后您的成本准备好了。不幸的是,机器人交通,尤其是坏的,对你没有任何好处。

  • 如何检测坏机壳



  • 糟糕的机器人被设计为不可检测的,因此,要注意知道您的网站是否具有机器人交通攻击。让看看一张机器人流量的一些指针。

  • 交通中的不寻常的穗

作为一个部位所有者,您拥有平均页面浏览和唯一每日访问,您应该用作度量标准。如果交通中有一个不寻常的尖峰,你不能辨别出现尖峰背后的原因,那么机器人就是与你的网站进行交互。 你不仅可以在流量中获得飙升,而是交通最重要的是具有高度不寻常的反弹率的直接流量。交通发起的位置也可以给你一个线索,特别是如果是从您没有获得这样的流量。 您需要注意的是 Google Analytics 和您的PageView数据中的不一致性其他流量分析服务,如 crazyegg 和 Microsoft Clarity ,提供录音和重放用户会话和热带来分析是BOT! 许多分析服务都支持过滤机器人流量 - 但算法在检测机器人流量中使用的算法不同,因此,您可以利用之前不存在的不一致,以告诉您的网站何时被机器人访问您的网站。[ 服务器性能意外地影响 本点与在短时间内发送的请求数量有关。如果在短时间内发送太多请求,则如果基础架构的功率低,则会影响您网站的性能。作为Web管理员,你是在响应时间和速度方面也有记录您的网站的性能。 当您的网站变慢而交通中存在飙升,那么最有可能,您的网站被篡改不好机器人。你不能总是依靠这一点,因为机器人可以模仿人类并减慢他们发送请求的速率,从而保持性能相同,同时履行其任务。 垃圾活动和内容张贴发布 检测机器人的最简单方法之一是他们发布的内容。通常,机器人运算符没有时间来制作良好的内容,因此,您可以使用它作为指针。 当您开始获取通用的评论或帖子,并且嵌入URL时,然后,您需要知道那些不是来自机器人的真实用户。此外,具有奇怪的电子邮件和其他个人信息的不寻常的帐户创建是一个指针。 请求头ER检查 大多数基本和未编纂的机器人不发送浏览器发送的所有标题。在大多数情况下,他们甚至忘记设置用户代理标题。 什么是HTTP标题&如何检查HTTP标头? 对于那些发送标题的人,它们几乎不会发送超过用户agent字符串。相比之下,大多数浏览器发送良好数量的标题信息,用于内容协商。如果您在没有提交的标题的情况下获得请求,那么您可以确定该请求源自机器人。 如何阻塞坏机器 何时暂时访问您的网站时,您需要知道您无法获得100%。Facebook还无法这样做,谷歌,亚马逊和其他主要Web服务也是如此。所有你可以做的就是尝试,然后因为他们必须走的额外长度而没有吸引力。 设置IP地址请求限制 IP地址是Web管理员的一些唯一标识符可以访问,并且可以用于解压缩用户。通过在一段时间内具有IP地址允许的请求的数量,可以将其用于它们的优势。如果您从IP地址获取更多请求,则会变得不自然,因此,您可以阻止此类IP地址的后续请求。还有一个重要的您可以阻止数据中心代理提供程序及其IP网络使用的托管提供商。 使用CAPTCHA服务 我敢打赌,你必须在互联网上的某些时候处理CAPTCHA。CAPTCHA是完全自动化公共图灵测试的首字母缩略词,以便从人类中告诉计算机。当CAPTCHA服务检测到不寻常或类似机器人的活动时,它会强制您解决问题以获得访问权限。 虽然人类发现容易解决它们,但机器人等计算机程序发现困难。事实上,有e高级CAPTCHA系统,实际上不可通过BOT解。但是,您需要知道CAPTCHA可以妨碍合法用户的方式并扰乱用户体验。 CAPTCHA避免101:如何更有效地避免CAPTCHA? 块未知浏览器 块堆垛机的另一种方式是记录主要浏览器的指纹,然后阻止与您所拥有的任何浏览器不匹配的源的请求指纹。 这将为缺乏经验的机器人开发人员工作,因为它们不会利用无头浏览器并且没有渲染JavaScript。您甚至可以将JavaScript触发器触发到混音中,并阻止任何未触发JavaScript以执行的请求。 看上面,你可以告诉糟糕的机器人很难处理。您可以用来阻止它们的大多数技术都可以避免。例如,如果您使用的是IP跟踪,代理将使他们毫无用处。 在使用无头浏览器的同时有助于解决CAPTCHA,将处理所有JavaScript相关的抗机器技术。 而不是试图检测并自己阻止他们,我将建议您利用可以检测到糟糕机器人并阻止它们的第三方服务 - 这将是比使用可以容易绕过的粗糙方法更好的选择。 5方法可以检测IP地址是否是代理 如何避免代理被禁止或阻塞 如何检查代理IPS的质量 Instagram IP禁令?使用Instagram指南,尽管IP块!