如何使用代理从Linkedin抓取数据

LinkedIn拥有超过5亿用户,是现代数字Rolodex。如果您没有帐户,则可能应该拥有一个。您可以与您所在行业的主要参与者并肩作战,与高中的熟人交往,并为下一步的业务战略制定策略。

这就是LinkedIn的普通用户的身份,我应该是,也应该是。

但是,对于刮板而言,LinkedIn具有完全不同的含义。刮板管理员将LinkedIn视为充满个人信息的金矿,而不是与行业中的人员手动联系。一个拥有500+百万个(且还在不断增长)矿块的矿山,所有矿块可以通过多种方式收获。

然后,LinkedIn上有公司简介,该公司简介与单个用户分开,并为刮板添加了整个其他元素。


为什么要抓取LinkedIn?

答案应该很明确:获取所有信息。用户个人资料具有名称,电子邮件地址,行业,技能能力等。公司具有许多员工,职位发布,当前员工以及许多其他重要数据。

LinkedIn是劳动力中人员和公司的字面代表,他们使信息保持最新。这些数据非常有价值。

当然,您不能刮擦我上面列出的所有数据。但是您可以抓取一些。


LinkedIn允许抓取吗?

我们都大喊“不!” 在一起,所以要点越过。LinkedIn非常非常反对任何形式的抓取。它认识到客户在分析和隐私方面的价值,并将继续竭尽全力以防止爬虫软件进入现场。您可以阅读标题为“禁止抓取软件”的明确声明以了解要点。

虽然这种语言很扎实,但最好的例子是LinkedIn对100名匿名数据抓取者提起的诉讼,这些抓捕者做了您想做的但做得不好。在撰写本文时,该案的裁决尚未确定,它提出了许多有关报废的问题,这些问题超出了本文的范围。

我要说的是,如果您确实打算抄袭LinkedIn,请务必谨慎。他们确实不希望您这样做,因此,如果您打算这样做,则必须正确执行。

如何抓取LinkedIn

正确行事包括许多因素。您需要考虑:

  • 抓取所需的应用程序
  • 您需要在应用程序中设置的参数
  • 您将在LinkedIn上抓取的页面类型(公共或私有)
  • 使用的代理类型以及使用的代理数量

使用python抓取LinkedIn的简单示例


LinkedIn搜寻应用程序

有些特定的应用程序仅适用于LinkedIn和LinkedIn,例如Octoparse。然后还有多功能工具,例如Scrapebox(适用于公开资料)。

阅读更多:LinkedIn Scraper 101:如何使用Python删除LinkedIn个人资料

选择应用程序很重要,因为许多应用程序都需要花钱。您需要对
软件本身有充分的了解,然后再对要脱颖而出的内容进行全面了解,以期获得可观的投资回报。


应用程序内的参数需要注意!

解决了应用程序后,您需要在其中调整两个关键设置。这是普遍适用于所有的拼抢过程,但专门为LinkedIn,因为它比其他网站更敏感。


1.线程

抓取软件中的线程详细说明了您要抓取的打开的连接数。线程越多,刮擦越快;线程越多,标记和被禁止的速度就越快。

每个代理非常谨慎地使用一个线程。那是一个真正的人类的行为,因此,在某个时候,任何其他事情都会变得可疑。但是,许多刮板每个代理最多使用10个线程。

由于LinkedIn极力禁止抓取,因此我建议每个代理服务器保持单一线程。是的,从长远来看,它会减慢结果速度并增加成本。我认为,这些是刮除LinkedIn和避免提起诉讼所固有的成本。


2.超时

调整应用程序抓取设置的第二个主要因素是超时。超时是服务器在代理开始新请求之前响应代理所花费的字面时间。

如果您将超时设置为10秒,则代理将在服务器无响应10秒后从服务器发送另一个信息请求。

许多刮板将超时设置为非常低:1或2秒。这会产生大量结果,因为它经常创建新的信息请求,这意味着您会更频繁地获得结果。

不要这样 设置高的超时时间,介于30到60秒之间。这使服务器在该特定代理发送另一个请求之前有一个稳定的暂停。

可以将其视为人类:如果存在延迟,人类会每秒重新加载网站主页吗?也许可以,但是他们不会在一千秒钟内重复执行一千遍。

通过将超时设置得较高,可以避免LinkedIn进行的大量检测,并且不会因重复请求而使他们不知所措。

  • 如何避免代理被禁止或阻止

通过搜索引擎在LinkedIn上搜寻公开个人资料

离开应用程序,让我们进入LinkedIn本身。LinkedIn主要用作私有网络。要查看其大多数信息,您必须创建一个帐户,登录并开始与人们联系。

但是,它有很多公共页面。无需帐户即可查看这些内容,因此无需登录即可将其删除,因为您无需帐户即可轻松查看公开的LinkedIn个人资料。

您可以自由地在LinkedIn上刮擦公共页面,就像任何以搜索引擎开头的常规刮擦一样。 您必须输入正确的搜索字词,例如“ LinkedIn.com”,这将在Google中生成指向特定LinkedIn页面的结果。

然后,您的抓取工具可以访问这些公共页面上可用的信息,并将其返回给您。在这种情况下,您将同时抓取Google和LinkedIn,因此请注意不要对它们中的任何一个发出警报。

您可以通过使用诸如Microsoft或Google或Apple之类的引擎在LinkedIn上搜索公司页面的行业领域来获得非常具体的信息。您可以通过针对“ Apple LinkedIn”进行抓取,然后抓取结果来完成此操作。

但是,这只会给您公开页面,并且您可能不希望受到限制。


使用旋转反向连接代理进行匿名爬网

在Google的LinkedIn上对公共文件进行抓取并不难,即使在许多情况下,甚至只需使用Scrapebox即可帮助您处理它。

因此,如果您只是想抓取公开资料,最好的解决方案是使用反向连接旋转代理在Google和LinkedIn上抓取数据!

  • Luminati –代理池中有72+百万个住宅IP
  • Smartproxy –代理池中有40+百万个住宅IP
  • Shifter –代理池中有31+百万个住宅IP

相关:反向连接代理如何工作?


在LinkedIn上搜寻私人个人资料

私人帐户的抓取是LinkedIn不想让您越过的特定界限。抓取公共页面并不高兴,但它们是公共的,从法律的角度来看,他们对此无能为力。

私人页面是另一回事。当一个人在LinkedIn上注册时,他们被告知他们的信息将被保密,不会出售给其他公司,仅用于内部使用。当刮板出现以获取该信息时,LinkedIn面临一个重大问题。

如果您使用刮板出售个人信息,我不会容忍此活动。这基本上意味着您将绕过LinkedIn的隐私条款,从人们那里收集个人信息,然后将其出售给公司以获取利润。这不是最酷的事情。

但是,还有其他原因可以刮除此信息。也许您正在寻找工作,并想在特定城市中找到程序员或在新州找到工作。您也可以进行研究。这些对我来说似乎都不错,但以营利为目的的模型则不行。


创建账户

在LinkedIn上抓取私人页面的方法是创建一个帐户。完成此操作并
实际登录LinkedIn后,您将可以根据需要进行尽可能多的搜索。请记住,该帐户不是用于与人联系的,而是作为LinkedIn进行抓取的访问点。

为此,我建议使用Octoparse。他们的软件可让您使用帐户登录LinkedIn,并通过拖放界面进行特定的搜索和抓取,同时还向您显示您所在的LinkedIn页面。如果使用起来有些笨拙,则在视觉上非常好。

您可能想出了一种与其他应用程序一起完成此操作的方法,但这并不是那么容易。

  • 相关:如何使用Octoparse抓取亚马逊的评论

搜索和收获

创建帐户后,只需弄清楚您要搜索的内容。如果您尝试找到Microsoft员工,则会有大量人员涌现。您可以让刮板收集作为非连接可用的任何信息。基本上是姓名,职位,有时是电子邮件地址。

除非您与其他人保持联系,否则大多数信息仍然是私人的,并且如果您这样做,基本上就是在运行普通的LinkedIn帐户。


每个帐户使用专用代理

通过执行上述操作,您正在LinkedIn中使用直接自动化工具。被捕获到这里的可能性很大,因此请确保遵循上面的线程和超时规则。

另外,请确保您使用一个代理IP地址创建帐户,然后在该帐户上抓取。这一切都是关于像人一样出现。大多数人不会每隔几个小时从不同的IP地址访问LinkedIn。他们从一个IP地址访问它:他们的家庭地址。

如果使用代理IP创建帐户,请使用相同的代理IP刮取该帐户,并正确设置所有参数,这将大大减少被阻止或禁止的机会。


代理的类型和数量

所有这一切的最后一个要素是您使用的代理类型以及您使用的代理数量。这与您的预算非常吻合,因为更多(或更好)的代理等于更多的现金。在整个过程中请记住这一点。

如果您想抓取Linkedin帐户的私人资料,则必须为每个帐户使用专用代理!因为您必须登录才能查看其他私人资料,并且Linkedin对IP是如此严格,所以当您更改IP以登录到帐户时,您必须通过电子邮件进行验证!

您想要精英私人代理来抓取LinkedIn。随着诉讼的进行,LinkedIn并没有开玩笑地惩罚抓取工具。这意味着您将需要精英专用代理,而只需要精英专用代理。

这些代理提供了所有代理类型中最匿名和最安全的HEADER设置,并为您提供了不受限制的访问和速度。共享代理免费代理(甚至更少的私有代理)也不够安全或不够快,无法完成任务。

阅读更多: 共享和私有代理之间的区别

您还需要测试代理,以确保它们与LinkedIn兼容。由于LinkedIn的防抓取,它拥有大量列入黑名单的IP。如果您的代理人在此列表中,则将根本无法使用。请与您的提供商联系以获取这些详细信息,或者自己进行测试,然后与他们聊天。


代理数量

根据抓取的大小,您将需要一些抓取。一般的经验法则是,代理越多越好,尤其是在抓取困难的网站时。

如果您每个帐户只使用一个代理,并希望快速收集大量数据,则可以考虑使用50个帐户和50个代理作为开始的位置。

如果您想为每个帐户设置更多代理(我不建议这样做),请抓住100-200范围内的某个位置并经常轮换它们,以使它们不会被发现,然后被阻止,禁止和列入黑名单。

代理越少,被检测到的频率就越高。这始终是一个实验,因此请确保您进行了所有测试。

  • 我的申请需要多少代理?

结束

抓取LinkedIn需要代理和代理。您必须真的要这样做,因为这并不容易,并且可能导致IP列入黑名单或提起诉讼。因此,请采取预防措施。了解为什么要删除LinkedIn,然后仔细实现这些特定目标。