如何用Python抓取Facebook

您是否有兴趣从Facebook抓取用户资料或任何用户生成的内容，如帖子、评论、图像甚至视频?那么现在就来看看如何抓取他们，看看市场上最好的Facebook信息搜集工具。

Facebook是一个庞大的用户生成内容数据库。如果你知道自己在做什么，Facebook的数据就可以用来更好地了解你的受众，从而获得商业和政治利益。这一点可以从Cambridge Analytica如何使用用户的个人资料数据和生成的帖子来创建用户心理资料，以达到宣传的目的中看出。研究人员可以利用用户的帖子或群贴和评论进行情感分析，发现一个用户或一群用户的意图。问题是，你可以用Facebook上的数据做很多事情。

然而，获得所需的数据是一个问题。Facebook提供了一个用于收集用户档案和用户生成内容的API，但事实是，它具有很大的局限性，你不能将收集到的数据用于你需要的数据。您可以使用的唯一选项是使用通常称为Facebook scraper的Facebook数据抓取工具来抓取所需的数据。如果你有编程技能，你可以自己开发，如果你没有，你必须使用市场上已经制作好的工具。

在推荐最好的工具和如何抓取Facebook之前，让我们先来了解一下抓取Facebook的概况。

Facebook抓取-概述

Facebook不是你预算有限的常规网站。作为一家公司，Facebook拥有庞大的预算，并且拥有数千名员工，他们中的许多人都致力于在自己的平台上防止垃圾邮件。事实是，抓取Facebook并不是一件容易的事情，很多web抓取者在多次失败后放弃了抓取Facebook的想法。这是因为Facebook有一个非常强大的反机器人系统，这不仅仅是IP追踪。每当从Facebook平台上收集到大量用户数据时，它就会遭到用户的强烈反对。其中最大的是脸书剑桥分析数据。

由于损失和反弹，Facebook已经加强了它的反机器人系统，以防止抓取器和爬虫访问其网站，因此，刮脸书在一个合理的规模是一个困难的任务，将花费你很多钱。即使成功了，你也有可能被Facebook的法律团队狠狠地揍一顿——这可能意味着你要花一大笔钱去坐牢，这取决于你使用收集的数据的目的。即使存在这些风险，企业和研究人员仍在悄无声地搜索Facebook。如果你也想参与到这篇文章中来，请继续阅读。

阅读更多，安全创建多个Facebook帐户的提示

如何使用Python、Requests和BeautifulSoup来抓取Facebook

我在上面已经说过，抓取Facebook不是一件容易的事情。通常，当你需要在一个合理的规模上抓取任何网站时，你需要在其他网站上使用代理来规避区块和验证码。但对于Facebook来说，如果你必须爬取它的内容，你还需要做更多的准备。首先，你需要知道Facebook网站很大程度上依赖于JavaScript。这就意味着请求和BeautifulSoup的组合不会有帮助，对吗?您可能会认为需要Selenium来呈现和执行JavaScript来提供帮助。

但事实是，虽然Selenium可以帮助您呈现JavaScript，但它可能会适得其反。这是因为Facebook使用JavaScript进行浏览器指纹识别和行为分析，有了它，他们可以判断请求是否来自机器人，而你的访问将在几次请求后被阻止。除非您能找到解决这个问题的方法(我认为您不能)，否则您应该放弃使用Selenium，忘记JavaScript呈现。

那你怎么办呢?如果你在浏览器上禁用了JavaScript并尝试访问Facebook，登录后会弹出提示，告诉你Facebook在没有启用JavaScript的情况下无法正常工作。除了让他们的功能发挥作用，他们还需要它来跟踪你。然而，旧的Facebook移动网页版本(https://mobile.facebook.com)不需要JavaScript，因此，你可以从这个网站而不是网页版本的Facebook。

以下是用于从Facebook网上论坛抓取文本数据的Python代码。这是一个非常基本的代码，它不会刮擦图像，视频甚至帖子作者的姓名-只是文本。它还不包含代理的使用。它使用“请求”下载页面，并使用“ BeautifulSoup”进行解析。当然，对于一个合理的项目，您需要注意代理，分页和异常处理。

在运行下面的代码之前，请确保已安装Requests和BeautifulSoup。如果还没有，请使用点子

install requests

用于安装请求的命令 – and

pip install beautifulsoup4

安装BeautifulSoup。您可以将组的id更改为任何其他组，并且该组中的文本将被废弃。

import requests
from bs4 import BeautifulSoup


class FBGroupScraper:

    def __init__(self, group_id):
        self.group_id = group_id
        self.page_url = "https://mobile.facebook.com/groups/" + self.group_id
        self.page_content = ""

    def get_page_content(self):
        self.page_content = requests.get(self.page_url).text

    def parse(self):
        soup = BeautifulSoup(self.page_content, "html.parser")
        feed_container = soup.find(id="m_group_stories_container").find_all("p")
        for i in feed_container:
            print(i.text)

group_id = "1463546523692520"
d = FBGroupScraper(group_id)
d.get_page_content()
d.parse()

阅读更多：

如何在Twitter上抓取推文
如何抓取YouTube视频，评论
如何从Instagram提取数据

最好的Facebook网络抓取工具

如果您自己无法开发可以逃避街区的Facebook抓取工具，那么使用已解决的方法是可行的方法。市场上有许多已经制成的Facebook刮板，可用于执行刮板任务。尽管有些是免费的，但我通常不建议人们使用它们，因为它们要么限制性强，要么就没有应有的效率。付费的Facebook抓取工具是最好的。这是因为开发商得到了经济上的补偿，因此，它以尽可能最佳的方式工作以保持刮板的功能。以下是市场上一些最好的Facebook刮板。

Octoparse

定价：每月75美元起
免费试用：有限制的14天免费试用
数据输出格式： CSV，Excel，JSON，MySQL，SQLServer
支持的平台：云，桌面

Octoparse可以说是当今市场上最好的web scraper之一。有了它，你几乎可以搜刮所有类型的网站，Facebook就是其中之一。该抓取工具甚至有可供使用的Facebook抓取模板，这使得您可以更容易地从Facebook抓取数据，而无需从头构建一个抓取配置文件。

章鱼屁股行动迅速，高效，可靠。它既可以作为基于云的平台，也可以作为可安装的桌面应用程序。Octoparse是付费的，但也有免费试用的选项。然而，你不能使用Facebook模板与他们的免费试用计划。

ScrapeStorm

定价：每月49.99美元起
免费试用：入门计划是免费的-有限制
数据输出格式： TXT，CSV，Excel，JSON，MySQL，Google表格等。
支持的平台：台式机

就像Octoparse一样，ScrapeStorm也不是专门的Facebook抓取工具。但是，当涉及从Facebook抓取数据时，ScrapeStorm已被证明是您现在可以在市场上使用的最好的Facebook抓取工具之一。该工具易于使用，并具有视觉指向和单击界面，可在要废弃的数据上训练该工具。

它非常适合抓取Facebook用户生成的数据，这是它的智能数据识别功能。ScrapeStorm是由前Google抓取工具小组建立的，因此，他们知道如何逃避Facebook和Google等大型网站所采用的反抓取技术。

Phantom Buster Facebook Group Extractor

定价：每月30美元起–每天1小时起
免费试用： 14天免费试用–每天10分钟
数据输出格式： CSV，Excel，JSON
支持的操作系统： Windows，Mac，Linux

Phantom Buster是一家开发自动化工具的公司，该工具可用于自动化社交媒体上的任务并从中抓取数据。Facebook Group Extractor是专门的Facebook抓取工具。它支持在Facebook社区和组中抓取用户生成的内容。

使用此工具，您可以抓取Facebook组成员的个人资料以及此类组中的帖子。就像上面的工具一样，它是一种付费工具。但是，Phantom Buster为新用户提供14天免费试用选项，以测试他们的服务，您实际上可以将其用于手头的任务。它是基于云的工具。

Proxycrawl Facebook抓取工具

定价： 50,000积分的月费为29美元起
免费试用：前1000个请求
数据输出格式： JSON
支持的平台：基于云–通过API访问

与上面的相比，Proxycrawl提供的Facebook抓取工具是一种独特的Facebook抓取工具。这是因为与上面的可安装软件或基于云的平台不同，此Facebook scraper是scraping API。

它用作RESTful API。这意味着您可以将其合并到您的代码中，并立即使用返回/废弃的数据（因为它是为开发人员构建的）。使用此工具，您只需发送HTTP请求，就可以从Facebook组中提取数据，包括其供稿中的内容及其关联的注释。

批量Facebook页面抓取工具

定价：每月起价为49美元，适用于100个Actor计算单元
免费试用：入门计划附带10个Actor计算单元
数据输出格式： JSON
支持的操作系统：基于云–通过API访问

Apify是已知的Web抓取工具提供商。除了自己的工具外，它还托管可用于网络抓取任务的用户工具。Facebook Pages Scraper是一种这样的工具，您可以使用它从Facebook页面中抓取公共资料信息。它可以帮助您从Facebook页面提取帖子，评论和评论等。

它可以作为API使用，就像Proxycrawl上的Facebook Scraper一样。它易于使用，要求您将HTTP请求发送到其端点，并且响应以JSON对象的形式发送回。

结论

毫无疑问，抓取Facebook十分困难，并且要进行大量的工程设计，适当的计划和执行。如果您知道自己无法满足成功抓取Facebook的要求，那么剩下的唯一选择就是使用市场上已经制作好的Facebook网络抓取工具。上面是经过测试并证明可以使用的Facebook抓取的列表。

如何科学上网【NordVPN】---7200W动态住宅代理IP【Luminati】---适用Shadowsock\Clash等软件的机场，支持ZFB【搬瓦工】

如何从eBay获取产品数据

« 上一篇 2021年11月20日 pm9:53

如何抓取Google搜索引擎数据

下一篇 » 2021年11月20日 pm9:53

Warning: Undefined array key "related_news" in /www/wwwroot/bestproxy.cc/wp-content/themes/justnews/single.php on line 201

免费的网页抓取软件和扩展程序

您是否希望从Internet上抓取数据，但缺乏支付付费工具的财务承诺以及开发Web抓取工具的技术技能？现在就来发现市场上免费的刮板机。如果您已经阅读该博客上的博客文章已有一段时间了，那么您会知道，我不支持用户免费使用某些工具和服务，这与免费服务可能不可靠且附带有这样的事实无关局限性使他们无法高效工作。既然如此，我们不能否认这样一个事实，即并非每个阅读我们博...

爬虫代理 2021年11月20日
如何使用Python从网站上抓取图片

您是否希望使用Python从网页上下载图像？借助python语言语法及其关联的库，使该过程变得容易。在此页面上停留足够长的时间，以学习如何使用Python在线抓取图像。我们正处于数据变得比以往任何时候都重要的时代，并且对数据的追求只会在未来增加。事实证明，互联网是最大的数据来源之一。从文本到可下载的文件，包括互联网上的图像，都有大量的数据。互联网上的许多...

爬虫代理 2021年11月20日
最佳提取数据的Web爬网软件

您是否正在寻找从在线网站提取数据的方法？然后继续阅读，以发现将Web内容转换为可用数据的多种方法。互联网早已成为全球信息的最大来源。每经过一分钟，就会发送超过350,000条推文，Google会收到380万条查询，并在Facebook上上传243,000张图片。过去两年中生成的数据从未在世界历史中合并生成过，其中很大一部分都可以从Internet上获得。 ...

爬虫代理 2021年11月20日
5种检测IP地址是否是代理的方法

通常，当任何人想要检测IP是否是代理时，这是因为他们正试图决定减少对该代理的访问，并因此禁止使用代理的人。那是你的意图吗？如果是这样，那很好。但是，要知道，本文更多是关于为代理用户（而非阻止者）提供工具，以便更深入地了解他们使用的技术，并在免费代理和代理提供者上运行自己的测试。我之所以这样说，主要是因为我支持使用代理，而且我不认为它们应该被公司直接屏蔽...

爬虫代理 2021年11月20日
Python 网络爬虫库和框架

作为python开发人员，您可以使用许多Web抓取工具。现在就来发现这些工具，并学习如何使用它们。毫无疑问，Python是用于Web抓取的最流行的编程语言，这与它易于学习和使用以及拥有大量流行的Web抓取库和框架的事实无关。杠杆作用。作为Python开发人员，您需要了解这些工具，并学习如何使用它们为Web抓取任务编写更好的代码。在本文中，您将学习用于构建...

爬虫代理 2021年11月20日
如何使用抓取工具赚钱

您是否具有网页抓取技能，或者想知道拥有这种技能的前景？然后马上进来，发现您可以通过网络抓取收益的最佳方法。在互联网可供世界各地的许多人使用之前，数据的可用性已成为一个巨大的问题，情况已不再如此，因为互联网已成为世界上最大的数据库，其中包含多种形式的数据，包括文本，音频，和视频。Internet上网站上数据的可用性为程序员提供了独特的赚钱机会，他们具有以自动...

爬虫代理 2021年11月20日

如何用Python抓取Facebook

Facebook抓取-概述

如何使用Python、Requests和BeautifulSoup来抓取Facebook

最好的Facebook网络抓取工具

Octoparse

ScrapeStorm

Phantom Buster Facebook Group Extractor

Proxycrawl Facebook抓取工具

批量Facebook页面抓取工具

相关文章

免费的网页抓取软件和扩展程序

如何使用Python从网站上抓取图片

最佳提取数据的Web爬网软件

5种检测IP地址是否是代理的方法

Python 网络爬虫库和框架

如何使用抓取工具赚钱