如何抓取Google搜索引擎数据

对于SEO研究而言,淘汰Google的重要性不可过分强调。立即加入,发现市场上最顶级的Google刮板-以及如何自己创建一个。

Google是互联网上最受欢迎的网站,也是大多数人开始搜索的网站。目前,谷歌在全球搜索市场的份额为87.35%。它每年接收超过2万亿次搜索,其索引页面超过130万亿页。由于使用Google的人数和上面列出的页面数,它已成为互联网营销人员中最重要的搜索引擎之一,他们全都在寻找信息以帮助他们在感兴趣的关键字上获得更高的排名在。

不仅是互联网营销商,谷歌最大的竞争对手必应(Bing)也被监视从事Google SERP,以提供更好的排名。事实是,Google在其SERP上公开了许多互联网市场感兴趣的数据-他们将尽一切努力来获取这些数据。另一方面,Google没有提供免费获取该信息的选项,因此,营销人员必须寻找一种替代方法,而这种替代方法只能通过使用称为网络抓取工具的自动化工具来实现。

可用于抓取Google SERP的网络抓取工具称为Google Scrapers。在本文中,您将学习市场上最好的Google Scrapers –以及如何根据编码器的特定需求构建一个。在此之前,让我们看一下抓取Google的概述。


Google抓取–概述

Google的商业模式在很大程度上取决于在Internet上爬网的网站。但是,与其他网站允许其抓取网页并将其用于搜索引擎系统的网站不同,Google不允许免费从其SERP中抓取数据。

我已经尝试了很多次,并且您需要知道几次请求后,您就会被验证码击中。提醒您,Google拥有业界最佳的防抓取系统之一,因此,您需要知道您在做什么以及如何逃避它的反垃圾邮件检查,才能从Google SERP抓取数据。

通常,您要报废Google的原因有多种。营销人员中最受欢迎的原因是,他们希望提取基于关键字的数据,并为某些特定关键字的网页排名数据。

  • 如何使用Python构建简单的关键字抓取工具

有些人还可以将其用于搜索过期的域和Web 2.0博客。当涉及到收集这些数据时,您甚至可能不需要自己做这些,因为已经有一些成熟的解决方案,例如Semrush,Ahref和Moz等,可以帮助您解决这些问题。但是,如果您想要一个更专业的工具,或者想要避免支付这些已经制造的工具上标明的价格,那么您只需要抓紧自己。


如何使用Python,请求和BeautifulSoup抓取Google

我不了解您,但我确实知道自己是一名互联网营销商,我对自己在Google搜索引擎结果页(SERP)上公开的大量数据感兴趣,并试图将成本保持在较低水平尽可能地幸运的是,我是一名编码员。如果您像我一样,并且想通过构建自己的Google抓取工具来抓取Google,那么本节已为您撰写。它将主要包含建议和下面的代码示例,以向您展示如何完成它。

Google SERP的布局和设计在设备和平台之间是不同的,因此,最重要的是设置标头,尤其是用户代理标头。我尝试运行在Windows计算机上编写的Google抓取脚本,并在移动IDE上使用Chrome浏览器检查了HTML,并破解了代码-直到我使用相同的标头才可以使用。除此之外,您还需要检查一下,以通知您Google SERP上的布局是否发生了很大变化(因为变化很大),因此,您需要为此做好准备。

我建议您不要使用Selenium进行抓取,因为它很容易检测到,并且允许Google为您创建指纹。如果您想使用Python编程语言,Requests和BeautifulSoup的二重奏将很好地工作。

您需要使用不会泄漏您的IP地址并且不能被检测为代理的高质量代理。在报废Google时,住宅代理是市场上最好的代理。您还必须注意轮换代理,但是使用网络抓取API或代理池可以减轻您的责任。除了代理,您还需要处理许多其他事情,包括设置标头和在请求之间随机分配时间。

以下是一个代码示例,可抓取显示在Google SERP底部的关键字建议。该工具是基础知识和概念证明;如果确实需要在大型项目中使用HTML检查,则需要合并HTML检查以验证布局的一致性和更改以及异常处理和代理。

import requests
from bs4 import BeautifulSoup

def add_plus(keywords):
   keywords = keywords.split()
   keyword_edited = ""
   for i in keywords:
      keyword_edited += i + "+"
   keyword_edited = keyword_edited[:-1]
   return keyword_edited
   
class KeywordScraper:
        def __init__(self, keyword):
                self.keyword = keyword
                plusified_keyword = add_plus(keyword)
                self.keywords_scraped = []
                self.search_string = "https://www.google.com/search?q=" + 
plusified_keyword
      
        def scrape_SERP(self):
                headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0)
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36'}
                content = requests.get(self.search_string, headers=headers).text
                soup = BeautifulSoup(content, "html.parser")
                related_keyword_section = soup.find("div", {"class":"card-section"})
                keywords_cols = related_keyword_section.find_all("div",
{"class":"brs_col"})

                for col in keywords_cols:
                        list_of_keywords = col.find_all("p", {"class":"nVcaUb"})
                        for i in list_of_keywords:
                                self.keywords_scraped.append(i.find("a").text)
                                
        def write_to_file(self):
                for keyword in self.keywords_scraped:
                        with open("scraped keywords.txt", "a") as f:
                                f.write(keyword + "\n")
                print("keywords related to " + self.keyword + " scraped successfully")
                        

s = KeywordScraper("Best gaming pc")
s.scrape_SERP()
s.write_to_file()

市场上最好的Google抓取工具

市场上有许多Google抓取工具,可用于抓取Google SERP上公开提供的数据。但是,它们的有效性,价格和易用性并不相同。在逃避障碍物的同时完成工作时,其中一些被证明是最好的。下面将讨论其中一些最佳的Google Scrapers。


Octoparse

  • 定价:每月75美元起
  • 免费试用:有限制的14天免费试用
  • 数据输出格式: CSV,Excel,JSON,MySQL,SQLServer
  • 支持的平台:云,桌面

Octoparse是一种通用的网页抓取工具,可用于抓取Google-也是目前最好的Google抓取工具之一。Octoparse不仅具有抓取Google结果页的功能,而且还可以用于从Google Maps抓取数据。

关于Octoparse,我喜欢的一件事是,它是一种非常智能的Web刮板,可以智能地避免网站使用的反刮板系统。因为它是视觉抓取工具,所以Octoparse不需要您是其他编码员即可使用它。Octoparse易于使用,既是可安装的软件又是基于云的解决方案。

阅读更多:面向非程序员的免费Web爬取软件和扩展


ScrapeBox

  • 定价:一次性支付$ 97
  • 免费试用:
  • 数据输出格式: CSV,TXT等
  • 支持平台:台式机

如果您需要一个工具来抓取谷歌,那么这个工具将是ScrapeBox。它不仅是为谷歌搜索引擎抓取,但一般搜索引擎优化相关的抓取任务-和其他互联网营销活动。作为搜索引擎优化的瑞士军刀,ScrapeBox拥有大量的工具,可以帮助您执行网络营销任务,包括搜索引擎Harvesters和关键字Harvester,它们非常适合在谷歌serp上抓取公开可用的数据。你需要在其他代理使用ScrapeBox成功,因为它将帮助隐藏你的IP足迹-在其他避开IP跟踪。它是一个基于windows的工具。

阅读更多:最佳的Web爬网软件以提取数据(桌面应用程序)


Webscraper.io

  • 定价:浏览器扩展是免费的
  • 免费试用:浏览器扩展是免费的
  • 数据输出格式: CSV
  • 支持平台: Chrome

运行良好的Web刮板带有价格标签,并且包括列表中除Webscraper.io之外的所有其他网络刮板,Webscraper.io是完全免费的,除非您有兴趣使用基于云的平台。Webscraper.io可作为Google Chrome浏览器扩展程序使用,可用于从Google网页(包括Google SERP和Google Maps)提取数据。Webscraper.io可在其他网站工具上使用,并可以将其转换为数据库。由于此工具是免费的,因此您必须自己照顾代理。毫无疑问,即使没有价格标签,Webscraper.io也能正常工作。

了解更多:找到最佳的Web Scraping扩展


批准Google搜索结果抓取工具

  • 定价:每月起价为49美元,适用于100个Actor计算单元
  • 免费试用:入门计划附带10个Actor计算单元
  • 数据输出格式: JSON
  • 支持的操作系统:基于云–通过API访问

与上面讨论的其他Google抓取工具不同,Apify Google搜索结果抓取工具是为编码人员构建的,用作API,因此,它不是像其他工具一样的可视工具-您必须知道如何编码才能发挥其全部潜力。使用此Google抓取工具,您只需要发送API请求,所需的数据就会以JSON格式返回。该抓取工具将帮助您在Google SERP上抓取公开可用的数据,包括广告,列出的页面以及与关键字相关的数据。如前所述,该工具适用于开发人员,可以用作抓取API。


Proxycrawl Google Scraper

  • 定价: 50,000积分的月费为29美元起
  • 免费试用:前1000个请求
  • 数据输出格式: JSON
  • 支持的平台:基于云–通过API访问

Proxycrawl Google Scraper最初不是作为常规的Web抓取工具制作的,而是作为抓取API的,您可以使用它从Google搜索引擎结果页面提取结构化数据。您可以抓取的某些信息包括与关键字相关的信息,例如人们也询问的内容,相关的搜索结果,广告等等。这意味着Proxycrawl Google Scraper并非供非编码器使用,而是由试图避免处理代理,验证码和块的编码器使用。它易于使用且非常有效。

有关:

  • 代理API与 数据中心与 住宅用刮擦
  • 爬取Google时防止禁令和验证码的代理
  • 适用于SERP数据的最佳Google代理,绝不会阻止Google

结论

Google SERP拥有许多基于关键字和页面排名的数据,这些都是Internet营销人员和研究人员感兴趣的数据,因此,即使Google反对对其进行抓取,它们也无法完全阻止对其进行抓取。上面已经讨论了一些Google抓取工具,这些抓取工具被证明可以很好地工作。