如何使用Python抓取shopify商店数据

您是否希望从Shopify商店中抓取产品数据或任何其他信息?然后在此页面上停留足够的时间,以发现市场上最好的Shopify抓取机器人并学习如何创建自定义机器人。

Shopify使企业可以轻松地在线建立店面并以最小的努力和麻烦来接受付款。目前,据报道,Shopify为500,000多家在线商店提供支持,并推动了超过400亿美元的销售额。

与过去不同,大多数商店都在网上开展业务。使用Shopify电子商务平台不仅可以销售实体产品。数字产品,会员资格,课程,租金等等。Shopify网站上列出了许多产品  ,该平台已成为营销人员进行竞争研究的枢纽。

作为营销人员,您可以进行竞争分析,发现新产品,监视竞争对手的价格以及价格随时间的变化等等。除了产品数据外,还有其他文本数据可以抓取。如果您有兴趣爬网任何基于Shopify的网站,那么您将在正确的页面上。

在本文中,您将学习可用于从Shopify网站抓取数据的最佳Web抓取工具。如果您具有编码能力,我们还将向您展示如何轻松抓取Shopify网站。在进行适当介绍之前,让我们看一下抓取Shopify的概述。


Shopify抓取-概述

与一些从头开始建立并可以控制其网站的电子商务商店不同,托管在Shopify上的商店几乎无法控制其网站后端。大多数繁重的工作都是由Shopify完成的。

您将发现有关Shopify网站的一件事是所有网站都是相似的,因此,刮取它们的过程是相同的。

有趣的是,即使Shopify具有反机器人系统,但就防止机器人进入而言,它仍可以说是市场上最弱的系统之一。如果您打算抓取Shopify网站,则比抓取其他网站时遇到的障碍最少。

如果您问我,我会告诉您Shopify十分友好。这是因为它具有公共API,您可以查询和检索有关特定站点上列出的所有产品的信息。每个Shopify站点都有一个products.json文件,您可以通过以下URL(“ https://www.exampleshop.com/products.json”)访问该文件。

https://www.exampleshop.com/products.json

用目标站点的URL替换exampleshop.com,您将获得所有产品的详细信息,包括每个产品变体的详细信息。由于该信息以JSON格式显示,因此如果您只是寻找产品数据,则很可能不需要发送其他Web请求。

尽管许多商店老板对此表示抱怨,但Shopify并没有采取任何措施来阻止这种情况。有趣的是,不需要身份验证,并且作为商店所有者,您无法做任何事情来防止这种情况的发生。重要的是要知道,即使Shopify允许自动访问,网站所有者也对此不以为然。Shopify甚至具有阻止机器人流量的系统,但该系统的效率不足。


如何使用Python和请求抓取Shopify网站

如果您具有编码技能,那么本节已为您准备。您可以使用任何编程语言编写Shopify网络抓取工具代码。在一篇文章中,我们可能无法演示如何使用所有语言来做到这一点,因此,我们将使用Python来做到这一点。之所以选择Python是因为它的简单性,可读性以及bot开发者社区都喜欢它。

如前所述,Shopify使得可以通过每个Shopify商店拥有的products.json文件轻松地从Shopify商店访问产品信息。这样,我们不必费力下载产品页面的HTML,然后解析出所需的数据。

您需要的有关产品的所有数据都存在于文件中,您可以立即将所有信息退还给您。因此,您很可能不必处理反机器人系统,因为您只需要发出一个请求即可。但是,如果products.json中没有所需的数据,则需要访问这些页面。

让我向您展示通过使用Python和Requests开发一个简单的商品列表抓取工具,从Shopify商店抓取商品详细信息有多么容易。我们要做的就是将Web请求和products.json发送到完整列表URL路径,然后将其返回。

然后,您可以解析出所需的数据并将其显示在屏幕上。下面是代码:您可以使用任何Shopify商店进行测试运行。这是一个简单的抓取程序,它假定一切正常,因此不会处理异常。

import requests

class ShopifyScraper:

def __init__(self, root_domain):
self.domain_url = root_domain
self.product_list_url = self.domain_url + "/products.json"
self.product_list = []
def get_products(self):

self.fetch_products = requests.get(self.product_list_url)

        products = self.fetch_products.json()["products"]

for iin products:
            title = i["title"]
            slug = i["handle"]
publish_date = i["published_at"]
updated_date = i["updated_at"]
            vendor = i["vendor"]
product_type = i["product_type"]
            tags = i["tags"]
full_url = self.domain_url + "/products/" + slug

            details = [title, full_url, publish_date, updated_date, vendor, product_type, tags]
self.product_list.append(details)

def print_products(self):

for product in self.product_list:
print(product)

x = ShopifyScraper("https://shopnicekicks.com")
x.get_products()
x.print_products()
  • 如何使用Python从Amazon抓取产品数据
  • eBay Scraper 101:如何从eBay获取产品数据
  • Yelp Scraper 101:如何使用Python从Yelp页面提取数据

市场上最好的Shopify网络抓取工具

上面的指南适用于程序员。如果您没有编码技能,但想从Shopify站点中抓取数据,则可以使用许多选项。已经有一些刮板,您可以使用它们来提取数据而无需了解一行代码。

这些工具称为Shopify刮板。尽管其中一些是专用网络抓取工具,但有些是通用的。让我向您介绍一些最好的Shopify抓取工具,您可以使用它们轻松地从Shopify抓取产品数据。


eScraper

  • 定价:每千行起价$ 59
  • 数据输出格式: CSV,Excel,JSON
  • 支持平台: Web

eScraper可以为您完成繁重的工作。他们不会为您移交刮板。您可以将它们视为Shopify数据抓取服务,可以联系该服务,以帮助您从任何Shopify商店抓取产品清单。

您需要做的就是填写一张提供您要求的详细信息的表格。他们将与您联系以提供样品,然后您将完整的数据发送到您的电子邮件中。eScraper的一个重要功能是您可以选择加入计划爬网,并且它们将按计划进行。

eScraper是您要使用的付费服务,特别是如果您不想直接使用工具来解决麻烦时。它支持数据调整,抓取动态网站等。它们的价格基于行数,可以认为是便宜的。


ScrapeStorm

  • 定价:每月49.99美元起
  • 免费试用:入门计划是免费的-有限制
  • 数据输出格式: TXT,CSV,Excel,JSON,MySQL,Google表格等。
  • 支持的平台:台式机

ScrapeStorm是市场上最好的Web抓取工具之一。它是最好的Shopify抓取工具之一。它是由前Google抓取工具团队开发的付费工具,因此,您可以确定要使用坚固的抓取工具。此工具可用于抓取所有网站,包括Ajaxified和JavaScript繁多的现代网站。

ScrapeStorm是目前最先进的抓取工具之一。但是,在表面上,它易于使用。关于Scrape,您会喜欢的一件事是,它利用人工智能自动检测要抓取的重要数据点。


ShopScraper

  • 定价:免费
  • 免费试用:免费–带有高级功能,需要付费
  • 数据输出格式: CSV
  • 支持的平台: Google Chrome

ShopScraper是一个Chrome扩展程序,如果您对使用其高级功能不感兴趣,则可以免费下载并使用。该工具是专门用于从Shopify商店抓取产品详细信息的专用网络抓取工具。使用ShopScraper,您只需单击一下,即可将Shopify商店的产品数据导出到可以使用的CSV中。

Shopify刮板已经下载了2000多个,并且获得了令人印象深刻的星级评价,即使对其进行评分的用户数量远远低于用户数量。但是,在撰写本文时,它被评为5星。

使用此工具,您不仅可以导出所有字段,还可以选择一些要刮擦或收集的产品,该工具易于使用,轻巧且快速。


Octoparse

  • 定价:每月75美元起
  • 免费试用:有限制的14天免费试用
  • 数据输出格式: CSV,Excel,JSON,MySQL,SQLServer
  • 支持平台:云,桌面

Octoparse是一个Web抓取工具,可用于刮擦各种类型的网站,包括电子商务商店。Octoparse是为现代网络构建的,因此即使Shopify商店是Ajaxified,Octoparse也能满足您的需求。

Octoparse是一种视觉刮取工具,不需要任何编码技能。您需要做的就是利用指向和点击界面进行训练。有趣的是,它具有可用于改善工作流程的模板。尽管Octoparse有免费计划供您使用,但订阅付费计划后,该工具的功能将得到释放。

同样重要的是,您可以导出多种格式的抓取数据。Octoparse抓取软件非常适合抓取Shopify网站。您可以使用他们的桌面应用程序或基于云的刮板。Octoparse为目标客户提供14天的免费试用期。


ParseHub

  • 定价:免费
  • 免费试用:免费–高级功能需额外付费
  • 数据输出格式: Excel,JSON,
  • 支持的平台:云,桌面

ParseHub是另一个免费工具,可用于从Shopify站点抓取产品列表。ParseHub有一个基于云的解决方案,但是使用该解决方案将需要您付款。

如果您不想花钱,则必须先下载并安装桌面应用程序,然后再使用它。与Octoparse一样,ParseHub是一种通用的抓取工具,因为它不是专门由Shopify网站制作的。ParseHub还不需要您知道如何编码,因为它为您提供了指向和点击界面以进行培训。

结论

使用Shopify电子商务平台开发的每个站点都在其功能上投入大量资金。有趣的是,如前所述,Shopify以JSON格式公开每个站点的产品详细信息,因此很容易被抓取。但是,并不是每个人都是编码人员,因此,有些Web爬虫可用,您可以使用它们来爬虫产品数据在本文中提出了一些建议。


  • 借助代理在eBay上购物和销售,以避免禁ling令
  • 最佳Shopify代理定位GEO和永不获取子网禁令
  • 抓取Amazon产品数据的最佳Amazon代理
  • 使用软件抓取Craigslist数据的终极指南