您是否想学习如何从头开始构建网络爬虫？加入我的行列，向我展示如何使用Python作为本教程的选择语言来构建Web搜寻器。

您是否曾经想过如果没有搜索引擎，互联网将如何发展？好吧，如果我告诉您网络爬虫是使搜索引擎成为如今的今天的秘密。

事实证明，它们不仅在一般的Web搜索领域中而且在学术研究，潜在客户产生甚至搜索引擎优化（SEO）的其他方面都具有极其重要的意义。

任何打算从网站或整个Internet的许多页面上提取数据而没有事先要从中提取数据的链接列表的项目，很可能会利用网络爬虫来实现。

如果您有兴趣为项目开发Web爬网程序，那么您需要知道Web爬网程序的基础很简单，每个人都可以设计和开发一个。但是，取决于项目的复杂性和规模，合适的搜寻器可能难以构建和维护。在本文中，您将学习如何自己构建Web搜寻器。在正确学习本教程之前，让我们看一下Web爬网程序的实际含义。

什么是网络爬虫？

网页爬虫和网页抓取工具这两个术语可以互换使用，许多人认为它们的含义相同。尽管它们大致上是相同的意思，但是如果您深入研究，您会发现Web抓取和Web抓取并不相同–甚至可以从Web爬虫和Web抓取器的设计方式中看到这一点。

网络爬虫，也称为网络蜘蛛，蜘蛛机器人或简称为爬虫，是为了在网站索引和从访问的页面中收集其他数据而开发的系统地访问Web网页的Web机器人。

他们与Web抓取工具有何不同？

从上面可以看出，它们与Web刮板不同。它们都是网络数据提取的机器人。但是，您可以将Web scraper视为更加精简和专业的工作人员，这些工作人员旨在从特定的已定义网页列表中提取特定数据，例如Yelp评论，Instagram帖子，Amazon价格数据，Shopify产品数据等等。会收到网址列表，它会访问这些网址并抓取所需的数据。

对于Web爬网程序而言，情况并非如此，因为它们被提供了一个URL列表，并且从该列表中，Web爬网程序旨在遵循一些规则来查找要自己进行爬网的其他URL。营销人员可以互换使用这些术语的原因是，在Web爬网过程中涉及到Web爬网-某些Web爬网程序包含了Web爬网的各个方面。

Web爬网程序如何工作？

根据网络爬虫的复杂性和用例，它可以以网络爬虫的基本工作方式运行，也可以对其工作机制进行一些修改。在最基本的层次上，您可以将Web爬网程序看作是浏览器，用于浏览Internet上收集信息的网页。

Web爬网程序的工作机制很简单。为了使Web搜寻器正常工作，您必须向其提供URL列表-这些URL被称为种子URL。这些种子URL被添加到要访问的URL列表中。然后，搜寻器将浏览要访问的URL列表，并一个接一个地访问它们。

对于搜寻器所访问的每个URL，它都会提取页面上的所有超链接，并将它们添加到要访问的URL列表中。除了以其他方式收集超链接以覆盖站点或网站的宽度和宽度外，例如对于并非专门为特定网站设计的Web爬网程序，Web爬网程序还会收集其他信息。

例如，除链接数据外，Google bots是Internet上最流行的Web爬网程序，它也对页面内容进行索引以使其更易于搜索。另一方面，Web存档会对访问的页面进行快照-其他爬网程序会提取他们感兴趣的数据。除了要访问的URL列表之外，爬网程序还会保留已访问的URL列表。避免将爬网的URL添加到要爬网的站点列表中。

您必须考虑很多注意事项，包括为访问URL设置规则的爬网策略，规定何时需要在网页上进行更改的重新访问策略，礼貌策略。决定您是否应遵守robots.txt规则，最后是用于协调分布式Web爬网练习的并行化策略等。

使用Python开发网络爬虫

综上所述，我们希望您对什么是Web搜寻器有所了解。现在该开始学习如何发展自己。Web爬网程序是使用那里的任何通用编程语言编写的计算机程序。

您可以使用Java，C＃，PHP，Python甚至JavaScript编写Web爬虫代码。这意味着开发Web搜寻器的首要前提是能够使用任何通用编程语言进行编码。

相关：如何使用Javascript从网站抓取HTML？

在本文中，由于Python的简单性，易用性，初学者友好性以及广泛的库支持，我们将使用Python。即使您不是Python程序员，也可以通过其他速成班fin python编程来理解将要讨论的内容，因为所有代码都将用Python编写。

项目构想：页面标题提取器

我们将要建设的项目将是一个非常简单的项目，可以称为概念证明。我们将开发的搜寻器将接受种子URL，并访问网站上的所有页面，并显示屏幕上的链接和标题。

我们将不尊重robots.txt文件，不使用代理，不使用多线程以及任何其他复杂性-我们将使您易于理解和理解。

项目要求

之前，我曾说过Python具有用于网络爬网的广泛工具库。对于Web爬网而言，最重要的都是Scrapy，它是一个Web爬网框架，可以轻松地用较少的代码行来开发Web爬网程序。但是，我们不会使用Scrapy，因为它隐藏了一些细节。让我们利用Requests和BeautifulSoup组合进行开发。

Python：虽然许多操作系统都预装了Python，但是安装的版本通常较旧，因此，您将需要安装Python的最新版本。您可以访问官方下载页面以下载Python编程语言的更新版本。
请求：请求是人类的HTTP，它是将HTTP请求发送到Web服务器的最佳第三方库。它非常简单易用。在后台，该库使用了urllib包，但对其进行了抽象，并为您提供了更好的API，用于处理HTTP请求和响应。这是一个第三方库，因此，您需要下载它。您可以使用下载。

pip install Requests

BeautifulSoup：请求库用于发送HTTP请求，而BeautifulSoup则用于解析HTML和XML文档。使用BeautifulSoup，您不必处理使用不容易使用的正则表达式和标准HTM解析器，如果您不熟练使用它们，则容易出错。BeautifulSoup使您轻松浏览HTML文档并解析出所需的数据。该工具还是第三方库，未包含在标准python发行版中。您可以使用pip命令下载它：

pip install beautifulsoup4

编码页面标题提取器项目的步骤

如前所述，开发Web搜寻器的过程可能很复杂，但是我们在本教程中开发的搜寻器非常简单。实际上，如果您已经知道如何从网页中抓取数据，则很有可能已经知道如何开发简单的Web搜寻器。页面标题提取器项目将仅包含在一个模块中。您可以创建一个新的Python文件并将其命名

title_extractor.py

该模块将有一个名为TitleExtractor的类，具有2个方法。这两个类是

crawl

用于定义主要爬网逻辑，以及

start

用于在要抓取的URL上提供抓取方法指令。

导入必要的库

首先，导入项目所需的库。我们需要请求，beautifulsoup和urlparse。请求用于发送Web请求，Beautifulsoup用于解析标题以及请求下载的网页中的URL。urlparse库捆绑在标准Python库中，用于解析URL。

from urllib.parseimport urlparse
import requests
from bs4 import BeautifulSoup

网络爬虫类定义

导入所需的库后，让我们创建一个新的类名称TitleExtractor。这将是爬虫类。

class TitleCrawler:
"""
Crawler class accepts a URL as argument.
This seed url will be the url from which other urls will be discovered
"""
def __init__(self, start_url):
self.urls_to_be_visited = []
self.urls_to_be_visited.append(start_url)
self.visited = []
self.domain = "https://" + urlparse(start_url).netloc

从上面可以看到初始化函数它接受URL作为参数。有3个变量用于保存要访问的URL列表，用于保存要访问的URL列表，变量用于保留访问的URL列表，以避免对URL进行多次爬网，而domain变量用于

urls_to_be_visited

visited

domain

您要从其抓取的网站。您将需要它，以便仅对来自域的链接进行爬网。

启动方法编码

def start(self):
for urlin self.urls_to_be_visited:
self.crawl(url)

x = TitleCrawler("https://cop.guru/")
x.start()’

上面的start方法属于TitleExtractor类。您会看到一个for循环，该循环遍历urls_to_be_visited并将URL传递给爬网方法。爬网方法也是TitleExtractor类的方法。x变量用于创建TitleExtractor类的实例，然后调用start方法来使搜寻器开始爬网。根据以上代码片段，实际上什么也没做。主要工作是通过爬网方法完成的。下面是爬网方法的代码。

检索方法编码

def crawl(self, link):
page_content = requests.get(link).text
soup = BeautifulSoup(page_content, "html.parser")
title = soup.find("title")
print("PAGE BEING CRAWLED: " + title.text + "|" + link )
self.visited.append(link)
urls = soup.find_all("a")
for urlin urls:
url = url.get("href")
if urlis not None:
if url.startswith(self.domain):
if urlnot in self.visited:
self.urls_to_be_visited.append(url)
print("Number of Crawled pages:" + str(len(self.visited)))
print("Number of Links to be crawled:" + str(len(self.urls_to_be_visited)))
print("::::::::::::::::::::::::::::::::::::::")

要被抓取的URL由start函数传递到抓取方法中，并且通过遍历urls_to_be_visited列表变量来实现。上面代码中的第一行将请求发送到URL，并返回页面的内容。

使用Beautifulsoup，页面的标题和页面上存在的URL被抓取。Web搜寻器仅用于搜寻目标网站的URL，因此，不考虑外部来源的URL 您可以从第二个if语句中看到。要将URL添加到要访问的URL列表中，它必须是有效URL，并且以前没有访问过。

完整代码

from urllib.parseimport urlparse
import requests
from bs4 import BeautifulSoup

class TitleCrawler:
"""
Crawler class accepts a URL as argument.
This seed url will be the url from which other urls will be discovered
"""
def __init__(self, start_url):
self.urls_to_be_visited = []
self.urls_to_be_visited.append(start_url)
self.visited = []
self.domain = "https://" + urlparse(start_url).netloc

def crawl(self, link):
page_content = requests.get(link).text
soup = BeautifulSoup(page_content, "html.parser")
title = soup.find("title")
print("PAGE BEING CRAWLED: " + title.text + "|" + link )
self.visited.append(link)
urls = soup.find_all("a")
for urlin urls:
url = url.get("href")
if urlis not None:
if url.startswith(self.domain):
if urlnot in self.visited:
self.urls_to_be_visited.append(url)
print("Number of Crawled pages:" + str(len(self.visited)))
print("Number of Links to be crawled:" + str(len(self.urls_to_be_visited)))
print("::::::::::::::::::::::::::::::::::::::")

def start(self):
for urlin self.urls_to_be_visited:
self.crawl(url)

x = TitleCrawler("https://cop.guru/")
x.start()

您可以将种子URL更改为任何其他URL。在上面的代码中，我们使用https://cop.guru/。如果运行上面的代码，您将得到类似下面的结果。

PAGE BEING CRAWLED: Sneaker Bots • Cop Guru|https://cop.guru/sneaker-bots/

Number of Crawled pages:4

Number of Links to be crawled:1535

::::::::::::::::::::::::::::::::::::::

PAGE BEING CRAWLED: All in One Bots • Cop Guru|https://cop.guru/aio-bots/

Number of Crawled pages:5

Number of Links to be crawled:1666

::::::::::::::::::::::::::::::::::::::

PAGE BEING CRAWLED: Adidas Bots • Cop Guru|https://cop.guru/adidas-bots/

Number of Crawled pages:6

Number of Links to be crawled:1763

一个陷阱：该项目有很多改进

查看上面的代码，您很可能会毫无问题地运行它，但是当遇到异常时，该代码将停止运行。为了简单起见，在代码中未考虑任何异常处理。

除了异常处理之外，您还会发现没有加入反机器人系统规避技术，而实际上，许多流行的网站都采用了这种技术来阻止机器人访问。还有速度问题，您可以通过使bot多线程并提高代码效率来解决。除了这些，还有其他需要改进的地方。

结论

查看我们开发的Web爬网程序的代码，您将同意我的观点，即Web爬网程序类似于Web爬网程序，但范围更广。您需要知道的另一件事是，根据发现的URL数量，搜寻器的运行时间可能会很长，但是使用多线程，则可以缩短这一时间。另外，您还需要牢记，用于实际项目的复杂Web爬网程序将需要一种更有计划的方法。

Python爬虫网页爬虫

如何科学上网【NordVPN】---7200W动态住宅代理IP【Luminati】---适用Shadowsock\Clash等软件的机场，支持ZFB【搬瓦工】

网络爬虫深度解析

« 上一篇 2021年11月20日 pm9:53

最佳提取数据的Web爬网软件

下一篇 » 2021年11月20日 pm9:53

如何分辨网络搜寻和网页抓取

您是否认为搜寻和抓取是一样的，并且可以互换使用？您可能需要注意它们是不同的。现在就来发现两者之间的区别和相似之处。当今行业中最容易混淆的两个词是爬行和抓取。如果您阅读了很多有关机器学习和数据聚合的文章，那么您一定会碰到两者可以互换使用。对许多人来说，它们是相同的，一个词与另一个词同义。但是它们是一样的吗？它们有什么区别？它们有何相似之处？在本文中，您将学习...

爬虫代理 2021年11月20日
最佳的网页抓取云提供商

您想利用网络抓取云提供商吗？然后立即进入，以发现最出色的基于云的Web抓取服务，您可以使用它们轻松地从Internet抓取数据。说到网络抓取，你可以使用三种主要平台:PC软件、云服务和浏览器扩展。虽然它们各有优缺点，但其中最灵活的是基于云的解决方案。这是因为它们不依赖于操作系统，刮取的数据保存在云中。其中一些基于云的解决方案所提供的处理能力是大多数系统无法...

爬虫代理 2021年11月20日
如何使用Python提取LinkedIn个人资料

您打算删掉LinkedIn吗？然后，您需要现在就来阅读我们关于LinkedIn抓取器和市场上最好的LinkedIn抓取器的文章-由抓取器专家编写，以节省不必要的时间，金钱和精力。您是否想到过LinkedIn上公开可用的数据量？如果没有，我要告诉你一个事实，LinkedIn拥有企业和研究人员都感兴趣的大量宝贵数据。LinkedIn是专业人士和企业的社交网站。...

爬虫代理 2021年11月20日
如何抓取Instagram有用数据

你对Instagram上的任何数据有兴趣吗?你想从这个平台上大量提取这些数据吗?那么抓是唯一的出路。现在就来发现市场上最好的Instagram数据Scraper -以及如何建立你的。 Instagram是Facebook拥有的流行照片和视频共享社交媒体平台，是社交数据的巨大来源。与Facebook不同的是，Instagram所拥有的个人数据不如Faceboo...

爬虫代理 2021年11月20日
如何从Yelp页面提取数据

您是否希望在Yelp.com网站上抓取业务评论或其他公开可用的数据？然后立即进入市场，发现可以用于此目的的最佳Yelp抓取工具。 Yelp是业务评论和建议的所在地，企业客户可以在这里对其使用过的业务进行评论。对Yelp的评论是可信的，并且企业主不能从他们的业务中删除不好的评论。截至2014年，Yelp上列出了超过6600万家企业-这个数字已经大大增加，并且无...

爬虫代理 2021年11月20日
什么是网络抓取，网页抓取合法吗？

您是否刚接触在线收集数据的世界？然后，现在就来阅读我们的Web Scraping终极指南，这是一种在Internet上公开可用的自动数据收集过程。公司，企业和研究人员越来越了解数据在进行有根据的猜测，起草数学预测，进行推理以及进行情感分析方面的重要性。我们正处于数据的黄金时代，企业将不惜一切代价来获取与企业相关的数据。有趣的是，Internet是一个巨大的...

爬虫代理 2021年11月20日

如何使用Python构建网络爬虫

什么是网络爬虫？

他们与Web抓取工具有何不同？

Web爬网程序如何工作？

使用Python开发网络爬虫

项目构想：页面标题提取器

项目要求

编码页面标题提取器项目的步骤

一个陷阱：该项目有很多改进

相关文章

如何分辨网络搜寻和网页抓取

最佳的网页抓取云提供商

如何使用Python提取LinkedIn个人资料

如何抓取Instagram有用数据

如何从Yelp页面提取数据

什么是网络抓取，网页抓取合法吗？