scrapy从这里开始

bestproxy • 2022年6月28日 pm10:24 • 代理百科

工欲善其事，必先利其器。在这里我们要选择我们自己的代码编辑器。我用的是Pycharm专业版(以后出一篇破解的文章，现在可以在网上找到激活码)。

如果直接pip3 install scrapy可能会出错。所以你可以先安装lxml，window键+R。

点击回车键进入，我们输入pip list会出现我们已经安装的库。

这里可以看到我都已经安装完毕。输入pip3 install lxml，同理我们分别安装完pyOpenSSL，Twisted，PyWin32。最后安装scrapy，pip3 install scrapy。到这里，你可以和我一样看看输入pip list时候会显示如果显示就说明你已经安装完毕。到这里我们的安装工作就完成了。(注意：如果在windows环境下使用，需要安装"pypiwin32",安装方式"pip install pypiwin32")

看到这里，我们怎么可以不去创建一个scrapy项目了。首先我们先创建一个空的文件件。然后同样的，打开这个界面。

这里有几点要补充，我们要进入我们所创建的空的文件夹。首先输入的"E:"是进入我们电脑上的E盘，然后”cd Python10000“是进入Python10000这个文件夹(你在一件事情上花10000个小时就可以成为这个领域的专家，所以我一直再用这个名字)。"dir"是显示当前文件夹下面所有的文件包括文件夹，可以再次使用cd+文件名进入。这里再说一个用法“cd ../” 返回上级目录。

当我们进入到我们所创建的空文件夹之后，我们输入“scrapy startproject [爬虫的名称]”这会在我们当前的文件夹中创建一个scrapy项目

一个项目我们就创建完成。

目录结构

然后，我们就安装它的提示“cd zhihu“，然后创建我们的爬虫，”scrapy genspider spiders spiders.com“

创建爬虫之后的目录结构

自动生成的代码，这里的代码已经它的作用我们明天来解释。

介绍一下项目的目录结构以及文件的作用：

1.items.py 存放爬虫爬取下来的数据的模型 2.middlewares.py 用于存放中间文件 3.pipelines.py 用来将items的模型存储到本地的磁盘 4.settings.py本爬虫的一些配置信息(请求头，多久发送一次请求，ip代理池等等) 5.scrapy.cfg 项目的配置文件 6.spiders包所有的爬虫，都存放到这个里面

到这里，我们的第一个项目也就创建完成了。

scrapy从这里开始

相关文章

cc代理ip获取大量获取网络信息后，容易形成“信息茧房”……

Jmeter性能测试成长篇之三

Firefox火狐连接到代理服务器时被拒绝，我也是安装...

WOW专用代理服务器

CentOS中如何设置系统级代理

Python爬虫简易代理池