工欲善其事,必先利其器。在这里我们要选择我们自己的代码编辑器。我用的是Pycharm专业版(以后出一篇破解的文章,现在可以在网上找到激活码)。
如果直接pip3 install scrapy可能会出错。所以你可以先安装lxml,window键+R。
点击回车键进入,我们输入pip list会出现我们已经安装的库。
这里可以看到我都已经安装完毕。输入pip3 install lxml,同理我们分别安装完pyOpenSSL,Twisted,PyWin32。最后安装scrapy,pip3 install scrapy。到这里,你可以和我一样看看输入pip list时候会显示如果显示就说明你已经安装完毕。到这里我们的安装工作就完成了。(注意:如果在windows环境下使用,需要安装"pypiwin32",安装方式"pip install pypiwin32")
看到这里,我们怎么可以不去创建一个scrapy项目了。首先我们先创建一个空的文件件。然后同样的,打开这个界面。
这里有几点要补充,我们要进入我们所创建的空的文件夹。首先输入的"E:"是进入我们电脑上的E盘,然后”cd Python10000“是进入Python10000这个文件夹(你在一件事情上花10000个小时就可以成为这个领域的专家,所以我一直再用这个名字)。"dir"是显示当前文件夹下面所有的文件包括文件夹,可以再次使用cd+文件名进入。这里再说一个用法“cd ../” 返回上级目录。
当我们进入到我们所创建的空文件夹之后,我们输入“scrapy startproject [爬虫的名称]”这会在我们当前的文件夹中创建一个scrapy项目
一个项目我们就创建完成。
目录结构
然后,我们就安装它的提示“cd zhihu“,然后创建我们的爬虫,”scrapy genspider spiders spiders.com“
创建爬虫之后的目录结构
自动生成的代码,这里的代码已经它的作用我们明天来解释。
介绍一下项目的目录结构以及文件的作用:
1.items.py 存放爬虫爬取下来的数据的模型 2.middlewares.py 用于存放中间文件 3.pipelines.py 用来将items的模型存储到本地的磁盘 4.settings.py本爬虫的一些配置信息(请求头,多久发送一次请求,ip代理池等等) 5.scrapy.cfg 项目的配置文件 6.spiders包所有的爬虫,都存放到这个里面到这里,我们的第一个项目也就创建完成了。