新年第一天,要不断进步~
-----
公司最近提了一个需求,按照指定的关键词,自动搜索阿里巴巴上的供应商,然后拿到其基本信息。自己最近恰好学习了Scrapy爬虫,就写了个爬虫实践了下。
项目地址:
haidaozheng/alibaba_suppliergithub.com/haidaozheng/alibaba_supplier项目描述:
利用scrapy,根据指定关键词例如:[phone glass,shooes,dresses women],在 上爬取热门供应商基本信息(公司名称、地址、主要产品等)为了防止封IP,采用了代理(蘑菇代理的隧道代理)如果使用的话,需要自定义的部分:请修改搜索关键词的csv文件,并在alibaba_test.py中修改为相应的地址在middle_ware.py设置自己的代理信息通过scrapy crawl alibaba_test -o suppliers.json启动爬虫