今天,已经为您安排了32个Python爬虫程序。
整合的原因是爬虫简单快捷,而且非常适合新入门的小伙伴们发展信心。所有的链接点到GitHub,并祝大家玩的好时机~
wechatsogou [ 1 ] -公众的爬虫。基于搜狗搜索公众号履带接口可以扩展到基于爬虫爬虫搜索,结果列表。每个项目都是公共数字特定信息字典。
doubanspider [ 2 ]豆叶阅读爬虫。所有的书都能爬下豆瓣阅读标签之下,按分数排序存储,存储在Excel中,您可以轻松地搜索,筛选,和1000的高数量的书>>评价筛选;根据存储在不同的表不同的主题,使用用户代理伪装成浏览器爬行,模仿浏览器行为而为了避免添加随机延时,履带受阻。
zhihu_spider [ 3 ] -被称为爬虫类。该项目的功能是抓取用户信息和人际拓扑知识。爬虫框架使用Scrapy,数据存储采用的是Mongo
Bilibili用户[ 4 ]毕丽碧利用户爬虫。总数据:,抓取字段:用户ID、昵称、性别、头部大小、等级、经验值、粉丝数、生日、地址、注册时间、签名、等级和经验值。抓取后生成B站用户数据报表。
sinaspider [ 5 ] Sina微博的爬行动物。新浪微博主要抓取用户个人信息、微博信息、粉丝关注等。代码访问新浪微博的cookie登录,可以防止司娜帆葩通过多账号登录。的爬虫框架Scrapy的主要用途。
distribute_crawler [ 6 ] -小说下载分布式爬虫。分布式网络爬虫的Scrapy,Redis实现,MongoDB和石墨用于存储在MongoDB集群的底部。分布式redis是实现。履带式状态显示是用石墨来实现的,主要用于一个新的站点。
cnkispider [ 7 ]中国爬行动物。在设定的检索条件,数据是由SRC / cnkispider.py抓获,并且每个数据文件的第一行为字段名称存储在数据目录。
lianjiaspider [ 8 ]链家网络爬虫。二手房在北京地区的连锁记录已经记录下来。它涵盖了链族爬虫的所有代码,包括链家模拟登录码。
scrapy_jingdong [ 9 ] -京东爬虫。基于Scrapy Jingdong网站爬虫是存储在CSV格式。
群蜘蛛[ 10 ] - 群爬虫。批量取群信息,包括组名、组数、组数、组、集团介绍等内容,生成xls(x)/ CSV文件。
wooyun_public [ 11 ]暗云的爬行动物。乌云漏洞公开,知识库的爬虫和搜索。MongoDB的存在在文本中列出所有打开的孔,每个孔,2g左右的内容;如果所有文字和图片为站离线查询10g左右的空间,2小时(10M带宽);把所有的知识库,共约500m空间。漏洞搜索使用了烧瓶作为Web服务器,引导程序作为前端。
蜘蛛[ 12 ] - hao123网站爬虫。把hao123的入口页面,滚动起来,把外链,收集网址,记录的内链的数量和外链的网站地址,记录标题和其他信息,而Windows7 32位试验,目前,每24个小时,数据可以收集到约10万。
findtrip [ 13 ] -机票爬虫(去哪儿和Ctrip)。findtrip是scrapy的票价爬虫,目前集成了国内最大的两个机票网站(如+携程)。
163spider [ 14 ] -一个基于请求,MySQLdb网易客户端内容爬虫,和torndb
doubanspiders [ 15 ]豆电影,书籍,组,相册,的东西,和其他爬行动物
spider [ 16 ] - 空间的爬虫,包括日志、谈话、个人信息等,可以捕获400万个数据一天。
百度音乐蜘蛛[ 17 ]百度MP3全站爬虫,使用redis支持HTTP。
tbcrawler [ 18 ] -淘宝和Tmall crawler,可以基于搜索关键词,项目ID来抓取页面信息,存储在MongoDB的数据。
斯德哥尔摩[ 19 ]股票数据(Hu Shen)爬虫和股票选择策略测试框架。根据选定的日期范围,抓住两个上海和深圳股票市场的股票市场数据。支持使用表达式定义股票选择策略。支持多线程处理。将数据保存到JSON文件和CSV文件中。
BaiduyunSpider[20]- Baidu cloud disk crawler.
蜘蛛[ 21 ] -社会数据爬虫。支持微博,知道,豆。
代理池[ 22 ] - Python爬虫代理IP池(代理池)。
music-163 [ 23 ] -爬行的网易云音乐的所有歌曲的评论。
jandan_spider [ 24 ] -爬煎鸡蛋妹纸图片。
cnblogsspider [ 25 ] - cnblogs列表页面爬虫。
spider_smooc [ 26 ] -爬的摩丝视频。
cnkispider [ 27 ]中国爬行动物。
knowsecspider2 [ 28 ]知道爬山虎的标题。
AISS蜘蛛[ 29 ]—。爬行动物的应用图像。
sinaspider [ 30 ] -动态IP解决了新浪的反爬虫机制和迅速抓住内容。
CSDN的蜘蛛爬上[ 31 ] - CSDN博客文章。
proxyspider [ 32 ] -抓取代理IP在西刺和验证代理的可用性
写在最后
前几天有私信小编要Python的学习资料,小编整理了一些有深度的Python教程和参考资料,从入门到高级的都有,文件已经打包好了,正在学习Python的同学可以下载学习学习。需要资料或教程的同学可以关注下小编的头条号,或在评论区回复下小编看到后会分享给你。