分布式爬虫框架XXL-CRAWLER
XXL-CRAWLER 是一个分布式爬虫框架。一行代码开发一个分布式爬虫,拥有"多线程、异步、IP动态代理、分布式、JS渲染"等特性;
特性
1、简洁:API直观简洁,可快速上手;2、轻量级:底层实现仅强依赖jsoup,简洁高效;3、模块化:模块化的结构设计,可轻松扩展4、面向对象:支持通过注解,方便的映射页面数据到PageVO对象,底层自动完成PageVO对象的数据抽取和封装返回;单个页面支持抽取一个或多个PageVO5、多线程:线程池方式运行,提高采集效率;6、分布式支持:通过扩展 "RunData" 模块,并结合Redis或DB共享运行数据可实现分布式。默认提供LocalRunData单机版爬虫。7、JS渲染:通过扩展 "PageLoader" 模块,支持采集JS动态渲染数据。原生提供Jsoup(快速、推荐)和HtmlUnit(较慢、JS渲染)两种实现,支持自由扩展其他实现。8、失败重试:请求失败后重试,并支持设置重试次数;9、代理IP:对抗反采集策略规则WAF;10、动态代理:支持运行时动态调整代理池,以及自定义代理池路由策略;11、异步:支持同步、异步两种方式运行;12、扩散全站:支持以现有URL为起点扩散爬取整站;13、去重:防止重复爬取;14、URL白名单:支持设置页面白名单正则,过滤URL;15、自定义请求信息,如:请求参数、Cookie、Header、UserAgent轮询、Referrer等;16、动态参数:支持运行时动态调整请求参数;17、超时控制:支持设置爬虫请求的超时时间;18、主动停顿:爬虫线程处理完页面之后进行主动停顿,避免过于频繁被拦截;二、快速入门
爬虫示例参考
(爬虫示例代码位于 /test 目录下)
1、爬取页面数据并封装VO对象2、爬取页面,下载Html文件3、爬取页面,下载图片文件4、爬取页面,代理IP方式5、爬取公开的免费代理,生成动态代理池6、分布式爬虫示例7、JS渲染方式采集数据,"htmlUnit" 方案8、JS渲染方式采集数据,"selenisum + phantomjs" 方案9、采集非Web页面,如JSON接口等,直接输出响应数据第一步:引入Maven依赖
<dependency> <groupId>com.xuxueli</groupId> <artifactId>xxl-crawler</artifactId> <version>${最新稳定版}</version> </dependency>第二步:定义 "PageVo/页面数据对象"(可选)
在此推荐两款工具,可以直观迅速的获取页面元素的Jquery cssQuery表达式。
1、Chrome DevTools:首先定位元素位置,然后从Element选中选中元素,点击右键选择“Copy + Copy selector”即可;2、Jquery Selector Helper(Chrome插件):首先定位元素位置,然后从Element右侧打开Selector界面,然后定位元素即可;// PageSelect 注解:从页面中抽取出一个或多个VO对象; @PageSelect(cssQuery = "body") public static class PageVo { @PageFieldSelect(cssQuery = ".blog-heading .title") private String title; @PageFieldSelect(cssQuery = "#read") private int read; @PageFieldSelect(cssQuery = ".comment-content") private List<String> comment; // set get }第三步:创建爬虫
XxlCrawler crawler = new XxlCrawler.Builder() .setUrls("") .setWhiteUrlRegexs("\\.oschina\\.net/xuxueli/blog/\\d+") .setThreadCount(3) .setPageParser(new PageParser<PageVo>() { @Override public void parse(Document html, Element pageVoElement, PageVo pageVo) { // 解析封装 PageVo 对象 String pageUrl = html.baseUri(); System.out.println(pageUrl + ":" + pageVo.toString()); } }) .build();第四步:启动爬虫
crawler.start(true);三、总体设计
架构图
3.1 功能定位
XXL-CRAWLER 是一个分布式Web爬虫框架。采用模块化设计,各个模块可灵活进行自定义和扩展。
借助 XXL-CRAWLER,一行代码开发一个分布式爬虫。
3.2 核心概念
概念说明XxlCrawler爬虫对象,维护爬虫信息PageVo页面数据对象,一张Web页面可抽取一个或多个PageVoPageLoaderWed页面加载器,负责加载页面数据,支持灵活的自定义和扩展PageParserWed页面解析器,绑定泛型PageVO后将会自动抽取页面数据对象,同时支持运行时调整请求参数信息;
NonPageParser : 非Web页面解析器,如JSON接口等,直接输出响应数据
3.3 爬虫对象:XxlCrawler
功能:爬虫对象,维护爬虫信息,可选属性如下。
方法说明setUrls待爬的URL列表setAllowSpread允许扩散爬取,将会以现有URL为起点扩散爬取整站setWhiteUrlRegexsURL白名单正则,非空时进行URL白名单过滤页面setIfPost请求方式:true=POST请求、false=GET请求setUserAgentUserAgentsetParamMap请求参数setCookieMap请求CookiesetTimeoutMillis超时时间,毫秒setPauseMillis停顿时间,爬虫线程处理完页面之后进行主动停顿,避免过于频繁被拦截;setProxyMaker代理生成器,支持设置代理IP,同时支持调整代理池实现动态代理;setThreadCount爬虫并发线程数setPageParser页面解析器setPageLoader页面加载器,默认提供 "JsoupPageParser" 和 "HtmlUnitPageLoader" 两种实现;setRunData设置运行时数据模型,默认提供LocalRunData单机模型,支持扩展实现分布式模型;start运行爬虫,可通过入参控制同步或异步方式运行stop终止爬虫
3.4 核心注解:PageSelect
功能:描述页面数据对象,通过该注解从页面抽取PageVo数据信息,可选属性如下。
PageSelect说明cssQueryCSS选择器, 如 "#body"
3.5 核心注解:PageFieldSelect
功能:描述页面数据对象的属性信息,通过该注解从页面抽取PageVo的属性信息,可选属性如下。
(支持基础数据类型 T ,包括 List)
PageFieldSelect说明cssQueryCSS选择器, 如 "#title"selectTypejquery 数据抽取方式,如 ".html()/.text()/.val()/.attr()"等selectValjquery 数据抽取参数,SelectType=ATTR 时有效,如 ".attr("abs:src")"datePattern时间格式化,日期类型数据有效
3.6 多线程
以线程池方式并行运行,提供对应API(可参考"章节3.3")调整线程池大小,提高运行效率;
3.7 异步
支持同步、异步两种方式启动运行。
同步:将会阻塞业务逻辑,爬虫爬取完全部页面后才会继续执行后续逻辑。异步:不会阻塞业务逻辑,爬虫逻辑以异步方式运行。3.8 动态代理
ProxyMaker(代理生成器):实现代理支持的组件。支持设置代理IP,同时支持调整代理池实现动态代理;
系统已经提供了两种策略实现;
RoundProxyMaker(循环代理生成器): 以循环方式获取代理池中代理;RandomProxyMaker(随机代理生成器): 以随机方式获取代理池中代理;3.9、PageParser
PageParser(页面解析器):绑定泛型PageVO后将会自动抽取页面数据对象,同时支持运行时调整请求参数信息;
内部方法说明public void preParse(PageRequest pageRequest)可选实现,发起页面请求之前触发调用,可基于此运行时调整请求参数;public abstract void parse(Document html, Element pageVoElement, T pageVo)必须实现,页面抽离封装每个PageVO之后触发调用,可基于此处理PageVO文档或数据;
3.10、分布式支持 & RunData
支持自定义RunData(运行时数据模型)并结合Redis或DB共享运行数据来实现分布式爬虫。默认提供LocalRunData实现单机版爬虫。
RunData:运行时数据模型,维护爬虫运行时的URL和白名单规则。单机:单机方式维护爬虫运行数据,默认提供 "LocalRunData" 的单机版实现。分布式/集群:集群方式维护爬虫爬虫运行数据,可通过Redis或DB定制实现。RunData抽象方法说明public abstract boolean addUrl(String link);新增一个待采集的URL,接口需要做URL去重,爬虫线程将会获取到并进行处理;public abstract String getUrl();获取一个待采集的URL,并且将它从"待采集URL池"中移除,并且添加到"已采集URL池"中;public abstract int getUrlNum();获取待采集URL数量;
3.11、JS动态渲染 & PageLoader
页面数据通过 "PageLoader" 组件加载,默认使用以下两种实现:
JsoupPageLoader:速度最快,推荐采用这种方式(不支持JS动态渲染);HtmlUnitPageLoader:支持JS动态渲染;SeleniumPhantomjsPageLoader:支持JS动态渲染,"selenisum + phantomjs" 方案,兼容性较高;得益于模块化结构设计,可自由扩展其他 "PageLoader" 实现,如 "selenisum + chrome/headless" 方式等;
注意:
1、HtmlUnitPageLoader 为扩展功能,因此maven依赖(htmlunit)scope为provided类型,使用时请单独引入;2、SeleniumPhantomjsPageLoader 为扩展功能,因此maven依赖(selenisum + phantomjs)scope为provided类型,使用时请单独引入;3、JS渲染方式采集数据实用性广,但是也存在缺点,如下:2.1:JS渲染,速度较慢;2.1:JS渲染,环境要求较高;2.3:在需要JS渲染的场景下,推荐做法是:分析页面请求,模拟并主动发起Ajax请求来代替JS引擎自动请求渲染。因为速度更快,更可控;