spider-flow_开源的可视化方式定义爬虫方案

spider-flow简介

spider-flow是一个爬虫平台,以可视化推拽方式定义爬取流程,无需代码即可实现一个爬虫服务。

spider-flow特性

支持css选择器、正则提取支持JSON/XML格式支持Xpath/JsonPath提取支持多数据源、SQL select/insert/update/delete支持爬取JS动态渲染的页面支持代理支持二进制格式支持保存/读取文件(csv、xls、jpg等)常用字符串、日期、文件、加解密、随机等函数支持流程嵌套支持插件扩展(自定义执行器,自定义函数、自定义Controller、类型扩展等)支持HTTP接口

插件

redis插件mongodb插件IP代理池插件OSS插件OCR插件Selenium插件

安装部署

1.使用git下载项目源码(也可以下载zip包)。

git clone https://gitee.com/ssssssss-team/spider-flow.git

项目目录结构如下图所示,其中db文件夹存放有数据库初始化脚本,spider-flow-web文件夹下为启动程序。

2.初始化数据库

使用Navicat打开“根目录\db\spiderflow.sql”下的sql文件并运行,检查数据表是否初始化成功。

3.修改配置

用IntelliJ IDEA打开项目,修改spider-flow-web下面的配置文件,主要修改数据库配置,包括连接字符串和账户密码。

application.properties

spring.datasource.driver-class-name=com.mysql.jdbc.Driver spring.datasource.username=root spring.datasource.password= spring.datasource.url=jdbc:mysql://localhost:3306/spiderflow?useSSL=false&useUnicode=true&characterEncoding=UTF8&autoReconnect=true

4.运行

编译,IDE会自动下载依赖包,运行SpiderApplication,等待程序启动成功,然后打开浏览器,在地址栏输入::8088/ 运行程序,如下图所示。

简单使用

如上图所示,点击“爬取码云GVP”进入测试界面,点击工具栏上的“运行”按钮即可看到测试结果。

测试结果界面

抓取日志界面

具体语法请参考:

免责声明

请勿将spider-flow应用到任何可能会违反法律规定和道德约束的工作中,请友善使用spider-flow,遵守蜘蛛协议,不要将spider-flow用于任何非法用途。如您选择使用spider-flow即代表您遵守此协议,作者不承担任何由于您违反此协议带来任何的法律风险和损失,一切后果由您承担。