spider-flow_开源的可视化方式定义爬虫方案

bestproxy • 2022年6月20日 pm5:14 • 代理百科

目录

spider-flow简介

spider-flow是一个爬虫平台，以可视化推拽方式定义爬取流程，无需代码即可实现一个爬虫服务。

spider-flow特性

支持css选择器、正则提取支持JSON/XML格式支持Xpath/JsonPath提取支持多数据源、SQL select/insert/update/delete支持爬取JS动态渲染的页面支持代理支持二进制格式支持保存/读取文件(csv、xls、jpg等)常用字符串、日期、文件、加解密、随机等函数支持流程嵌套支持插件扩展(自定义执行器，自定义函数、自定义Controller、类型扩展等）支持HTTP接口

插件

redis插件mongodb插件IP代理池插件OSS插件OCR插件Selenium插件

安装部署

1.使用git下载项目源码（也可以下载zip包）。

git clone https://gitee.com/ssssssss-team/spider-flow.git

项目目录结构如下图所示，其中db文件夹存放有数据库初始化脚本，spider-flow-web文件夹下为启动程序。

2.初始化数据库

使用Navicat打开“根目录\db\spiderflow.sql”下的sql文件并运行，检查数据表是否初始化成功。

3.修改配置

用IntelliJ IDEA打开项目，修改spider-flow-web下面的配置文件，主要修改数据库配置，包括连接字符串和账户密码。

application.properties

spring.datasource.driver-class-name=com.mysql.jdbc.Driver spring.datasource.username=root spring.datasource.password= spring.datasource.url=jdbc:mysql://localhost:3306/spiderflow?useSSL=false&useUnicode=true&characterEncoding=UTF8&autoReconnect=true

4.运行

编译，IDE会自动下载依赖包，运行SpiderApplication，等待程序启动成功，然后打开浏览器，在地址栏输入：:8088/ 运行程序，如下图所示。

简单使用

如上图所示，点击“爬取码云GVP”进入测试界面，点击工具栏上的“运行”按钮即可看到测试结果。

测试结果界面

抓取日志界面

具体语法请参考：

免责声明

请勿将spider-flow应用到任何可能会违反法律规定和道德约束的工作中,请友善使用spider-flow，遵守蜘蛛协议，不要将spider-flow用于任何非法用途。如您选择使用spider-flow即代表您遵守此协议，作者不承担任何由于您违反此协议带来任何的法律风险和损失，一切后果由您承担。

赞 (0)

如何科学上网【NordVPN】---7200W动态住宅代理IP【Luminati】---适用Shadowsock\Clash等软件的机场，支持ZFB【搬瓦工】

Python爬虫有哪些常见的反爬手段_

« 上一篇 2022年6月20日 pm5:13

浅谈Web网站架构演变过程

下一篇 » 2022年6月20日 pm5:22

Warning: Undefined array key "related_news" in /www/wwwroot/bestproxy.cc/wp-content/themes/justnews/single.php on line 200

在Python中创建代理Web服务器

与c相比，python中的套接字编程（Socket）非常用户友好。程序员不必担心有关套接字的详细信息。在python中，用户有更多机会专注于应用程序层而不是网络层。在本教程中，我们将开发一个能够处理HTTP流量的简单多线程代理服务器。它将主要基于基本的套接字编程思想。这是代理服务器的简单实现。在接下来的教程中，我们将逐步将其开发为一个非常有用的服务器。首...

代理百科 2022年4月3日
Linux 命令行代理 proxychains

本文使用 Zhihu On VSCode 创作并发布 Image GitHub 源码：https://github.com/rofl0r/proxychains-ng ProxyChains 是 Linux 下的命令行代理工具，支持HTTP、 SOCKS4和SOCKS5类型的代理服务器，可配置多个代理。只需要在原有的命令前加上 proxychinas 即可应...

代理百科 2022年4月18日
爬虫一般用哪种代理比较好？

1、匿名保平安！ 2、截止2020年4月15日的所有回答，是不是广告你细品！讲道理，这个行业水深火热，各种营销，各种名词，各种私密代理、公开代理等等，其实都是质量残次不齐的表现，讲几个关键词住宅IP：高匿是付费代理的基本要求，不是高匿的就不在本次讨论范围，就好像我们讨论哪款汽车好，不应该考虑自行车一样，那什么是住宅IP？我们可以理解成IP真人率的问题，你...

代理百科 2022年4月21日
在线等一个国外HTTP代理服务器

展开全部业务类型需要使用到海外的IP代理，实际上麻烦程度还是相当大的，会英文这当然更好，不然只能依靠翻译软件了，而且付款也不方便所以如果你是在国内，还是强烈建议找中国的服务商沟通，毕竟语言方面不存在障碍，而且如果离得近还能见面谈，价格可以聊的很合适。IPIDEA的全球HTTP代理产品，成功率很高建议在境外部署服务器进行采集。展开全部直接上网搜在线代理服...

代理百科 2022年4月4日
春节返乡健康码怎么弄：看完秒懂

春运已经开始了，小伙伴们已经陆续开始或者已经在返乡的过程中了，由于今年的春运比较特殊，各地的返乡政策也不一样，所以目前落地到一个城市都需要单独的健康码。今年很多地方都在执行严格的防疫措施健康码就是一项。其实大家对于健康码已经非常熟悉毕竟上个商场逛个超市都要出示它。而目前已经有很多城市的高铁站、机场等落地安检时会要求出示健康码和核酸证明健康码可以使用任意地点...

代理百科 2022年4月16日
淘宝大秒系统设计详解

导读：最初的秒杀系统的原型是淘宝详情上的定时上架功能，由于有些卖家为了吸引眼球，把价格压得很低。但这给的详情系统带来了很大压力，为了将这种突发流量隔离，才设计了秒杀系统，文章主要介绍大秒系统以及这种典型读数据的热点问题的解决思路和实践经验。一些数据大家还记得2013年的小米秒杀吗？三款小米手机各11万台开卖，走的都是大秒系统，3分钟后成为双十一第一家也是...

代理百科 2022年4月14日