什么是“火车头采集规则”？

bestproxy • 2022年6月10日 am1:03 • 代理百科

数据抓取原理

火车采集器如何去抓取数据，取决于您的规则。您要获取一个栏目的网页里的所有内容，需要先将这个网页的网址采下来，这就是采网址。程序按您的规则抓取列表页面，从中分析出网址，然后再去抓取获得网址的网页里的内容。再根据您的采集规则，对下载到的网页分析，将标题内容等信息分离开来并保存下来。如果您选择了下载图片等网络资源，程序会对采集到的数据进行分析，找出图片，资源等的下载地址并下载到本地。

数据发布原理

在我们将数据采集下来后数据默认是保存在本地的，我们可以使用以下几种方式对数据进行处理。

1、不做任何处理。因为数据本身是保存在数据库的（access、db3、mysql、sqlserver），您如果只是查看数据，直接用相关软件打开查看即可。

2、Web发布到网站。程序会模仿浏览器向您的网站发送数据，可以实现您手工发布的效果。

3、直接入数据库。您只需写几个SQL语句，程序会将数据按您的SQL语句导入到数据库中。

4、保存为本地文件。程序会读取数据库里的数据，按一定格式保存为本地sql或是文本文件。

工作流程

火车采集器采集数据是分成两个步骤的，一是采集数据，二是发布数据。这两个过程是可以分开的。

1、采集数据，这个包括采集网址，采集内容。这个过程是获得数据的过程。我们做规则，在采的过程中也算是对内容做了处理。

2、发布内容就是将数据发布到自己的论坛，CMS的过程，也是实现数据为已有的过程。可以用WEB在线发布，数据库入库或存为本地文件。

具体的使用其实是很灵活的，可以根据实际来决定。比如我可以采集时先采集不发布，有时间了再发布，或是同时采集发布，或是先做发布配置，也可以在采集完了再添加发布配置。总之，具体过程由您而定，火车采集器的强大功能之一也就是体现在灵活中。

新增功能

无限级多页采集

任务队列运行管理功能

无限级分组任务管理，任务回收站功能

RSS地址采集功能

列表页分页采集获取功能

列表页附加参数获取功能

列表页及标签XPath可视化提取功能

标签纯正则替换功能

Http接口查看运行情况

导出记录为单个或多个Txt、html 文件

标签间自由组合功能

针对标签内容继续发送Http请求功能

无限级列表网址采集

从Http头信息中获取数据

标题内容正文提取功能

Aspx列表分页自识别

多网站站群式web发布

导出记录为Word格式

导出所有记录为Excel格式

使用随机二级代理服务器(支持Socket代理)

多扩展间数据交换功能

下载的图片自动加增强型水印功能

Ocr识别(图片转化为文字)

Http接口管理采集器运行

Mongodb数据库保存数据

主从服务器分布式采集

采集规则分为站点规则和任务规则，通常是指任务规则。所谓采集规则就是要采集一个网站时在软件里进行的设置。这个设置可以从软件里导出保存成一个文件并可以再导入到软件里。站点规则文件的后缀名为：.lsite；任务规则文件的后缀名为：.ljob。

————————

采集规则是告诉采集程序如何去抓取网址，如何提取数据，如何保存或发布的一系列设置的集合。

什么是“火车头采集规则”？

相关文章

代理IP要知道的事情

node-http-proxy 源码解读

请问SYGATE如何设置才能建立代理服务器

下载了TikTok还是看不了_那是你漏了这一步

WebSocket协议入门简介

现实比模拟真实太多,开罗游戏和国内代理的心酸纠纷