爬虫用哪个好?

展开全部爬虫用ForeSpider数据采集系统好。ForeSpider数据采集系统是天津市前嗅网络科技有限公司自主知识产权的通用性互联网数据采集软件。软件几乎可以采集互联网上所有公开的数据,通过可视化的操作流程,从建表、过滤、采集到入库一步到位。支持正则表达式操作,更有强大的面向对象的脚本语言系统。台式机单机采集能力可达4000-8000万,日采集能力超过500万。服务器单机集群环境的采集能力可达8亿-16亿,日采集能力超过4000万。并行情况下可支撑百亿以上规模数据链接,堪与百度等搜索引擎系统媲美。软件特点:一.通用性:可以抓取互联网上几乎100%的数据1.支持用户登录。2.支持Cookie技术。3.支持验证码识别。4.支持HTTPS安全协议。5.支持OAuth认证。6.支持POST请求。7.支持搜索栏的关键词搜索采集。8.支持JS动态生成页面采集。9.支持IP代理采集。10.支持图片采集。11.支持本地目录采集。12.内置面向对象的脚本语言系统,配置脚本可以采集几乎100%的互联网信息。二.高质量数据:精准采集所需数据1.独立知识产权JS引擎,精准采集。2.内部集成数据库,数据直接采集入库。3.内部创建数据表结构,抓取数据后直接存入数据库相应字段。4.根据dom结构自动过滤无关信息。5.通过模板配置链接抽取和数据抽取,目标网站的所有可见内容均可采集,智能过滤无关信息。6.采集前数据可预览采集,随时调整模板配置,提升数据精度和质量。7.字段的数据支持多种处理方式。8.支持正则表达式,精准处理数据。9.支持脚本配置,精确处理字段的数据。智能:智能模拟用户和浏览器行为1.智能模拟浏览器和用户行为,突破反爬虫限制。2.自动抓取网页的各类参数和下载过程的各类参数。展开全部在我们选择爬虫代理的时候应该注意一下问题。一、IP流水量够大。做爬虫最怕的有哪些,是封IP。爬虫正快速地爬着,突然被网站的IP反爬虫机制给禁掉,而如果有大量的IP,就不再怕封IP了,此ip被封我们就使用新的ip进行数据爬虫。二、IP代理服务器带宽够足。假如带宽不够,速度很慢,慢的跟蜗牛似的,爬虫还不得憋出内伤啊。三、IP代理类型。HTTP还是HTTPS,这个需要注意。四、IP代理匿名度。高匿、普匿、透明三种,选择高匿代理,普匿、透明都有暴露身份的危险,还没到达目的地,就被对方发现。五、代理IP有效率。假如提取了几千几万个IP,全是无效的,严重影响工作效率,选购IP时一定要问清楚,代理IP有效率一定要高。六、IP代理存活时间。有的代理ip存活的时间比较长,有的比较短,在选择代理ip的时候可以根据自己的业务的需要进行ip的选择。七、代理IP的价格。在很多人心中,价格是放到第一位的,无论是什么东西,价格绝对放在第一位,太贵了,怎么这么贵,价格虽然很重要,质量也很重要。免费的代理IP虽然便宜,但实际上最昂贵,会消耗大量的时间,时间就是金钱。展开全部各有各的好!各种爬虫都有自己擅长的领域!首推scrapy因为python用起来很舒服。然后heritrix是比较适合整站直接爬取的框架。WebCollector比较适合做有精准抽取抽取业务的爬虫,适合做二次开发。展开全部爬虫一般用的是Python,因是库多,requests,xml,beautifulsoup,selenium,scrapy等都是爬虫利器,只要几行代码就可以实现大部分功能。展开全部从实用性和易懂的角度 ,python 你可以首先考虑,因为python入门容易,scrapy的社区活跃,出了各种问题都可以找的到答案。