怎样节省爬虫代理ip经费

目前的结论:使用隧道代理包月 如果没有兴趣,了解我遇到的坑,可以不用往下看了。 此篇文章纪录下问题,涉及到财务申请,技术变更(代理方案和代码变更),即是公司流程和技术上的双重问题,公司内,繁杂的审批流程问题。 实际遇到了问题,回顾经验,记录问题,再写出来,更好的剖析问题 写下来,总归是好。

故事开始:A公司想开展爬虫业务,用来辅助大数据业务,找点外部数据作为补充 阶段一:从0到1

这里的我的预算阈值是500元/月

为什么是500元,因为隧道代理,一般都是500块钱包月起步的。如果每月预算超过了500,还不如从开始直接用隧道代理。 这个阶段,刚刚起步,我们选择了按量付费的代理,类似芝麻代理HTTP,一个代理ip 0.04元。 由于爬虫用量少,一个月不会超过500块钱,用按量付费的HTTP代理,最为划算。 按量付费的有一个坑,就是自己实现代理的复用,不然,500块钱,用不了多长时间。具体可以参考我的关于复用的讨论 按量付费的HTTP代理,就像手动挡的车,虽然单价便宜(适合新手练手或者高手魔改),但是自己需要处理的问题,比较多,比如复用,还有余额监控告警等等。

阶段二:从1到100

这里我的预算阈值是2000-3000元/月

这个阶段,爬虫数据任务逐渐增加,我引入了隧道代理。 500元,5个并发,是隧道代理标配的价格。但是5个并发,满足不了大量的需求。引入500包月的隧道代理+按量计费的HTTP,2个一起用。 20个并发的隧道代理,一般都是2000元左右每月。

如果是,高并发的任务,使用按量付费的HTTP,如果某APP,十几个接口,也就是有十几个数据维度,token有时效性,必须在5min内,并发请求完成。 如果是,需要大量更换ip的场景,并且注意控制定时任务的分布,不能超过隧道代理,500元包月套餐,5个并发的阈值。

阶段三:从100到10000

这里我的预算阈值是3000-10000元/月

全部使用隧道代理,高配置来包月。简单方便,随便换。 阶段四:从10000到未来

这个阶段,预算阈值10000元/月 以上

我觉得可以从B2B的角度,谈一些合作。 使用魔改的手动挡,按量计费; 或者隧道代理;或者其他产品形式,都是可以的。以上预算的金额,也是毛估估,主要表达的一个大概的范围,和项目中使用代理费用,线性规划的意思。

附录 文章立意补充: 1、本文涵盖了下面的好几个点要求 关于技术需求,系统优化 1、 负责分布式数据采集系统设计、开发、测试、运维工作; 2、 负责数据处理程序设计框架改善, 数据处理性能优化, 系统数据处理的能力提高,关键技术攻关; 3、负责采集算法/反爬策略/代理IP/验证码识别优化研究及落地实施,提升爬取效率及成功率,平衡投入的资金预算和数据产出。 4、监控系统的完善、实时监控任务的进度和警报反馈 复制代码 2、代理费用,实际上就是一个线性规划的问题,和产品阶段、预算、用量有关。 3、首先需要多看,比如 《爬虫代理哪家强?十大付费代理详细对比评测出炉!》。但是,最重要的是,从实际项目出发,选择方案。 4、使用框架Scrapy,写一个ProxyMiddleware,切换代理,相对来说方便一点。 5、标题参考来源《大家怎样节省手机套餐经费?》 也可以看看,道理相通,大家都有这个问题