这么一个题,就可以看到吹牛的姿势有哪些。目前的反爬策略太多了,而且日新月异。如果答“2天采集600万的数据我有很灵的策略”,而且是投入成本是可承受的,要么是吹牛,要么做的不是网络爬虫。
推荐使用八爪鱼采集器,八爪鱼采集器内置京东商品列表、评论、详情模板,模板可以直接使用。
以京东商品列表模板为例
1、步选择商品列表模板
2、点击立即使用按模板介绍配置号参数
3、点击保存并启动等待数据采集完成
代理为什么只有一千个?
采集的服务器呢?一台还是多少?
代码单机部署还是分布式?
加点成本一天六百万也不是没可能啊。
如果是公司采集的话,可以去租用阿里云的服务器,租一周,一台2核8G内存,1M带宽的服务器,一个月68块钱,你可以租200台。
要是个人的话,就不好整,只能使用代理慢慢采集了
尊重一点互联网行不行,电商数据,还是老老实实买吧,免得进去了还觉得自己冤