java采集天猫和淘宝的评论数据,有什么好办法?

数据采集问题,谢邀。

我是国内某企业爬虫工程师一枚,每天都在和爬虫相爱相杀,采集过程中各种被屏蔽,各种乱码,也用到了各种技术:代理IP、WebKit、Selenium、PhantomJs、JxBrowser。

首先考虑代理IP

很多人把IP可用率作为购买第一参考因素,其实市面上的的IP资源基本都是租用代理拨号服务器,IP可用率普遍都能达到90%以上,因此谁家的IP可用率都差不多(老铁们,我说的可不是免费的万人骑IP)。而我们真正该关心的应该是业务成功率,比如:

不同的两家代理IP提供商,都使用一万个IP,第一家抓取了5000条数据,第二家抓取了1000条数据。为什么会这样呢?

得出结论:IP可用率≠业务成功率

因为第二家用户太多了,导致业务冲突。比如我抓取微博的数据,第二家有10个抓取微博的用户,那我还怎么能抓取到,都被风控给拦截了。而第一家没有抓取微博的用户,抓取的成功率是不一样的。

言归正传,哪家采集头条新闻效果好?我把我再用的告诉你:全网代理IP、无忧代理IP、小猪代理IP。

其次需要考虑技术手段

对于淘宝的商品评论,我用的技术是JxBrowser,这是一个收费的JAVA第三方库,驱动真实的Chrominum浏览器,可以很好的处理缓存、Cookie、header等信息,采集数据100%成功。

缺点是驱动浏览器会影响采集的效率。