写爬虫爬取阿里巴巴数据，为什么使用高匿代理ip仍然会被识别出来呢？

bestproxy • 2022年5月17日 pm1:22 • 代理百科

再最新：

评论区再爆料

疑似使用ip代理暴力爬的路很可能鲁班门前弄斧了.....

具体看楼下详情

某不知名热心评论主;lanlan........

几个回合下来，大家互相打死了各自的脸

round 1：

我早年在阿里“友商”的一家小公司工作过，爬虫被教做人

后来我听阿里的某次技术论坛提过一嘴ai反爬虫

我当真了

信誓旦旦的出来答

r 2：

评论区出现真相帝

阿里没有用ai

r 3：

各路吃瓜说selenium就满足

r4：

最新惊天爆料，阿里有足够的ip池

======================================

最新：评论区有哥们婉转的说明了阿里反爬虫并不是ai.............

所以听什么阿里的技术论坛完全没有用..........

他们说的他们自己都不用啊...............

===============分割线=================

跟阿里反爬虫作对。。。。。

你知道当年淘宝如日中天的时候，后面跟风的电商是怎么创业的么....

爬虫爬淘宝店铺，联系店主免费帮着建电，包括且不仅包括图片，评价，说明等.............

阿里跟爬虫战斗是国内第一线的...................

阿里现在的行为判断全部使用深度学习在做

举个例子，你登录淘宝的拖动验证码，每一个移动坐标都记录给后台，由深度学习的ai来判断你是人还是机器。

阿里的反爬虫也是一样的，经过大数据的积累，依靠深度学习去判断你是否机器人，准确率2-3年前可能还差点，现在想绕过去就很难了。

从数据包头到访问来源，甚至追踪路由路径，会话追踪，页面追踪，基本上以阿里云现在在国内的统治力，互联网上大部分行为对阿里已经不是秘密了，更别说你去爬虫。

所以唯一的办法就是使用海量的ip自动切换，做双相的代理切换，分布式的去抓取，一个ip能爬几条爬几条，靠无赖手段暴力的抓。

现在阿里识别机器人可能会依靠页面热度分析来，因为你爬虫爬链的行为，肯定不符合他积累的正常人访问的页面热点分布

selenium+多机+ip池，ip池建议不要用网上的，我是用aws自己搭了一个。最大的坑是北京某些线路会自动重定向到国际站点，很迷醉

最高回答，不要以为现在ai热，就扯ai来吓唬人，大概率是通过风控平台上的一堆规则来判断的，人工积累的一些规则。采集鼠标运动轨迹。浏览器信息，等等之类的。阿里网站常用的两个js，nc.js收集鼠标轨迹和um.js生成设备指纹。

我去年用selenium爬阿里巴巴电脑端商品数据，模拟登录实现不了我就放弃了改用手动登录了，然后爬虫是加了很多个sleep，总体来讲，程序在那段时间运行挺正常，就是爬虫速率慢

之前在上一家公司采集阿里巴巴速卖通商品数据，这个网站有api数据接口直接返回json数据有些接口会有频率限制，一般是找到一个临界值用多台机器爬