再最新:
评论区再爆料
疑似使用ip代理暴力爬的路很可能鲁班门前弄斧了.....
具体看楼下详情
某不知名热心评论主;lanlan........
几个回合下来,大家互相打死了各自的脸
round 1:
我早年在阿里“友商”的一家小公司工作过,爬虫被教做人
后来我听阿里的某次技术论坛提过一嘴ai反爬虫
我当真了
信誓旦旦的出来答
r 2:
评论区出现真相帝
阿里没有用ai
r 3:
各路吃瓜说selenium就满足
r4:
最新惊天爆料,阿里有足够的ip池
======================================
最新:评论区有哥们婉转的说明了阿里反爬虫并不是ai.............
所以听什么阿里的技术论坛完全没有用..........
他们说的他们自己都不用啊...............
===============分割线=================
跟阿里反爬虫作对。。。。。
你知道当年淘宝如日中天的时候,后面跟风的电商是怎么创业的么....
爬虫爬淘宝店铺,联系店主免费帮着建电,包括且不仅包括图片,评价,说明等.............
阿里跟爬虫战斗是国内第一线的...................
阿里现在的行为判断全部使用深度学习在做
举个例子,你登录淘宝的拖动验证码,每一个移动坐标都记录给后台,由深度学习的ai来判断你是人还是机器。
阿里的反爬虫也是一样的,经过大数据的积累,依靠深度学习去判断你是否机器人,准确率2-3年前可能还差点,现在想绕过去就很难了。
从数据包头到访问来源,甚至追踪路由路径,会话追踪,页面追踪,基本上以阿里云现在在国内的统治力,互联网上大部分行为对阿里已经不是秘密了,更别说你去爬虫。
所以唯一的办法就是使用海量的ip自动切换,做双相的代理切换,分布式的去抓取,一个ip能爬几条爬几条,靠无赖手段暴力的抓。
现在阿里识别机器人可能会依靠页面热度分析来,因为你爬虫爬链的行为,肯定不符合他积累的正常人访问的页面热点分布
selenium+多机+ip池,ip池建议不要用网上的,我是用aws自己搭了一个。最大的坑是北京某些线路会自动重定向到国际站点,很迷醉
最高回答,不要以为现在ai热,就扯ai来吓唬人,大概率是通过风控平台上的一堆规则来判断的,人工积累的一些规则。采集鼠标运动轨迹。浏览器信息,等等之类的。阿里网站常用的两个js,nc.js收集鼠标轨迹和um.js生成设备指纹。
我去年用selenium爬阿里巴巴电脑端商品数据,模拟登录实现不了我就放弃了改用手动登录了,然后爬虫是加了很多个sleep,总体来讲,程序在那段时间运行挺正常,就是爬虫速率慢
之前在上一家公司采集阿里巴巴 速卖通商品数据,这个网站有api数据接口直接返回json数据 有些接口会有频率限制,一般是找到一个临界值 用多台机器爬