你不知道的西游内幕——那些关于爬虫的事

祸起观音院

 话说那唐僧师徒二人来到观音院,金池长老盛情款待,旋即悟空向长老炫耀锦襕袈裟……此袈裟乃佛家重宝,观之金光闪闪,锦面沿边,佛光四溢。果然,面对如此奇珍(财产隐私),金池长老决定下手据为己有,于是召集众僧点燃唐僧住所,企图杀人夺宝……中途还遇到前来救火的黑熊精,他本想救老朋友金池长老于火海,但当他看见锦襕袈裟时顿起贪念,顺手牵走……

 所幸最后未果,却也让我们明白一个道理,财不可露白,隐私不可泄漏,虽说悟空是无意泄漏,但金池长老以及黑熊精却满心觊觎。这就好比我们的隐私信息,不管你重不重视、愿不愿意,爬虫都在无时无刻地惦记着你。只要你的锦襕袈裟(简历、身份证、电话...)还在手上,就总会有人存着些别的想法,这次金池长老没夺成功,下回还有银池长老、铜池长老、铁池长老……

51信用卡被查,这是51(无意)还是有意

2019年10月,51信用卡委托外包催收公司,暴力催收客户欠贷,在外包公司通过恐吓、滋扰等软暴力催收的过程中,51信用卡技术团队涉嫌利用爬虫技术,在互联网上帮助催债人违规获取了欠款人的个人通讯录、地址定位等敏感信息,利用爬虫工具非法采集获取完用户信息后,攻击者便可以”磨刀霍霍向猪羊“了。哦豁!眉头一皱,感觉这个事情并不简单!面对被肆意掠夺的个人信息,此情此景,依萍竟只能泣不成声.jpg……

求职?求治

话说“金三银四”,国内每年的三、四月份都是各位校园青年、社会青年找工作的旺季。此时海量的简历被投递至招聘市场中,信息裸奔的你工作还没个着落,电话却忙得像个身价400多亿的英语老师……

可怜的我们不仅要不断地“被”考试,还要不断地“被”买房!

我们不生产数据,我们只是数据的搬运工

大家还记得去年轰动的“巧达事件”吗?2019年10月,巧达科技被举报在未经授权的情况下,利用大量代理IP地址、伪造设备标识等技术手段,绕过被攻击公司服务器的防护策略,大量窃取服务器上的用户数据。在窃取过程中,由于传输数据量过大,还曾导致目标公司的服务器数十次中断服务,影响上千万用户正常访问,造成了严重的经济损失。

这些恶意攻击者们利用爬虫工具,从各大招聘服务网站不断窃取用户简历,随后转手低价卖出。于是一夜之间,你突然变得像年初的口罩一样畅销,电话被拨打数量加起来可绕地球三圈!Wow,amazing!

真假美猴王

 为什么深夜服务器硬盘不断闪烁?为什么程序员小张凌晨辗转难眠?为什么爬虫难以防御?这一切的背后, 是人性的扭曲还是道德的沦丧?有请关注《走近科学》之爬虫为什么这么难防,让我们跟随着镜头走进爬虫的内心世界。

 先介绍一下爬虫基本流程套路,看下图:

爬虫工作流程

如上可以看出,爬虫与我们正常访问无异,没任何恶意请求,所以,传统方法很难防!防爬难,难于上青天,为什么难于上青天?故事要从唐贞观年间的真假孙悟空说起……

01爬虫为啥难以防御?

西游记五十八回讲的是真假美猴王,却说师徒生二心,随即出现了假悟空。一真一假就好比我们的正常请求以及爬虫请求。在这个故事中,为什么八戒、沙僧、唐僧甚至是观音菩萨都无法识别真正的悟空?我们一一道来:

① 八戒、沙僧、唐僧基于日常印象辨认 “悟空”

 师徒四人一路披荆斩棘,日常相处,自然是极为熟悉,但是他们大致不过是通过样貌,声音,形态等内容来辨识身边人,纯属 “静态特征”,而六耳猕猴变化的假悟空无论是样貌、声音、形态甚至是记忆都与真悟空一般无二,所以他们三个当然无法识别;

② 观音菩萨、唐僧使用紧箍咒识别“悟空”

观音菩萨传给了唐僧一段神秘代码,一旦运行,悟空便头崩脑裂。在此两个悟空真假难辨的非常形势下,只能试图用念咒来识别真假了。但是要知道,紧箍咒实际上是一段固定代码,传给唐僧后一直没被修改过,属于“固定特征”。有心之人只要稍加观察,便可窃取,六耳猕猴同样也可以获知这段特征,强行反应,所以他们依然无法辨认。

③ 如来出场,观本象,识猕猴

终极BOSS如来出场,首先给大家介绍了六耳猕猴的基本情况——果然与众不同,但看:

……第四是六耳猕猴,善聆音,能察理,知前后,万物皆明。此四猴者,不入十类之种,不达两间之名。我观假悟空乃六耳猕猴也。此猴若立一处,能知千里外之事,凡人说话,亦能知之,故此善聆音,能察理,知前后,万物皆明。与真悟空同象同音者,六耳猕猴也。

六耳猕猴果然本领强大,善变化,能察理,就好比爬虫,各种伪装特征,伪造IP,多源低频。如来为什么能够识别假悟空?因为他不靠印象(静态特征),不靠咒语(固定特征),而是观本象,察本质,这也正是我们观安观镜WEB应用安全防护系统做的事情。

观镜:“观”察爬虫,“镜“照威胁

02传统防御手段的缺陷之处03如来神鉴-观镜反爬虫思路:

★ 主动防御——采用主动防御的理念,对请求进行动态验证,令牌无序不可猜测,不可枚举;

★ 人机识别——通过对浏览器静态特征、动态行为特征等结合IP威胁情报等建立来访指纹;

★ 防御自动化提交——从本质上防御工具/脚本/无头浏览器等一切自动化提交;

★ 精准识别访客——精准识别访客,区分人与机器,防御机器伪造请求;

04如来镜光-观镜防御功能:

① 主动防御:对客户端提交的数据赋予唯一令牌,即针对每一次访问进行动态验证,当攻击者使用自动化工具访问时,可以及时识别该请求异常,并立刻阻断请求,防止爬取数据。

② 人机识别:多特征识别、随机验证等多种方式识别机器行为,更精准区分人与机器。

③ 规则引擎:可针对网站的各类业务场景进行针对性的访问管控,通过配置一定的规则,如某个地址在X时间段内通过指定的请求方法访问Y次,且返回状态码为N,则对该请求进行限制,可以有效应对各类特定业务及接口,作为其他防御补充。

④ 威胁情报:威胁情报库是多种数据的信誉描述集合,包括IP地址、User-Agent等,我们通过多种渠道更新情报信息,对低信誉、恶意标签IP地址进行重点标记,如爬虫IP、扫描IP、扫描器UA等重点标记,辅助人工判断。

应用场景

最后……还愣着干嘛,拿起电话:买它买它买它!欢迎试用,量大从优!

往期拾贝

别挣扎了,这墙你翻不过去的——《蓝方·攻防语录》

观安魅影“八卦阵”:湮灭境外黑客入侵防疫机构的罪恶之爪

《数据安全三问(3)》——如何保护数据泄露事件背后光屁股的你?

《数据安全三问(2)》——如何解决数据安全风险及合规性需求

《数据安全三问(1)》——如何看待“数据”成为新兴生产要素?

本文部分图片来源自公开网络如有侵权,请联系删除