你不知道的西游内幕——那些关于爬虫的事

祸起观音院

话说那唐僧师徒二人来到观音院，金池长老盛情款待，旋即悟空向长老炫耀锦襕袈裟……此袈裟乃佛家重宝，观之金光闪闪，锦面沿边，佛光四溢。果然，面对如此奇珍（财产隐私），金池长老决定下手据为己有，于是召集众僧点燃唐僧住所，企图杀人夺宝……中途还遇到前来救火的黑熊精，他本想救老朋友金池长老于火海，但当他看见锦襕袈裟时顿起贪念，顺手牵走……

所幸最后未果，却也让我们明白一个道理，财不可露白，隐私不可泄漏，虽说悟空是无意泄漏，但金池长老以及黑熊精却满心觊觎。这就好比我们的隐私信息，不管你重不重视、愿不愿意，爬虫都在无时无刻地惦记着你。只要你的锦襕袈裟（简历、身份证、电话...）还在手上，就总会有人存着些别的想法，这次金池长老没夺成功，下回还有银池长老、铜池长老、铁池长老……

51信用卡被查，这是51（无意）还是有意

2019年10月，51信用卡委托外包催收公司，暴力催收客户欠贷，在外包公司通过恐吓、滋扰等软暴力催收的过程中，51信用卡技术团队涉嫌利用爬虫技术，在互联网上帮助催债人违规获取了欠款人的个人通讯录、地址定位等敏感信息，利用爬虫工具非法采集获取完用户信息后，攻击者便可以”磨刀霍霍向猪羊“了。哦豁！眉头一皱，感觉这个事情并不简单！面对被肆意掠夺的个人信息，此情此景，依萍竟只能泣不成声.jpg……

求职？求治

话说“金三银四”，国内每年的三、四月份都是各位校园青年、社会青年找工作的旺季。此时海量的简历被投递至招聘市场中，信息裸奔的你工作还没个着落，电话却忙得像个身价400多亿的英语老师……

可怜的我们不仅要不断地“被”考试，还要不断地“被”买房！

我们不生产数据，我们只是数据的搬运工

大家还记得去年轰动的“巧达事件”吗？2019年10月，巧达科技被举报在未经授权的情况下，利用大量代理IP地址、伪造设备标识等技术手段，绕过被攻击公司服务器的防护策略，大量窃取服务器上的用户数据。在窃取过程中，由于传输数据量过大，还曾导致目标公司的服务器数十次中断服务，影响上千万用户正常访问，造成了严重的经济损失。

这些恶意攻击者们利用爬虫工具，从各大招聘服务网站不断窃取用户简历，随后转手低价卖出。于是一夜之间，你突然变得像年初的口罩一样畅销，电话被拨打数量加起来可绕地球三圈！Wow，amazing！

真假美猴王

为什么深夜服务器硬盘不断闪烁？为什么程序员小张凌晨辗转难眠？为什么爬虫难以防御？这一切的背后，是人性的扭曲还是道德的沦丧?有请关注《走近科学》之爬虫为什么这么难防，让我们跟随着镜头走进爬虫的内心世界。

先介绍一下爬虫基本流程套路，看下图：

爬虫工作流程

如上可以看出，爬虫与我们正常访问无异，没任何恶意请求，所以，传统方法很难防！防爬难，难于上青天，为什么难于上青天？故事要从唐贞观年间的真假孙悟空说起……

01爬虫为啥难以防御？

西游记五十八回讲的是真假美猴王，却说师徒生二心，随即出现了假悟空。一真一假就好比我们的正常请求以及爬虫请求。在这个故事中，为什么八戒、沙僧、唐僧甚至是观音菩萨都无法识别真正的悟空？我们一一道来：

① 八戒、沙僧、唐僧基于日常印象辨认 “悟空”

师徒四人一路披荆斩棘，日常相处，自然是极为熟悉，但是他们大致不过是通过样貌，声音，形态等内容来辨识身边人，纯属 “静态特征”，而六耳猕猴变化的假悟空无论是样貌、声音、形态甚至是记忆都与真悟空一般无二，所以他们三个当然无法识别；

② 观音菩萨、唐僧使用紧箍咒识别“悟空”

观音菩萨传给了唐僧一段神秘代码，一旦运行，悟空便头崩脑裂。在此两个悟空真假难辨的非常形势下，只能试图用念咒来识别真假了。但是要知道，紧箍咒实际上是一段固定代码，传给唐僧后一直没被修改过，属于“固定特征”。有心之人只要稍加观察，便可窃取，六耳猕猴同样也可以获知这段特征，强行反应，所以他们依然无法辨认。

③ 如来出场，观本象，识猕猴

终极BOSS如来出场，首先给大家介绍了六耳猕猴的基本情况——果然与众不同，但看：

……第四是六耳猕猴，善聆音，能察理，知前后，万物皆明。此四猴者，不入十类之种，不达两间之名。我观假悟空乃六耳猕猴也。此猴若立一处，能知千里外之事，凡人说话，亦能知之，故此善聆音，能察理，知前后，万物皆明。与真悟空同象同音者，六耳猕猴也。

六耳猕猴果然本领强大，善变化，能察理，就好比爬虫，各种伪装特征，伪造IP，多源低频。如来为什么能够识别假悟空？因为他不靠印象（静态特征），不靠咒语（固定特征），而是观本象，察本质，这也正是我们观安观镜WEB应用安全防护系统做的事情。

观镜：“观”察爬虫，“镜“照威胁

02传统防御手段的缺陷之处03如来神鉴-观镜反爬虫思路：

★ 主动防御——采用主动防御的理念，对请求进行动态验证，令牌无序不可猜测，不可枚举；

★ 人机识别——通过对浏览器静态特征、动态行为特征等结合IP威胁情报等建立来访指纹；

★ 防御自动化提交——从本质上防御工具/脚本/无头浏览器等一切自动化提交；

★ 精准识别访客——精准识别访客，区分人与机器，防御机器伪造请求；

04如来镜光-观镜防御功能：

① 主动防御：对客户端提交的数据赋予唯一令牌，即针对每一次访问进行动态验证，当攻击者使用自动化工具访问时，可以及时识别该请求异常，并立刻阻断请求，防止爬取数据。

② 人机识别：多特征识别、随机验证等多种方式识别机器行为，更精准区分人与机器。

③ 规则引擎：可针对网站的各类业务场景进行针对性的访问管控，通过配置一定的规则，如某个地址在X时间段内通过指定的请求方法访问Y次，且返回状态码为N，则对该请求进行限制，可以有效应对各类特定业务及接口，作为其他防御补充。

④ 威胁情报：威胁情报库是多种数据的信誉描述集合，包括IP地址、User-Agent等，我们通过多种渠道更新情报信息，对低信誉、恶意标签IP地址进行重点标记，如爬虫IP、扫描IP、扫描器UA等重点标记，辅助人工判断。

应用场景

最后……还愣着干嘛，拿起电话：买它买它买它！欢迎试用，量大从优！

往期拾贝

别挣扎了，这墙你翻不过去的——《蓝方·攻防语录》

观安魅影“八卦阵”：湮灭境外黑客入侵防疫机构的罪恶之爪

《数据安全三问（3）》——如何保护数据泄露事件背后光屁股的你？

《数据安全三问（2）》——如何解决数据安全风险及合规性需求

《数据安全三问（1）》——如何看待“数据”成为新兴生产要素？

本文部分图片来源自公开网络如有侵权，请联系删除

你不知道的西游内幕——那些关于爬虫的事

最后……还愣着干嘛，拿起电话：买它买它买它！欢迎试用，量大从优！

相关文章

一日禅：如何获取真正的幸福

如何设置nodejs的代理服务器

临颍县城关街道--上门做核酸用心服务暖人心

代理服务器出现错误一般是什么原因呢？

俄罗斯电子商务外贸服务器俄罗斯vps云主机伺服器莫斯科云主机

什么是PAC文件_