利用“网络爬虫”非法获取数据2亿余条!多位程序员被抓

2021年11月8日,杭州网警接报案说,其企业信息查询平台数据被他人使用“爬虫非法”获取,造成损失。

网警部门对相关线索进行研判扩线,最终查清一个以聂某为首,利用爬虫非法获取他人数据的犯罪团伙。该团伙嫌疑人通过编写爬虫脚本,利用爬虫软件爬取企业的各类数据,将数据倒卖后获利。

什么是“网络爬虫”?民警告诉记者,网络爬虫,是互联网时代被普遍运用的一项网络信息搜集技术。该项技术最早应用于搜索引擎领域,是搜索引擎获取数据来源的支撑性技术之一。

爬虫就是一个探测机器,它的基本操作就是模拟人的行为去各个网站溜达,点点按钮,查查数据,或者把看到的信息背回来。简单来说,它包含三个步骤:采集信息、数据存储和信息提取。

然而,网络爬虫技术就好比一把双刃剑,它们善恶不同,各怀心思。越是每个人切身利益所在的地方,就越是爬满了爬虫。对爬虫技术应用不当的企业,则有可能触及相关法律法规,获得警察蜀黍赠送“银手镯”一副。

话说回来,根据连续的调查,今年2月中旬,民警根据前期研判信息,锁定嫌疑人并开展抓捕,成功抓获三名嫌疑人,依法对三人进行刑事传唤,现已采取刑事强制措施。现场勘验查获爬虫脚本30余份,非法获取数据2亿余条,涉及企业2000余万家。民警表示,聂某为首的犯罪团伙利用爬虫非法获取他人数据,涉嫌非法获取计算机信息系统数据罪。而企业若在爬取数据时,存在危害计算机信息系统安全的行为,包括破解被爬企业的防抓取措施、加密算法、技术保护措施等,则很有可能被认定为“侵入或以其他技术手段获取计算机信息系统数据”。

大数据时代,网络爬虫已成为互联网抓取公开数据的常用工具之一,可以实现对文本、图片、音频、视频等互联网信息的海量抓取。但实践中,技术的高效与便利性使得网络爬虫技术存在被滥用的现象,这在一定程度上可能产生侵害他人数据信息安全的法律风险。