非法获取数据2亿余条,涉及企业2000余万家,杭州一家企业3人因“网络爬虫”被抓

  钱江晚报·小时新闻记者 杨一凡 通讯员 章志楠

  网络爬虫,一个陌生又熟悉的词汇,毕竟你每一个字都认识,可要是合起来那就是一张新面孔了。但是,如果我告诉你,你所熟悉的搜索引擎,如谷歌、百度、搜狗等,都有一个“传家之宝”——网络爬虫,你会不会觉得亲切一点?

  网络爬虫,是互联网时代被普遍运用的一项网络信息搜集技术。该项技术最早应用于搜索引擎领域,是搜索引擎获取数据来源的支撑性技术之一。

  爬虫就是一个探测机器,它的基本操作就是模拟人的行为去各个网站溜达,点点按钮,查查数据,或者把看到的信息背回来。简单来说,它包含三个步骤:采集信息、数据存储和信息提取。

  然而,网络爬虫技术就好比一把双刃剑,它们善恶不同,各怀心思。越是每个人切身利益所在的地方,就越是爬满了爬虫。对爬虫技术应用不当的企业,则有可能触及相关法律法规,获得警察蜀黍赠送“银手镯”一副。

  2021年11月8日,杭州网警接报案称其企业信息查询平台数据被他人使用爬虫非法获取,造成损失。

  网警部门对相关线索进行研判扩线,最终查清一个以聂某为首的利用爬虫非法获取他人数据的犯罪团伙,该团伙嫌疑人通过编写爬虫脚本,利用爬虫软件爬取企业的各类数据,将数据倒卖后获利。

  今年2月中旬,民警根据前期研判信息,锁定嫌疑人并开展抓捕,成功抓获三名嫌疑人,依法对三人进行刑事传唤,现已采取刑事强制措施。现场勘验查获爬虫脚本30余份,非法获取数据2亿余条,涉及企业2000余万家。

  新闻+

  什么是非法获取计算机信息系统数据罪

  在上述案例中,聂某为首的犯罪团伙是一家小企业,绕过了受害企业的安全防护,利用爬虫技术非法获取他人数据,并将这些数据进行了倒卖,涉嫌非法获取计算机信息系统数据罪。

  而企业若在爬取数据时,存在危害计算机信息系统安全的行为,包括破解被爬企业的防抓取措施、加密算法、技术保护措施等,则很有可能被认定为“侵入或以其他技术手段获取计算机信息系统数据”。

  什么是“非法获取计算机信息系统数据罪”?

  根据《中华人民共和国刑法》第二百八十五条规定,非法获取计算机信息系统数据、非法控制计算机信息系统罪,是指违反国家规定,侵入国家事务、国防建设、尖端科学技术领域以外的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据,情节严重的行为。刑法第285条第2款明确规定,犯本罪的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。

  现如今,互联网成了海量信息的载体,数据采集以及分析能力已成为驱动业务决策的关键技能,网络爬虫技术则成为这个时代不可或缺的一部分。但是如若使用爬虫技术应用不当,相关的企业公司除了会涉及非法获取计算机信息系统数据罪外,还有可能涉及以下两个罪名:

  一、侵犯公民个人信息罪

  公民个人信息,是指以电子或者其他方式记录的,能够单独或者与其他信息结合识别特定自然人身份,或者反映特定自然人活动情况的各种信息,包括姓名、身份证件号码、通信通讯联系方式、住址、账号密码、财产状况、行踪轨迹等。利用爬虫技术收集公民个人信息数据,应当获得被收集人的同意,尤其是在数据中包含身份证号、信用信息等敏感数据的情况下,还需要获得明示同意。同时,利用网络漏洞非法下载、非法购买等行为,都属于“非法获取”公民个人信息。

  二、非法侵入计算机信息系统罪

  非法侵入计算机信息系统罪,是指自然人或者单位违反国家规定,侵入国家事务国防建设、尖端科学技术领域的计算机信息系统的行为。即使进入非国家事务、国防建设、尖端科学技术领域的计算机信息系统而未抓取数据,但如果网络爬虫过快或大量重复访问,进而干扰了信息系统正常运行,后果严重的也可能构成破坏计算机信息系统罪。

  网警提醒:

  大数据时代,网络爬虫已成为互联网抓取公开数据的常用工具之一,可以实现对文本、图片、音频、视频等互联网信息的海量抓取。但实践中,技术的高效与便利性使得网络爬虫技术存在被滥用的现象,这在一定程度上可能产生侵害他人数据信息安全的法律风险。

  互联网并非法外之地,对于利用“网络爬虫”技术爬取的企业而言,如何在合法合规的前提下开展数据爬取业务,将是一个值得长期思考的主题。

  2022年是公安部在全国部署开展“净网”专项行动的第五个年头。杭州网警在这场集中整治网络环境、净化网络空间的阻击战、攻坚战中,取得了亮丽的工作成绩,也获得了广大网民的肯定支持。

  本文为钱江晚报原创作品,未经许可,禁止转载、复制、摘编、改写及进行网络传播等一切作品版权使用行为,否则本报将循司法途径追究侵权人的法律责任。

特别声明:以上文章内容仅代表作者本人观点,不代表新浪网观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与新浪网联系。