爬虫技术的使用是如何判定合法还是违法_

爬虫程序是一种技术产物,爬虫代码本身并未违反法律。但程序运行过程中有可能对他人经营的网站造成破坏,爬取的数据有可能涉及隐私或机密,数据的使用也有可能产生一些法律纠纷。

爬虫程序会按照爬虫工程师设定的规则自动爬取互联网上的信息,这些信息包括文字、多媒体文件(如图片、视频和音频等)和其他文档。信息的存储、使用和爬取过程都有可能涉及风险。

那么,我们应该如何避免侵犯他人权益?又应该遵守哪些规则呢?

希望以下几个案例可以帮大家了解爬虫领域常见的法律风险及相关的法律法规。

案例 A 巧达科技非法获取计算机信息系统数据案

2019 年 5 月 22 日,新华网在巧达科技非法获取计算机信息系统数据案报道中提到,嫌疑人利用伪造大量代理 IP 地址、设备标识等技术手段绕过了网站服务器的防护策略,窃取存放在服务器上的用户数据。在窃取数据的过程中还因传输数据量过大导致报案公司服务器数十次中断,影响了上千万用户的正常访问,为报案公司带来严重的经济损失。

案例 B 全国首宗“爬虫”软件案在深圳一审宣判

2019 年 4 月 26 日,《深圳晚报》报道了全国首宗“爬虫”软件案——实时公交查询 App《酷米客》因后台大量信息数据被盗取将同类产品《车来了》告上法庭。报道中提到,《车来了》所属公司元光利用网络爬虫技术大量获取并且无偿使用谷米公司《酷米客》软件的实时公交信息数据的行为,实为一种“不劳而获”“食人而肥”的行为,具有非法占用他人无形财产权益,破坏他人市场竞争优势,并为自己谋取竞争优势的主观故意,违反了诚实信用原则,扰乱竞争秩序,构成不正当竞争行为,应当承担相应的侵权责任。

案例 C 大众点评网诉百度不正当竞争案

大众点评网所属公司上海汉涛信息咨询有限公司(以下称汉涛公司)起诉百度所属公司北京百度网讯科技有限公司(以下称百度公司)和城市吧街景地图所属公司上海杰图软件技术有限公司(以下称杰图公司)不正当竞争纠纷。此案由上海市浦东新区人民法院受理,于 2016 年 05 月 26 日结案,裁判文书可在上海市高级人民法院网查看。案件中,百度公司提到 Robots 协议(用来告知搜索引擎哪些页面能被抓取,哪些页面不能被抓取)。

案例 D 新三板上市公司涉嫌盗取个人信息

2018 年 8 月 20 日,澎湃新闻发表了名为《新三板挂牌公司涉窃取30亿条个人信息,非法牟利超千万元》的文章。文章中提到,该企业和运营商签订正规合同,拿到登录凭证,然后将非法程序置入用于自动采集用户Cookie、手机号等信息。在劫持数据后进行爬取、还原等,为了不被发现,还专门购买了3万多个IP地址用于频繁爬取。该企业将非法收集的大量公民个人信息存储在境外的服务器上,这导致信息有被境外的组织机构或者个人利用,进而危害国家安全的风险。

网络运营有法可依,有法必依,违法必究

为了维护国家安全、社会公共利益,保护公民、法人和其他组织在网络空间的合法权益,保障个人信息和重要数据安全,根据《中华人民共和国网络安全法》等法律法规,国家互联网信息办公室会同相关部门研究起草了《数据安全管理办法(征求意见稿)》(以下简称数据安全管理办法)。数据安全管理办法虽未正式发布,但我们也应当遵守征求意见稿中规定的条款,共同营造良好的网络环境。

======

以下是《数据安全管理办法(征求意见稿)》中涉及的几个方面。

在案例 A 中提到“非法获取计算机信息系统数据”,案例 B 和案例 C 中提到“不正当竞争”,案例 D 中提到了“民事侵权”和“非法窃取用户个人信息”等,对应的法律条款如下。

非法获取计算机信息系统数据——根据《中华人民共和国刑法》第二百八十五条规定:“非法获取计算机信息系统数据、非法控制计算机信息系统罪,是指违反国家规定,侵入国家事务、国防建设、尖端科学技术领域以外的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据,情节严重的行为。犯本罪的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。”不正当竞争——《反不正当竞争法》第十七条规定:“经营者违反本法规定,给他人造成损害的,应当依法承担民事责任。”侵权——《侵权责任法》第一章第二条规定:“侵害民事权益,应当依照本法承担侵权责任。”非法窃取用户个人信息-——《中华人民共和国刑法》第二百五十三条规定“违反国家有关规定,向他人出售或者提供公民个人信息,情节严重的,处三年以下有期徒刑成者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。”

由此,我们可以看出,案例A中介绍的“伪造大量代理 IP 地址、设备标识等技术手段绕过网站服务器的防护策略”以及案例D中介绍到的购买3万多IP地址用于频繁爬取,这种用技术手段绕过经营者网站的反爬虫措施属于违法行为。

综上所述,爬虫代码本身并未违反法律,但若在程序运行过程中对他人经营的网站造成破坏、爬取的数据涉及隐私或机密、利用技术手段绕过经营者网站的反爬虫措施的行为属于违法行为。所以,无论是我们是作为一名网络使用者还是一名爬虫工程师,我们都应当熟读《中华人民共和国网络安全法》,并遵守国家相关规定,营造良好的网络环境。

人邮君温馨提示:爬虫涉及的法律问题较多,在不明确是否有法律风险时,可以到有关部门咨询,从而减少法律纠纷,共同营造良好的网络环境。

以上内容选摘于《Python 3反爬虫原理与绕过实战》,作者韦世东。

《Python 3反爬虫原理与绕过实战》,作者韦世东

本书首先介绍了开发环境的配置,接着讨论了Web网站的构成和页面渲染、动态网页和静态网页对爬虫造成的影响,紧接着详细介绍了信息校验型反爬虫、动态渲染反爬虫、文本混淆反爬虫知识、特征识别反爬虫的原理、实现和绕过,然后概览了App数据爬取的关键和常用的反爬虫手段,最后介绍了常见的编码和加密原理、JavaScript代码混淆知识、前端禁止事件以及与爬虫相关的法律知识和风险点,帮你从零到一理清爬虫与反爬虫的红蓝对抗。

作者韦世东,资深爬虫工程师,2019年华为云·云享专家,掘金社区优秀作者,GitChat认证作者,夜幕团队(NightTeam)成员。拥有七年互联网从业经验,擅长反爬虫的设计和绕过技巧。