数据采集-Scrapy框架使用代理IP要点

bestproxy • 2022年4月7日 pm7:16 • 代理百科

scrapy框架通过模块化的设计实现了数据采集的通用功能接口，并提供自定义拓展，它将程序员从繁冗的流程式重复劳动中解放出来，给编程人员提供了灵活简便的基础构建，对于普通的网页数据采集，编程人员只需要将主要精力投入在网站数据分析和网站反爬策略分析上，结合代理IP的使用，可以实现项目的高效快速启动。

主要特性包括：

1）参数化设置请求并发数，自动异步执行

2）支持xpath，简洁高效

3）支持自定义中间件middleware

4）支持采集源列表

5）支持独立调试，方便 shell 方式

6）支持数据管道接口定义，用户可以选择文本、数据库等多种方式

在Scrapy框架中使用代理的方式有如下几种：

1.scrapy中间件

在项目中新建middlewares.py文件(./项目名/middlewares.py)，内容如下：

#! -*- encoding:utf-8 -*-

import base64

import sys

import random

PY3 = sys.version_info[0] >= 3

def base64ify(bytes_or_str):

if PY3 and isinstance(bytes_or_str, str):

input_bytes = bytes_or_str.encode(utf8)

else:

input_bytes = bytes_or_str

output_bytes = base64.urlsafe_b64encode(input_bytes)

if PY3:

return output_bytes.decode(ascii)

else:

return output_bytes

class ProxyMiddleware(object):

def process_request(self, request, spider):

# 代理服务器(产品官网 http://www.16yun.cn)

proxyHost = "http://t.16yun.cn"

proxyPort = "31111"

# 代理验证信息

proxyUser = "username"

proxyPass = "password"

request.meta[proxy] = "http://{0}:{1}".format(proxyHost,proxyPort)

# 添加验证头

encoded_user_pass = base64ify(proxyUser + ":" + proxyPass)

request.headers[Proxy-Authorization] = Basic+ encoded_user_pass

# 设置IP切换头(根据需求)

tunnel = random.randint(1,10000)

request.headers[Proxy-Tunnel] = str(tunnel)

修改项目配置文件 (./项目名/settings.py)

DOWNLOADER_MIDDLEWARES = {

项目名.middlewares.ProxyMiddleware: 100,

}

2.scrapy环境变量

通过设置环境变量，来使用爬虫代理（Windows）

C:\>set http_proxy=http://username:password@ip:port

赞 (0)

如何科学上网【NordVPN】---7200W动态住宅代理IP【Luminati】---适用Shadowsock\Clash等软件的机场，支持ZFB【搬瓦工】

Scrapy 设置代理终极宝典

« 上一篇 2022年4月7日 pm7:14

下一篇 » 2022年4月7日 pm7:17

岸田当选新总裁执政前路挑战多

来源：新华网新华社东京9月29日电（国际观察）岸田当选新总裁执政前路挑战多新华社记者郭丹日本执政党自民党29日举行总裁选举，经过两轮投票后，前外务大臣岸田文雄当选。他将在预定10月4日举行的临时国会首相指名选举中当选为新一任日本首相。 9月29日，岸田文雄在日本东京当选自民党总裁后发表致辞。新华社发（Pool图片/卡尔·考特摄）岸田上台后，在政党层...

代理百科 2022年6月9日
速看!网站打不开的常见原因以及处理办法

网站是企业或个人在互联网上进行网络营销和形象宣传的平台，相当于企业的网络名片，不但对企业的形象是一个良好的宣传，同时可以辅助企业的销售，此外可以利用网站来进行宣传、产品资讯发布、招聘等。但有时也会出现网站打不开的情况，通常反应都是先检查自己的网络问题。但如果网速正常，网站打不开的原因就比较多了，下面小编简单整理了一些原因~ 1、如果使用猫上网，网页无法打...

代理百科 2022年7月16日
校园网无法连接到代理服务器，打不开网页

展开全部第一、原因:IE新建窗口模块被破坏所致，需要重新注册几个动态链接文件。解决方法: 点击：开始---运行---重新注册（输入）以下DLL文件。（一个一个依次注册） regsvr32 Actxprxy.dll regsvr32 Shdocvw.dll 重启系统。不行再添加以下的DLL文件： regsvr32 Mshtml.dll regsvr32 ...

代理百科 2022年4月8日
马上消费快速发展背后的秘诀

　　新华网重庆6月15日电 6月13日，马上消费金融股份有限公司（下称“马上消费”）披露，2022年1-5月，仅缴纳的税款就达到12.61亿元，同比增长296.79%；截至今年5月末，公司累计纳税超过54亿元。数据还显示，2021年，该公司实现营业收入100.10亿元。马上消费于2015年6月成立，是重庆首家持牌消费金融公司。其能在短短7年时间内实现如此快速...

代理百科 2022年6月17日
windows2003能做代理服务器吗

展开全部刚好我能够回答你，用CCProxy这款代理软件能够完全满足于你。www.xiadd.com/soft/1.html这里是下载地址，你去下载一个看看，非常傻瓜化的操作。晕，这是破解版的，是免费的啊。。。。。。。。。。。。。。。。。。展开全部如果你想做得专业一点。就用Microsoft ISA Server，这个非常强大。当然，如果想简单一点。用...

代理百科 2022年3月28日
魔笛：阿根廷比4年前更强，有梅西的球队就是夺冠热门

　　直播吧6月15日讯克罗地亚队长莫德里奇在不久前接受采访，被问到有关阿根廷队世界杯前景的话题。　　莫德里奇表示：“我们在上届世界杯对阵阿根廷时取得了胜利。我现在看到的阿根廷队是一支非常优秀的球队，我认为他们比几年前更强了。” 　　“他们有一套非常出色的阵容，围绕梅西打造了一个非常强大的团队，而梅西则是一名与众不同的球员。阿根廷变得更加团结了，他们没怎么...

代理百科 2022年6月16日