先说一下主要的流程:下载代理ip池文件Proxypool,然后安装代理池要用到的一些扩展库和数据库Redis,启动Redis服务之后,启动ProxyPool服务,然后即可在python中使用ProxyPool代理ip池。
1、下载代理ip池代码:用的是github上比较火的ProxyPool,下载zip文件
https://github.com/jhao104/proxy_pool/releases
下载zip版本2、解压并安装代理池需要的依赖文件:
解压后,cmd命令行进入到该文件夹下(在文件夹地址栏输入cmd然后回车),安装依赖文件(requirements为代理池需要用到的扩展库列表)。
安装命令:pip install -r requirements.txt
依赖库安装完成后此cmd窗口可以关闭3、安装代理ip存储数据库Redis
(1) windows首先下载安装Redis安装包,并解压到合适位置(放哪都行):
https://github.com/MSOpenTech/redis/releases
忽略右边那些插件......(2) 启动服务:cmd进入文件位置(文件夹地址栏输入cmd),启动服务
redis-server.exe redis.windows.conf
启动服务界面(3) 安装服务:另外打开一个cmd窗口,输入命令安装Redis到windows服务:
redis-server --service-install redis.windows.conf
查看是否加入服务(任务栏右键进入任务管理器,最后一列“服务”)(4) 启动服务:关闭第一个“启动服务”cmd窗口,另开一个cmd窗口,启动服务:
redis-server --service-start (启动之后这个窗口就可以关闭了)
我这个是服务已经在运行的状态(关闭服务命令:redis-server --service-stop)(5) 测试是否可以使用:在文件夹下另开一个cmd窗口,输入命令进行测试:
redis-cli.exe -h 127.0.0.1 -p 6379
测试成功,Redis安装完成,ProxyPool相关依赖全部完成,接下来修改ProxyPool配置,启动ProxyPool。
4、修改Proxypool配置文件:主要需要修改两处
(1) DB_CONN:Redis数据库位置,注意ip和端口,127.0.0.1:6379
(2) FROXY_FEYCHER:可用的代理ip地址,参考github上实时代理源有效信息。
5、启动代理池服务:在proxypool文件夹下,分别打开两个cmd窗口运行命令。
(1) 启动调度程序:python proxyPool.py schedule
(2) 启动webApi服务:python proxyPool.py server
6、在程序中使用,运行实例:
import requests def get_proxy(): #5000:settings中设置的监听端口,不是Redis服务的端口 return requests.get(":5000/get/").json() def delete_proxy(proxy): requests.get(":5000/delete/?proxy={}".format(proxy)) # 主代码 def getHtml(): retry_count = 5 proxy = get_proxy().get("proxy") print(proxy) while retry_count > 0: try: html = requests.get(http://www.baidu.com, proxies={"http": "http://{}".format(proxy)}) print(html.text) break except Exception: retry_count -= 1 # 删除代理池中代理 delete_proxy(proxy) return None getHtml()