Python3网络爬虫课程8.1图形验证码的识别

bestproxy • 2022年4月13日 pm3:43 • 代理百科

目前,很多网站都采取了各种各样的反爬措施,其中之一便是使用验证码.随着技术的发展,验证码却来越复杂,花样越来越多,爬虫的工作也变得愈加复杂,本节将介绍图形验证码的识别.

图形验证码

我们首先将识别最简单的验证码,图形验证码.

目标

我们将以知网为例讲解使用 OCR 技术识别图形验证码.

准备

需要安装 tesseract 和 tesserocr 库,请看第一节和第二节内容.

获取验证码

我们将从这里获取验证码:

然后点击右键,将验证码图片保存下来.

测试

我们新建一个文件 rec_simple_vcode.py 文件,然后将上面保存的图片和此文件放在同一个路径下:

我们创建了一个 Image 对象,调用了 tesserocr 库的 image_to_text()方法,传入该 image 即可识别.

另外 tesserocr 还可以使用 file_to_text()方法直接将图片转换为字符串.

处理

我们换一个验证码,将其命名为 code2.png.

重新用下面的代码识别:

发现其输出结果为:

识别错误,识别出来的字符串和实际结果有偏差,这是因为验证码内多余的线条干扰了图片的识别.

对于这种情况,我们需要进行额外的处理,比如灰度化、二值化等。

我们可以使用 Image.convert(L)将图片灰度化。

二值化:

还可以设置二值化的阈值.默认阈值为 127,我们先将图片灰度化,然后指定阈值二值化.

看看这么处理后的结果:

我们处理过后的图片黑白分明,里面干扰的线条已经全部被除去,这是重新识别验证码:

识别结果如下:

赞 (0)

如何科学上网【NordVPN】---7200W动态住宅代理IP【Luminati】---适用Shadowsock\Clash等软件的机场，支持ZFB【搬瓦工】

Python3网络爬虫课程8.2极验滑动验证码的识别

« 上一篇 2022年4月13日 pm3:42

Python3网络爬虫课程5.4Redis存储

下一篇 » 2022年4月13日 pm3:44

Warning: Undefined array key "related_news" in /www/wwwroot/bestproxy.cc/wp-content/themes/justnews/single.php on line 200

在线ip代理访问国外网址能用吗？

如打开外国朋友发来的网页时，IE却显示为“无法显示网页，您正在查找的页面当前不可用..”等提示，并非外国网站出了问题，而是有人担心我们幼小的心灵受到“污染”，从而封闭了通往外部的道路。国外网站无法自由获取信息，交流增多，与渴望自由的鸟儿折断翅膀又有什么区别呢？方法还是有的，常用的有通过网页代理，代理服务器，代理工具三种。以下先讲一下，即最简单实用的方法，...

代理百科 2022年4月4日
如何使用电信代理ip？

在互联网中，有很多行业比如：网络推广、注册、流量、投票、跑号、游戏或者大数据爬取等其他业务，都需要用到大量IP,不是几十几百个，而是几十万、甚至上百万的IP数量。那么如何获取大量的IP呢？国内的IP地址，都集中在各大网络运营商手里，比如电信、联通、移动、教育网等。因为国内的电信、联通、移动等服务商提供的家庭宽带都是动态IP分配机制，所以办理各地的电信、联通...

代理百科 2022年4月16日
中小型网站如何防范CC攻击

大公司就不说了，付费CDN，防火墙，大流量，一般也会配置专门的安全问题响应团队。今天天下数据小编侧重讨论一下中小型网站如何（优雅）防范CC攻击。先说说一般的中小站点安全问题通病：对安全问题不重视，不少iptables都是默认的，主要目标是网站能正常工作，当然也无专门的安全运维人员。（欢迎补充）然后抛砖引玉，说下前段时间帮朋友网站应对CC攻击时的一些措施，...

代理百科 2022年5月12日
使用安卓模拟器抓取微信小程序的数据包

点击上方蓝字关注我们！使用安卓模拟器抓取小程序的数据包测试小程序，无法抓取https数据包，尝试过多种方法，都失败了，怎么办呢？看到一个大佬分享的文章内容：安卓系统7.0以下版本，不管任意版本，都会信任系统提供的证书安卓系统7.0以上版本，7.0以下版本，会信任系统提供的证书安卓系统7.0以上版本，7.0以上版本，只信任它自己配置的证书列表总结：抓不到数...

代理百科 2022年4月19日
Win10系统edge浏览器代理服务器怎么设置

展开全部步骤： 1、鼠标左键点击开始，然后选择“设置”; 2、在弹出的菜单中，选择“网络和Internet”; 3、点击“代理”，然后填入代理服务器地址和端口，最后保存! 展开全部在Windows10系统中打开edge浏览器，然后找到工具栏上的“更多”按钮在打开的更多菜单中选择“设置”菜单项这时会打开设置菜单，在设置菜单中找到“查看高级设置”按钮在高级设...

代理百科 2022年4月7日
统计各大搜索引擎爬虫代理(User-Agent)

今天带大家统计一下各大搜索引擎爬虫终端代理（User-Agent）百度搜索User-Agent # 百度 PC UAMozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)Mozilla/5.0 (comp...

代理百科 2022年7月6日