Python3网络爬虫课程7.2使用selenium爬取淘宝商品

bestproxy • 2022年4月13日 pm3:35 • 代理百科

本节我们将使用前面学习过的 Selenium 来抓取淘宝商品，使用 pyquery 解析商品的各种信息，最终的结果将保存到 Mongodb 中。

准备工作

我们还是以 Chrome 为例来进行讲解，开始之前，请确保正确安装了 Chrome 浏览器并配置好了 ChromeDriver，另外还要确保 Selenium 库安装正确。

我们最后也会对接 PhantomJS 和 Firefox，请确保安装好 PhantomJS 和 Firefox 以及其驱动 GeckoDriver。

分析页面

我们打开淘宝页面，搜索“小米 9”，页面中包含很多商品信息，如商品图片、名称、价格、购买数、店铺名称、店铺所在地等等。

抓取入口 url 为

,可以直接通过构造这个url来访问。

在页面下方,有分页导航,包含前五页的连接,也包含下一页的链接,同时还有一个跳转到某页的链接。

打开凤凰新闻，查看更多高清图片

可以看到,商品最大页数为 100 页,要获取每一页的内容,我们只需要按页码遍历即可。

获取商品列表

首先我们构造 URL，这个URL只需要更改q的value就可以更换搜索关键字，就可以获取不同的商品列表。 URL 构造完成之后，我们访问这个 URL,然后判断当前页面是不是第一页，如果是第一页，我们判断一下商品列表是否已经加载，如果加载完成，则调用获取商品信息的函数 get_shopping();如果不是第一页，我们先定位到跳转文本框，输入 page,点击跳转按钮进行跳转，然后再判断商品列表是否已经加载，然后调用获取商品信息的函数 get_shopping()。

解析商品信息

这个就是实现我们的 get_shopping()函数,我们直接获取网页源代码,然后通过 pyquery 来进行解析,解析出商品信息后调用 save_to_mongo()方法将其存储到 MongoDB。

保存到 MongoDB

接下来我们将抓取到的信息保存到 MongoDB,即实现 save_to_mongo()函数。

遍历页面

我们的 parse_page()函数需要接受一个 page 参数,我们下面实现页码遍历。

我们运行一下:

赞 (0)

如何科学上网【NordVPN】---7200W动态住宅代理IP【Luminati】---适用Shadowsock\Clash等软件的机场，支持ZFB【搬瓦工】

如何为windows下的python的pip工具设置代理...

« 上一篇 2022年4月12日 pm6:17

Python3网络爬虫课程9.8检测模块

下一篇 » 2022年4月13日 pm3:36

Warning: Undefined array key "related_news" in /www/wwwroot/bestproxy.cc/wp-content/themes/justnews/single.php on line 201

动态http代理推荐哪个？

当今时代大数据兴起，网络成为重要组成部分，在线运营拥有大量的信息数据。网上竞争，市场调研，数据分析，怎么获取？成果网络爬虫的出现，使网络爬虫能够获得大量的数据信息。爬虫采集也不是这么简单，爬取数据，对网站的自我保护意思，对信息的保护，防止流失也同样做出了相对的策略，使用了反爬虫机制。一般用户访问网站浏览时间较长，访问也不会太频繁，终端网站如何判断对网络爬...

代理百科 2022年6月8日
网络大数据时代IP代理起到了哪些作用_

在如今这个网络大数据时代，与互联网相关的行业是越来越多，而网站安全、排名及访问量和IP相关问题，备受这些从业者的关注，特别是其中IP地址相关问题，是普通网民和网络工作者共同在意的问题，例如IP被封IP限制问题就会导致工作停滞和网络的正常使用，针对这些状况IP代理就能很好的解决，具有修改更换隐藏ip属性，达到突破各类限制从而保护网络安全的目的，那么下面跟着小编...

代理百科 2022年4月16日
最详细的UbuntuLinux服务器版安装过程及更新数据包

Ubuntu是一个以桌面应用为主的Linux操作系统，其名称来自非洲南部祖鲁语或豪萨语的“ubuntu"一词，意思是“人性”“我的存在是因为大家的存在"，是非洲传统的一种价值观。Ubuntu基于Debian发行版和Gnome桌面环境。作为Linux发行版中的后起之秀，Ubuntu 在短短几年时间里便迅速成长为从Linux初学者到资深专家都十分青睐的发行版。由...

代理百科 2022年4月8日
专项清理整治！动态IP代理服务乱象6图

大家每天上网，但不一定知道什么叫“IP”。 IP就是Internet Protocol（网际互连协议）的缩写，是TCP/IP体系中的网络层协议，主要作用是实现大规模网络的互联互通。而动态IP是指当你在上网时，电信运营商会随机分配一个IP地址给你。近年来，随着互联网络技术的飞速发展，又开始出现一种动态IP代理服务，由此带来许多问题。那到底啥叫动态IP服务呢...

代理百科 2022年6月16日
状态检测防火墙和应用层防火墙的原理图文详解

防火墙发展到今天，虽然不断有新的技术产生，但从网络协议分层的角度，仍然可以归为以下三类：1，包过滤防火墙；2，基于状态检测技术(Stateful-inspection)的防火墙；3，应用层防火墙。这三类防火墙都是向前包容的，也就是说基于状态检测的防火墙也有一般包过滤防火墙的功能，而基于应用层的防火墙也包括前两种防火墙的功能。在这里我将讲讲后面两类防火墙...

代理百科 2022年3月27日
独享代理IP有什么作用？

在IP代理选择时，可选择透明代理、匿名代理和高匿代理。除此之外，还有一种比较特殊的代理，被称为独享代理IP，因为收费相对较高只被少数人所使用。独享IP代理一般被用于以下一些业务：保护用户身份匿名是人们使用代理的最常见原因之一，代理通常充当用户计算机和试图访问的Web服务器之间的中介，并且会掩盖用户的身份并发送自己的凭据。通过这样的方式，目标Web服务器将...

代理百科 2022年4月21日