python爬虫之Selenium数据爬取和数据可视化

最新推荐文章于 2022-10-11 02:06:13 发布

二师弟_k

最新推荐文章于 2022-10-11 02:06:13 发布

阅读量3.4k

点赞数 18

文章标签： python selenium 数据分析可视化爬虫

本文链接：https://blog.csdn.net/weixin_50936255/article/details/112158343

版权

1 前置条件

在使用本文代码前，需先下载selenium库、matplotlib库、pandas库和相对应浏览器的相应版本的驱动。

此处给出Chrome浏览器驱动下载地址：
https://chromedriver.storage.googleapis.com/index.html.
查看自己的Chrome浏览器版本号的路径为：设置→关于Chrome。结果如下：

2 定位标签

1. 通过查看网页源码，定位到每一个直播模块的class_name为“game-live-item”，如图：

定位每个直播模块的class_name

2. 如上图可以看到每个直播模块的右下角都有分类和人气两个数据，我们同样可以定位到其class_name，如图：

定位分类和人气的标签的class_name

3 获取数据

3.1 导入库和使用驱动器打开网页

导入自己需要用到的几个库；
实例化Selenium模块，写入驱动器文件路径（若驱动器与代码文件在同一处也可不写，但我建议为了不出错，不论是否在一处均可写上）；
写入需要爬取数据的网页网址；
开始使用" find_elements_by_… " 的方法定位标签，也可使用" find_element_by_… “的方法定位，区别是” elements "所获取下来的数据为列表类型。

代码如下：

from selenium import webdriver
import time
import pandas as pd
import matplotlib.pyplot as plt

browser = webdriver.Chrome(r'C:\Users\29023\Desktop\chromedriver.exe')  
#实例化selenium模块，打开chrome驱动器，此处括号中写驱动器的文件路径
browser.get('https://www.huya.com/')  #浏览器打开网址

button_live = browser.find_elements_by_class_name('hy-nav-item')[1]  
#定位直播，'hy-nav-item' 为虎牙官网上方导航栏“首页”旁“直播”按钮的class_name
button_live.click()  #模拟人工操作点击“直播”

注意：在使用" .click() "方法时要注意，若数据为列表类型则不能直接使用该方法，要指

最低0.47元/天解锁文章

二师弟_k

关注

18
点赞
踩
65

收藏

觉得还不错? 一键收藏
20
评论
python爬虫之Selenium数据爬取和数据可视化

本文爬取的数据为虎牙官方网站直播数据，仅获取了直播第一页的全部数据，对其进行了粗略的分析，数据获取时间为2021-01-03（22：00）。目录1 前置条件2 定位标签3 获取数据3.1 导入库和使用驱动器打开网页3.2 获取分类和人气两个数据4 使用pandas分析数据5 使用Matplotlib画图5.1 柱状图5.2 饼图1 前置条件在使用本文代码前，需先下载selenium库、matplotlib库、pandas库和相对应浏览器的相应版本的驱动。此处给出Chrome浏览器
复制链接

扫一扫