最近学习了一下selenuim和XPath,技术还很菜,简单的爬取了一下网易云歌曲的排行榜信息,最后保存到mongodb里面
要爬取的部分如下图所示:
爬取每个歌曲的排名,名称,时长,歌手。
创建mongodb连接对象,指定数据库和集合
# 创建mongodb连接对象
client = pymongo.MongoClient(host='localhost',port = 27017)
# 指定数据库
db = client.test
# 指定集合
collection = db.songList
创建Chrome浏览器对象,调用get()方法访问页面。
# 导入包
from selenium import webdriver
# 创建浏览器对象
driver = webdriver.Chrome()
# 访问页面
driver.get('https://music.163.com/')
然后在网易云音乐首页点击排行榜进入要爬取的页面,利用selenium查找节点和点击的功能可以完成这些操作。
# 利用find_element_by_xpath()方法找到排行榜按钮的节点,click()完成点击操作。
driver.find_element_by_xpath('//*[@id="g_nav2"]/div/ul/li[2]/a/em').click()
到了排行榜页面需要注意的是,歌曲的信息在子Frame里面,光查找节点是找不到的,需要先切换到Frame里面,利用switch_to.frame()方