python爬取360百科获取春晚基本信息

最新推荐文章于 2020-12-11 11:05:41 发布

喜欢coding的谢同学

最新推荐文章于 2020-12-11 11:05:41 发布

阅读量728

点赞数 1

分类专栏：爬虫 # 实战文章标签：爬虫 python

本文链接：https://blog.csdn.net/weixin_44112790/article/details/86764815

版权

爬虫同时被 2 个专栏收录

26 篇文章 3 订阅

订阅专栏

实战

14 篇文章 0 订阅

订阅专栏

前言

之前看到大佬爬取维基百科获取春晚的信息，做了些数据分析，我也想跟着试一下，但是…
不过我居然在360百科上面发现了多年春晚的信息，便选择从360百科爬取。

站点分析

从网站可以看出，它的每个词条应该对应着唯一的一个html页面
在这里插入图片描述
我们搜索的参数并没有直接通过get在地址栏显示出来，而是藏在了cookie当中，也就是我们可以通过修改cookie了打开不同年份的页面。

但是我图个简单没选择这种方式，而是选择直接在搜索框输入内容进行词条的切换。

数据获取

获取不同年份

在这里插入图片描述
利用selenium根据这个id选中输入框，并输入相应内容

def get_url(year):
    browser.get('https://baike.so.com/')						#browser为全局属性browser= webdriver.Chrome()
    input = wait.until(													#wait为全局属性wait = WebDriverWait(browser, 10)
        EC.presence_of_element_located((By.CSS_SELECTOR, '#J-search-word'))
    )
    input.send_keys(str(year)+KEYWORD)				#KEYWORD = '年中央电视台春节联欢晚会'，写在配置文件中
    input.send_keys(Keys.ENTER)
    return browser.current_url

通过这个方法就能获取指定年份的春晚信息了，修改KEYWORD还能获取其他词条指定年份的信息。

获取基本信息

在这里插入图片描述
通过这个class获取一对对的基本信息用字典存了起来

def get_info(url):
    browser.get(url)
    html = browser.page_source
    doc = pq(html)
    items = doc.find('.cardlist-con').items()
    dict = {}
    for item in items:
        dict[item.find('.cardlist-name').text()] = item.find('.cardlist-value').text()

整体运行

if __name__ == '__main__':
    for year in range(1983,2020):
        url = get_url(year)
        print(url)
        dict = get_info(url)
        print(dict)
        save_to_mongo('chunwan',dict)

最后通过循环整体运行起来，save_to_mongo是我自己封装的工具类，用来存到MongoDB

结果展示

在这里插入图片描述

喜欢coding的谢同学

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python爬取360百科获取春晚基本信息

前言之前看到大佬爬取维基百科获取春晚的信息，做了些数据分析，我也想跟着试一下，但是…不过我居然在360百科上面发现了多年春晚的信息，便选择从360百科爬取。站点分析从网站可以看出，它的每个词条应该对应着唯一的一个html页面我们搜索的参数并没有直接通过get在地址栏显示出来，而是藏在了cookie当中，也就是我们可以通过修改cookie了打开不同年份的页面。但是我图个简单没选择这种...
复制链接

扫一扫