爬取「奔跑吧」全系列嘉宾名单,并进行可视化分析!

本文分析了「奔跑吧」全系列嘉宾名单,通过爬虫获取数据,统计了嘉宾参加次数并进行排名,展示了前15位嘉宾的参与情况。此外,还对嘉宾的职业类型进行了统计,结果显示演员和歌手占比最高。整个分析过程结合了数据挖掘和可视化技术。
摘要由CSDN通过智能技术生成

今天分析『奔跑吧』全系列的嘉宾名单,分析每位嘉宾参加次数(可能有的嘉宾参加过几季),以及统计嘉宾职业类型个数,最后进行可视化展示分析。 1 网页分析 通过网上查询,知道『奔跑吧』到目前为止一共9季,先是奔跑吧兄弟1~4,到后面改名为奔跑吧1~4,以及奔跑吧黄河篇。 对应的网页链接如下:

 

url_list=[
    'https://baike.baidu.com/item/奔跑吧兄弟第一季#4_2',
    'https://baike.baidu.com/item/奔跑吧兄弟第二季/16414779',
    'https://baike.baidu.com/item/奔跑吧兄弟第三季',
    'https://baike.baidu.com/item/奔跑吧兄弟第四季',
    'https://baike.baidu.com/item/奔跑吧第一季/20433390?fromtitle=奔跑吧第1季&fromid=22645259&fr=aladdin#4_2',
    'https://baike.baidu.com/item/奔跑吧第二季/22421345?fromtitle=奔跑吧第2季&fromid=22645247&fr=aladdin#4_2',
    'https://baike.baidu.com/item/奔跑吧第三季/23284990?fromtitle=奔跑吧第3季&fromid=23285732&fr=aladdin',
    'https://baike.baidu.com/item/奔跑吧第四季/24701671?fromtitle=奔跑吧第4季&fromid=50003758&fr=aladdin',
    'https://baike.baidu.com/item/奔跑吧·黄河篇/53052048'
]

 

1.分析网页结构

首先以奔跑吧第1季为例去分析网页结构(其他的链接网页结构一样)

 

咱们主要是爬取嘉宾姓名和明星类型(演员、歌手等)

本来想通过xpath解析网页方式去定位数据,但是发现定位不到,所以就采取了另外一种方式:字符串截取(其实正则re也可以,有很多种方式,只要能够解析出来即可,大家可以自由发挥)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值