今天分析『奔跑吧』全系列的嘉宾名单,分析每位嘉宾参加次数(可能有的嘉宾参加过几季),以及统计嘉宾职业类型个数,最后进行可视化展示分析。 1 网页分析 通过网上查询,知道『奔跑吧』到目前为止一共9季,先是奔跑吧兄弟1~4,到后面改名为奔跑吧1~4,以及奔跑吧黄河篇。 对应的网页链接如下:
url_list=[ 'https://baike.baidu.com/item/奔跑吧兄弟第一季#4_2', 'https://baike.baidu.com/item/奔跑吧兄弟第二季/16414779', 'https://baike.baidu.com/item/奔跑吧兄弟第三季', 'https://baike.baidu.com/item/奔跑吧兄弟第四季', 'https://baike.baidu.com/item/奔跑吧第一季/20433390?fromtitle=奔跑吧第1季&fromid=22645259&fr=aladdin#4_2', 'https://baike.baidu.com/item/奔跑吧第二季/22421345?fromtitle=奔跑吧第2季&fromid=22645247&fr=aladdin#4_2', 'https://baike.baidu.com/item/奔跑吧第三季/23284990?fromtitle=奔跑吧第3季&fromid=23285732&fr=aladdin', 'https://baike.baidu.com/item/奔跑吧第四季/24701671?fromtitle=奔跑吧第4季&fromid=50003758&fr=aladdin', 'https://baike.baidu.com/item/奔跑吧·黄河篇/53052048' ]
1.分析网页结构
首先以奔跑吧第1季为例去分析网页结构(其他的链接网页结构一样)
咱们主要是爬取嘉宾姓名和明星类型(演员、歌手等)
本来想通过xpath解析网页方式去定位数据,但是发现定位不到,所以就采取了另外一种方式:字符串截取(其实正则re也可以,有很多种方式,只要能够解析出来即可,大家可以自由发挥)