大数据Python爬取B站电影排行榜—信息爬取
前言
通过学习《大数据基本开发与实验》课程,完成对B站电影排行榜的爬取,并进行数据预处理和可视化分析。
一、配置环境
该项目需要配置Python3.0环境,我采用的是jupyter里面的Python3,其实是一样的。
二、爬取B站电影排行榜top100
1.找到B站电影排行榜top100网页
找到B站电影排行榜top100的页面,对该页面的源代码进行分析。(点击右键,即可查看源代码),或者找到属性,找到网络network,查看URL=“…”。
2.用URL进行爬取信息
请求头、包代码如下(示例):
import os
import requests
import xlwt
from lxml import html
import pandas as pd
使用的url网络请求的数据代码如下(示例):
def bug(key_once):
url = 'https://www.bilibili.com/v/popular/rank/movie'
#获得一个网页最简单直接的方法就是 r = requests.get(url) ,向服务器请求资源。
response = requests.get