Python爬虫抓取b站排行榜

本文介绍了Python爬虫的基本概念,包括如何模拟浏览器行为发送请求和解析HTML,以及在爬取过程中可能遇到的JS渲染、IP封禁和图片数据解析等问题。
摘要由CSDN通过智能技术生成

1、什么是爬虫?

爬虫就是一个程序,模拟浏览器访问页面,并且把页面上的数据抓取下来的一个过程。
原理:爬虫就是用程序模拟浏览器的行为,发送请求给服务器,获取网页的内容,解析网页数据。

2、爬虫做了哪几件事情?

a.发送请求:根据URL发送请求给服务器,获取HTML文本
requests类库来抓数据,去网络上拿东西回来,BeautifulSoup坐解析。
b.解析HTML文本,把需要的数据挑出来
c.从HTML中解析出超链接,继续爬取里面的页面

requests类库来抓数据,去网络上拿东西回来,BeautifulSoup作解析。

import requests
from bs4 import BeautifulSoup
import csv
import datetime


#先确定爬啥,定一个地址
url = 'https://www.bilibili.com/v/popular/rank/all?spm_id_from=333.851.b_7072696d61727950616765546162.3'

# 发起网络请求
response = requests.get(url)
html_text = response.text

#把这一串文字给soup,BeautifulSoup就会帮忙做格式化,格式化完成直接问soup要
soup = BeautifulSoup(html_text, 'html.parser')  #第二个参数是让html的解析器解析

# 用来保存视频信息的对象
class Video:
	def __init__(self, rank, title, score, visit, up, up_id, url):  #定义一个构造方法
		self.rank = rank
		self.title = title
		self.score = score
		self.visit = visit
		self.
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值