Python爬虫抓取b站排行榜

最新推荐文章于 2024-04-17 23:41:31 发布

ccc今天学习打代码了吗

最新推荐文章于 2024-04-17 23:41:31 发布

阅读量577

点赞数 1

分类专栏： python笔记文章标签： python

本文链接：https://blog.csdn.net/weixin_50729724/article/details/119315812

版权

本文介绍了Python爬虫的基本概念，包括如何模拟浏览器行为发送请求和解析HTML，以及在爬取过程中可能遇到的JS渲染、IP封禁和图片数据解析等问题。

摘要由CSDN通过智能技术生成

1、什么是爬虫？

爬虫就是一个程序，模拟浏览器访问页面，并且把页面上的数据抓取下来的一个过程。
原理：爬虫就是用程序模拟浏览器的行为，发送请求给服务器，获取网页的内容，解析网页数据。

2、爬虫做了哪几件事情？

a.发送请求：根据URL发送请求给服务器，获取HTML文本
requests类库来抓数据，去网络上拿东西回来，BeautifulSoup坐解析。
b.解析HTML文本，把需要的数据挑出来
c.从HTML中解析出超链接，继续爬取里面的页面

requests类库来抓数据，去网络上拿东西回来，BeautifulSoup作解析。

import requests
from bs4 import BeautifulSoup
import csv
import datetime


#先确定爬啥，定一个地址
url = 'https://www.bilibili.com/v/popular/rank/all?spm_id_from=333.851.b_7072696d61727950616765546162.3'

# 发起网络请求
response = requests.get(url)
html_text = response.text

#把这一串文字给soup,BeautifulSoup就会帮忙做格式化，格式化完成直接问soup要
soup = BeautifulSoup(html_text, 'html.parser')  #第二个参数是让html的解析器解析

# 用来保存视频信息的对象
class Video:
	def __init__(self, rank, title, score, visit, up, up_id, url):  #定义一个构造方法
		self.rank = rank
		self.title = title
		self.score = score
		self.visit = visit
		self.