1、什么是爬虫?
爬虫就是一个程序,模拟浏览器访问页面,并且把页面上的数据抓取下来的一个过程。
原理:爬虫就是用程序模拟浏览器的行为,发送请求给服务器,获取网页的内容,解析网页数据。
2、爬虫做了哪几件事情?
a.发送请求:根据URL发送请求给服务器,获取HTML文本
requests类库来抓数据,去网络上拿东西回来,BeautifulSoup坐解析。
b.解析HTML文本,把需要的数据挑出来
c.从HTML中解析出超链接,继续爬取里面的页面
requests类库来抓数据,去网络上拿东西回来,BeautifulSoup作解析。
import requests
from bs4 import BeautifulSoup
import csv
import datetime
#先确定爬啥,定一个地址
url = 'https://www.bilibili.com/v/popular/rank/all?spm_id_from=333.851.b_7072696d61727950616765546162.3'
# 发起网络请求
response = requests.get(url)
html_text = response.text
#把这一串文字给soup,BeautifulSoup就会帮忙做格式化,格式化完成直接问soup要
soup = BeautifulSoup(html_text, 'html.parser') #第二个参数是让html的解析器解析
# 用来保存视频信息的对象
class Video:
def __init__(self, rank, title, score, visit, up, up_id, url): #定义一个构造方法
self.rank = rank
self.title = title
self.score = score
self.visit = visit
self.