简易爬取豆瓣TOP250数据并存储
最开始接触的实例就是豆瓣top250的爬取,现在想起来,给他细化一下
- 预置数据库
为了方便后续处理,建立了一个“爬虫”数据库,在其中建立了一个“doubantop250”表
表结构如下:
重点在数据爬取这里,所以没有特别去强调主键外键什么的
对应数据内容依次为序号、电影名称、别名、评分、一句话简介、评价人数、导演
- 数据爬取(xpath、requests)
数据爬取以xpath为主,以下附上整体代码
import requests
from lxml import etree
import pymysql
import re
from urllib import request
conn = pymysql.connect('127.0.0.1', 'root', 'password', '爬虫', charset='utf8')
cursor = conn.cursor()
heads={
'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 '
'(KHTML, like Gecko) Chrome/78.0.3904.87 Mobile Safari/537.36'
}
ourl='https://movie.douban.com/top250?start='
url=''
num=0
while num<=225:
url=ourl+str(num)