简易爬取豆瓣TOP250数据并存储（mysql）

最新推荐文章于 2024-05-13 15:07:13 发布

山风风风闻闻啊

最新推荐文章于 2024-05-13 15:07:13 发布

阅读量596

点赞数

分类专栏：爬虫 mysql 文章标签：数据库 python

本文链接：https://blog.csdn.net/weixin_43598994/article/details/104774270

版权

简易爬取豆瓣TOP250数据并存储

最开始接触的实例就是豆瓣top250的爬取，现在想起来，给他细化一下

预置数据库

为了方便后续处理，建立了一个“爬虫”数据库，在其中建立了一个“doubantop250”表
表结构如下：
在这里插入图片描述
重点在数据爬取这里，所以没有特别去强调主键外键什么的
对应数据内容依次为序号、电影名称、别名、评分、一句话简介、评价人数、导演

数据爬取（xpath、requests）
数据爬取以xpath为主，以下附上整体代码

import requests
from lxml import etree
import pymysql
import re
from urllib import request

conn = pymysql.connect('127.0.0.1', 'root', 'password', '爬虫', charset='utf8')
cursor = conn.cursor()
heads={
   
'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 '
              '(KHTML, like Gecko) Chrome/78.0.3904.87 Mobile Safari/537.36'
}

ourl='https://movie.douban.com/top250?start='
url=''
num=0
while num<=225:
    url=ourl+str(num)

最低0.47元/天解锁文章

山风风风闻闻啊

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
2
评论
简易爬取豆瓣TOP250数据并存储（mysql）

简易爬取豆瓣TOP250数据并存储最开始接触的实例就是豆瓣top250的爬取，现在想起来，给他细化一下预置数据库为了方便后续处理，建立了一个“爬虫”数据库，在其中建立了一个“doubantop250”表表结构如下：重点在数据爬取这里，所以没有特别去强调主键外键什么的对应数据内容依次为序号、电影名称、别名、评分、一句话简介、评价人数、导演数据爬取（xpath、requests）...
复制链接

扫一扫