Windows 10 系统,Python 3.7
爬取豆瓣读书top250所有的书名,作者,评分,简介,将数据保存至MySQL库中。
网址链接:https://book.douban.com/top250
- 待解决问题:数据爬取有缺失,只爬取到了187组数据
目录
一、创建数据库及数据表
1、创建数据库:
create database douban charset=utf8;
2、在数据库下创建数据表:
create table douban_top250(
id int unsigned auto_increment primary key not null,
name varchar(100),
author varchar(50),
score varchar(3),
introduction text,
is_delete bit not null default 0
);
二、创建scrapy项目
在本地终端打开你想创建项目的文件夹,输入命令行:
scrapy startproject douban_read
1、定义item
import scrapy
class DoubanReadItem(scrapy.Item):
# 书名
name = scrapy.Field(