爬取【豆瓣读书https://book.douban.com/latest?icn=index-latestbook-all】,并将爬取的内容添加导数据库中。
数据库
cmd
C:\Users\admin>mysql -u root -p
mysql> show databases;
mysql> use spier;
mysql> create table douban(Id Int,BookName varchar(100),Score varchar(20),Autor varchar(100),Press varchar(200),Pubdate varchar(20),describ varchar(3000))ENGINE=InnoDB DEFAULT CHARSET=utf8; //建表
运行代码
from lxml import etree
import requests
import pymysql
def get_html(url,headers,time=10): #get请求通用函数,去掉了user-agent简化代码
try:
r = requests.get(url, headers=headers,timeout=time) # 发送请求
r.encoding = r.apparent_encoding # 设置返回内容的字符集编码
r.raise_for_status() # 返回的状态码不等于200抛出异常
return r.text # 返回网页的文本内容
except Exception as error:
print