豆瓣书榜

最新推荐文章于 2024-09-11 14:10:29 发布

细戒

最新推荐文章于 2024-09-11 14:10:29 发布

阅读量208

点赞数 2

分类专栏：笔记文章标签：大数据爬虫

本文链接：https://blog.csdn.net/weixin_45912365/article/details/111303443

版权

笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

豆瓣250榜单爬取

1.搭建环境

代码如下：

import scrapy
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

2.加载scrapy框架

代码如下：

#terminal 终端实现
cd .. # 跳转到上一层目录
scrapy startproject booktop # 和项目同名的scrapy框架项目

## 3. setting配置

代码如下：

ROBOTSTXT_OBEY = False # 君子协议 false 不遵守
USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36
(KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36'
DOWNLOAD_DELAY = 0.5 # 下载延迟

4.spider编写

代码如下：

#spiders文件夹下创建python文件 bookspider.py
import scrapy
from booktop.items import BookItem
class BookSpider(scrapy.Spider):
#爬虫名字 允许域 起点url
name="bookspider"
allowed_domains=['book.douban.com']
start_urls=['https://book.douban.com/top250']
def parse(self, response, **kwargs):
print(response.text) # 测试页面

测试

代码如下（示例）：

#在terminal终端进行
cd booktop # 进入项目文件夹
scrapy crawl bookspider # 运行项目下的爬虫（和name的值保持一致）
#测试成功，看到页面代码

5. 获取数据（书名+出版社)

代码如下（示例）：

#需要导入BookItem类 文件开头导入 from booktop.items import BookItem
def parse(self, response, **kwargs):
#print(response.text)
#table 一个table一本书
tables=response.xpath('//table') # css也可以
#print('书籍个数',len(tables))
#print(tables)
for t in tables:
#提取 extract()[0]
tit=t.css('div.pl2 a::attr(title)').extract()[0]
#print(title) 书名
pu=t.css('p.pl::text').extract()[0]
pu=pu.split('/')[-3].strip()
#print(pub) 出版社
yield BookItem(title=tit,pub=pu)

需要使用item对象完成数据封装并传输

代码如下（示例）：

#items.py书写书类
class BookItem(scrapy.Item):
#define the fields for your item here like:
title = scrapy.Field()
pub=scrapy.Field()
pass

6.pipeline 管道存储数据

代码如下：

#在setting文件下，解开注释
ITEM_PIPELINES = {
'booktop.pipelines.BooktopPipeline': 300,
}

数据存储到txt文件下

代码如下：

#打开管道文件 BooktopPipeline
class BooktopPipeline:
def process_item(self, item, spider):
#编码格式设置为utf-8
file=open('result.txt','a+',encoding='utf-8')
file.write(item['title']+','+item['pub']+'\n')
return item
#运行测试结果result.txt下有数据成功

二、分析和可视化

代码如下：

#在项目中创建 分析文件 demo1.py
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib
#处理中文字体
font = {'family': 'microsoft yahei',
'weight': 'bold',
'size': 12}
matplotlib.rc('font',**font)
#读取文件
df=pd.read_csv('result.txt',names=['title','pub'])
#print(df)
#福尔摩斯探案集 出版社有问题，手动修改
df.loc[8,'pub']='群众出版社'
#print(df)
#按出版社不同分类汇总书数量，取出前5名
result=df['pub'].value_counts().head()
print(result)
plt.pie(result)
plt.pie(result,labels=result.index,autopct='%3.1f%%')
plt.show()

细戒

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
豆瓣书榜

豆瓣250榜单爬取1.搭建环境import scrapyimport numpy as npimport pandas as pdimport matplotlib.pyplot as plt2.加载scrapy框架#terminal 终端实现cd … # 跳转到上一层目录scrapy startproject booktop # 和项目同名的scrapy框架项目3. setting配置ROBOTSTXT_OBEY = False # 君子协议 false 不遵守USER_AGENT
复制链接

扫一扫

专栏目录