起点畅销榜数据爬取-可视化大屏-动态页面【数据分析】

在这里插入图片描述

qidian_analysis

目的

本次的数据分析项目实现了数据爬取、解析、储存、分析和可视化等需求。本项目整体使用了Python语言,爬取的目标是起点中文网,目的是获得其畅销榜单的前100部小说的相关信息(排行,书名,作者,书籍类型,简介,最新章节,最近更新时间和书籍链接),并在网页上进行相应的分析和可视化展示。

介绍

  • spider_qidian:将目标网站的数据进行爬取、清洗,然后保存在excel和数据库中

  • flask_qidian:web可视化展示

  • 本次项目实现的大致功能:

    1. 网页爬取:采用Python中的urlib库连接并且爬取了起点中文网畅销榜单,获得了需要的内容。

    2. 数据解析:利用了BeautifulSoup和正则式对获取的网页内容进行了解析,拿到我们需要的信息(排行,书名,作者,书籍类型,简介,最新章节,最近更新时间和书籍链接)。

    3. 数据存储:将拿到的数据保存在了Excel文件中同时也利用sqlite3库将相关的数据保存在了数据库中,以便于之后数据的利用。

    4. 数据分析:利用flask框架构造了一个本地的网站,再次利用sqlite3操作数据库进行数据分析并且在网页上进行了展示。

    5. 数据可视化:通过echarts对书籍类型分布情况绘制了柱状图,然后又用wordcloud完成了对书籍简介词频分析和图像的制作,同时进行了展示。

环境

python3.9 + BeautifulSoup4 +flask + 各种库

搭建/运行

  1. 数据爬取(指定起止页1~30)

在这里插入图片描述

  1. 可视化展示(运行app.py后访问终端显示的链接)

在这里插入图片描述

效果图

  1. 首页(轮播图)

在这里插入图片描述

  1. 书籍(畅销榜)

在这里插入图片描述

  1. 柱状图(类型分布)

在这里插入图片描述

  1. 词云

在这里插入图片描述

  1. 图书类型再分类分析

在这里插入图片描述

  1. 可视化大屏

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Tg2ZIwbo-1688808431047)(https://github.com/Mingdaj/qidian-analysis/assets/130920375/5c9116e8-8d77-49d3-b895-0b925c47d640)]

项目详情 https://github.com/yizhishiliu/qidian-analysis

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值