系列文章目录
一 课程设计任务说明及总体设计说明
二 总体设计说明
三 核心功能与代码
四 问题与讨论
前言
记录回顾之前Python课程设计的点点滴滴
1.1.题目介绍
数据爬取与分析
禁忌事项:绕过网站的安全、破解密码
遵守事项:网站的robots协议,若有。
数据文件 CSV, UTF-8,分隔符:默认的逗号
1.2.需求分析和解决思路
1.需求分析
1)平台内最热门(评分标准:点赞数0.3+评论数0.7)的100个内容,主题的分布情况
2)特定分类(内容最多的某个分类)下TOP50的内容分析 标题关键词分析 评论内容的热词分析
3)自行探索的一些分析
2.解决思路
我一开始确认了想要爬取媒体信息内容,所以对象放在了哔哩哔哩、知乎、微博三个平台
经过许许多多头秃的代码调试后,我确认了哔哩哔哩作为研究对象
我选取哔哩哔哩里的内容为视频标题、播放量、点赞、评论等数据 所想为爬取数据到数据存储,数据清洗再到数据可视化
最后呈现出来的效果就是要让不懂代码的人都看得舒服
1.3.个人所完成的核心工作内容
数据的爬取
数据的存储(整理到数据库、excel、csv等)
数据的清洗
数据的可视化(图表、词云等)