数据可视化大屏分析避孕套(爬虫+jieba分词+pyecharts可视化大屏)

这是我数据可视化的期末项目,总体来说我觉得项目呈现达到了我想要的效果
代码开源在我的github仓库,文末会附上链接


大数据安全套分析

在这里插入图片描述

数据大屏的呈现

在这里插入图片描述

引言

随着时代的发展,性文化对年轻人的影响越来越大,性行为也更趋向于年轻化。但是,性爱虽好,也要学会保护自己,那么选一个合适的Condom就显得尤为重要,本次项目选择了4个品牌(杜蕾斯、冈本、杰士邦、私激),选取销量最高的共计7件商品的评论来进行数据分析和可视化处理,帮助大家有目的的去选择condom,同时分析condom的淘宝搜索关键字词频,寻找出适合提高搜索范围的关键词,分析地区销售量并进行可视化。

下面是开始该项目前绘制的思维导图:

在这里插入图片描述

一、获取数据

一切的开始都是建立在数据之上,首要任务是获取数据。对于商品来说,能够展现其在市场的反响的数据,就是该商品的评论。但是,评论都可以人为的去刷,那么该如何去应对这样的刷屏?答案是——追评。正常来说,你购买一个商品之后,它非常好用,或者非常差劲,才会让你点开淘宝评论去给它写个追评。一定程度上来说,追评可以帮我们过滤掉那些刷出来的好评,从而增加数据的可信程度。

确定好了数据,接下来就要考虑如何获取数据。一页一页的复制粘贴肯定是不可能的,这里我选择使用爬虫爬取。

爬虫

俗话说:爬虫学的好,牢饭吃的早

爬虫可以快速爬取网站上的数据,并且架构十分简单。这里我使用的是request库。

1、爬取商品追评

首先爬取7件商品的前100页追评,在试验阶段是想爬取1000页的,每页20条评论,这样就会有20000条评论。可是当开始爬取之后发现了问题。

在这里插入图片描述

在大概100页之后的每一页追评数据都是一样的。考虑了两种情况:

  • 淘宝的反爬机制,不允许爬取更多的数据。(大概率是这种情况)

  • 在100页后的数据不再更新,因为不会有人去浏览100页后的数据。

测试了许多次都是这样。所以们选取前100页、每件商品共计2000条的追评数据进行处理分析。

在这里插入图片描述

2、爬取商品信息

我们在淘宝首页选取以”避孕套“为关键字搜索,对搜索返回的页面信息进行数据爬取。

在这里插入图片描述

淘宝反爬的解决

在爬取淘宝的时候我经常被淘宝的反爬机制给盾:
在这里插入图片描述

也尝试使用了IP池,但是网站上的免费IP基本都无法使用。在不停的试错中找到了一个很好的方法:sleep

在爬取的for循环中设置sleep函数,每请求爬取一次页面数据,就睡眠一段时间(测试下来7,12s之间,一次都没被盾)。这样可以让淘宝认为你是人在访问,而不是爬虫,就不会出现滑块验证这种东西。

在这里插入图片描述

二、数据处理、构思

1、数据处理

获取数据过后,先简单的观察一下数据。对于商品的追评,没有什么需要注意的。但是关键字搜索爬取到的信息有点问题

在这里插入图片描述

可以看到,地区后面跟有市级城市名称,付款人数不全是数字,还有汉字和符号。

  • 考虑到后续需要绘制全国地图,需要的是省级地名,那么地区列中的市级城市名称就是需要省略的
  • 付款人数需要进行转变 例如:1.5万+人付款 ----> 15000
  • 可能会出现大数吃小数的情况,但是由于无法获取到具体的销售量,这里选择忽略
结巴分词

这里用到一个很有意思的库:jieba库

它是用来拆词用的,将一句话拆成一个个词组,可以便于我们统计词频,从而分析我们爬取的评论

在这里插入图片描述

通过算法统计后,可以很清楚的知晓词频,知道了一些词的词频有助于我们判断这件商品是否好用。就像上图所示数据,在2000条数据中,”不好“、”垃圾“、”假货“的词频总和超过了500条,如果每一条评论中出现一次,那么差评率将高达25%。但是这样计算我们也忽略了,是否有评论连续打10个垃圾?但是这也反映出顾客对商品的极度不满,所以我们选择保留。

2、数据构思

在处理完数据之后,我得到了七件商品的追评和搜索后的商品数据,当然这些都是通过结巴分词处理好的文件。
在这里插入图片描述

当然还有一份商品信息的数据

在这里插入图片描述

打码防止图片挂掉

就这些数据而言,我需要可视化的情况有:全国销售商的销售量、每件商品前十的词频柱状图、价格区间、全国地区的商家数量、搜索关键词的各个词频。

有了这些构思,接下来就进行数据的可视化处理

三、数据可视化

1、销售商销售量

选取不同地区销售商的销售量总和来绘制(PS:由于无法获取到全国地区的买家信息,我只能站在客户的角度对销售商进行分析)

在这里插入图片描述

可以看到,上海周边的商家销售量是最高的,广州地区也有很大的产出。所有的销售商都集中在中国的东南沿海方向,但是在西部和北部的销售商却寥寥无几,甚至没有(淘宝商品前50页)

2、每件商品前十评论柱状图

有七件商品,考虑到最后的呈现效果,这里选择使用pyecharts的时间轴组件,将商品名称作为时间轴的标签

在这里插入图片描述

通过时间轴滚动播放可以看到不同商品的追评词频

这里通过分析可以知道,焕金超薄的差评词汇出现的非常多,不建议大家购买;冈本001超薄是口碑最好的产品,虽然也有些许差评,但总体而言大家可以放心购买

3、价格区间分布

价格也是衡量一个商品销售量的重要指标,每当生产出一件商品,需要对市场的价格有所了解和分析才能确定销售价格,不然盲目的定价只会被市场的大流冲散。

这里我选用饼状玫瑰图进行绘制

在这里插入图片描述

可以看到,在20~40区间的销售量是最高的,但同时我也发现,价格在100以上的也有不少的人数。考虑到现在避孕套市场的普遍售价,100以上的应该是囤货。

4、商家分布

比较好奇哪里商家多,就画出来看看

在这里插入图片描述

绘制完图形后发现一个问题,商家的分布和地区商家销售量有非常直接的关系,商家分布的前三甲是上海、广东、浙江,同样的全国不同地区商家销售总量的前三甲也是上海、浙江、广东。

但是排列顺序不一样,所以我选择不同地区商家的平均销售量绘制图形,看看有没有新的发现

5、不同地区商家平均销售量

在这里插入图片描述

有意思的事情发生了,山西名列榜首,其次才是浙江。上海的平均销售量连前三都没有碰到。而江苏勇夺了第三的宝座。

6、搜索关键词的词频

搜索商品后返回商品界面的呈现也是一门学问,如果你的商品信息包含了人们喜欢搜索的词组,那么被呈现在前面的概率就越高,你的商品就能以更高的曝光率呈现在顾客的视线里面。这里我选择使用词云图绘制

在这里插入图片描述

可以看到,超薄是绝大多数产品所出现的关键词,同时一些新颖而且高频的词也呈现了出来,如尿酸、情趣、持久、颗粒。

7、差评率表格绘制

我选择【‘不好’,‘垃圾’,‘差评’】为差评词组的参考,绘制如下表格

在这里插入图片描述

可以看到,私激和冈本001在排名前五十的词组中没有差评,但是杜蕾斯的焕金超薄差评率达到了惊人的27%

四、结论总结

根据上图所示数据,如果我是一个新晋的避孕套销售商,我会有以下的考虑:

  • 我可能会考虑去山西分一杯羹,因为山西的平均销售量是最高的。
  • 内陆也是不错的选择,由于沿海到内陆地区的物流速度影响,在内陆进行销售可以让内陆消费者购买的商品有更短的配送时间、更少的运输成本。可见内陆市场也是一块大蛋糕。
  • 内陆的前景是广阔的,因为销售商少,并且随着国家的发展,新疆西藏这些西部地区也在慢慢的发展起来,网络购物也会更加普及,这也是一个非常庞大的消费群体。更少的运输成本和时间是内陆销售的优势所在,有谁愿意等一个星期的快递呢?
  • 对于销售商品的价格定位,如果是3只一盒的商品定位,我会选择定价在20~40这个区间;考虑到囤货的消费者也不在少数,也需要增添大包装的产品(12只装)来顺应消费者的购买习惯。
  • 产品的定位:
    • 尿酸似乎是一个非常新颖的方向,我也去了解过,使用尿酸的避孕套在性爱过程中不容易干,这也是广大消费者需要的功能。
    • 颗粒、狼牙、情趣这些关键词也有一定的指向性,消费者喜欢玩一些花里胡哨的,那么衍生一下,使用情趣内衣、情趣玩具作为附加产品也会提高消费者的购买欲望,因为这些东西并没有太多专门的实体店去销售,就算有,这些私密物品大家往往也不会选择线下实体店去购买,那么网络销售将会挑起大梁。
    • 超薄是除开一些主要关键词(避孕套,安全套这些)出现频率最高的,冈本是这方面的领军人物,可以考虑和冈本企业谈合作关系。
    • 持久似乎是人们一直关注的问题,要是有外用产品可以提高持久性,那我相信肯定会卖爆掉。
    • 早泄是病,得治,别想着避孕套能解决你秒射。

同时重要的事情说三遍:不要卖假货!不要卖假货!不要卖假货!

这是一个销售商最重要的品质,也是消费者最关注的重心,所以不要售假。

在这里插入图片描述

记得正确选择、佩戴、使用避孕套,尽情爱,无意外。


github仓库:EEEasonlove

  • 3
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
【资源说明】 基于Python的中国城市轨道交通数据可视化分析源码+项目说明.zip 基于Python的中国城市轨道交通数据可视化分析源码+项目说明.zip 基于Python的中国城市轨道交通数据可视化分析源码+项目说明.zip 1、该资源内项目代码都是经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载使用,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能。 本项目是一个基于 Python 的简单数据可视化分析的小Demo。通过这个项目可以练习使用Python数据可视化分析相关的强大的库和模块,练习绘制简单的GUI界面并且连接数据库,更加深了对Python语言的学习和拓展。本项目也可作为学校的大作业、大实验实践或者课程设计等的选题项目。 > - 本项目通过多线程爬虫获取了高德地图中的中国轨道交通的一些数据信息,高德地图这个权威的网站也保证了数据的完整可靠性,然后进行了一些简单并且有趣的数据可视化分析,另外还设计了一个GUI界面,查询数据库或者文件中的一些信息。 > > - 如发现文档中或者源代码中有错误,欢迎大家在 `Issues` 中研究讨论,欢迎大家 `Fork` 和 `Pull requests` 改善代码,十分感谢! 使用语言 - Python 主要技术 * **网络编程** * **多线程** * **文件操作** * **数据库编程** * **GUI** * **数据分析** 导入的库和模块 ```python import json import requests from bs4 import BeautifulSoup import sqlite import threading import tkinter as tk from tkinter import scrolledtext import pandas as pd from pyecharts import Line, Bar, Geo import numpy as np from wordcloud import WordCloud, ImageColorGenerator import jieba import matplotlib.pyplot as plt import seaborn as sns ``` 项目整体思路 1. 网页分析 2. 多线程爬虫爬取信息 . 数据保存至文件中和数据库中 4. 利用 tkinter 绘制 GUI 界面,实现查询线路和站点两个功能 5. 数据可视化分析 (1)直接控制台显示分析结果 (2)绘制中国地图、柱状图等,生成 .html 文件 ( )绘制词云 (4)绘制柱状图、饼状图、折线图、散点图、双变量图等,生成 .png 文件 运行 - 分别运行`src`文件夹中的`.py`文件即可 部分运行结果样例 `res`文件夹中的文件

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

EEE1even

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值