设计(论文)名称 | 基于Hive的宠物市场分析与可视化 | ||||||||||||||||||||||||||
设计(论文)类型 | C | 指导教师 | |||||||||||||||||||||||||
学院 | 计算机学院 | 专业 | 数据科学与大数据技术 | ||||||||||||||||||||||||
姓名 | 学 号 | 班级 | |||||||||||||||||||||||||
随着经济的发展和人民生活水平的提高,宠物行业逐渐成为一个庞大的产业链。越来越多的宠物爱好者开始关注宠物市场,希望从中找到心仪的宠物并获得更好的养宠体验。与此同时,人口的年龄结构逐步向着少子化、老龄化变迁,家庭组成日趋简单化,人类作为典型的社会性动物,在紧张的都市生活之余,如何宣泄压力、寄托感情已经成为无法规避的社会性话题。宠物作为最优选择,也在逐步的家庭成员化,促使宠物经济的崛起势不可挡[1]。 宠物产业在我国经历了近二十年的快速发展之后,近几年来尽管受疫情的影响,中国宠物市场规模仍呈持续增长的态势[2]。宠物贸易市场前景依旧可观,整个行业尚处于早期发展阶段,是典型的朝阳行业,应该加强研究和管理,以促进其朝着可持续健康的方向发展,为我国国民经济的发展贡献力量[3]。然而宠物产品众多,每个销售渠道标价都不统一,行业中也缺少统一的价格标准,消费者更是难以判断价格的合理性;部分宠物繁育场通过伪造宠物品种、以次充好等手段,虚高价格;以及宠物交易纠纷频现,售后无保障。因大多消费者对宠物知识了解程度有限,通常情况下也很难做出合理辨别[4]。 宠物经济的成长带动宠物产业的扩张,市场不断进行细分。但宠物市场监管不当、自主品牌建设不够等多种原因[5],使宠物市场交易的信息非常混乱、没有秩序,以及随着近几年海量数据的增长,其结构越来越复杂。数据的口径和规范各不相同,很难做到跨各个系统进行全局数据的统计分析。面对海量的宠物市场数据,传统关系型数据库出现了数据处理能力不足的问题,造成很多数据分析需求无法实现。因此,为了能充分挖掘海量历史数据的价值,市场需要建立一个新的数据分析环境来解决以上问题。
在人工智能和大数据时代,数据分析与可视化是人类理解和处理海量数据的关键技术,可以帮助人们快速从海量数据中发现和获取相应的信息或者帮助人们在错综复杂的数据中发现和验证不同维度和指标之间的关联[6]。然而宠物市场的信息规范各不相同,并且数据量大,传统的处理工具难以胜任。Hive数据仓库[7]和大数据技术的结合为上述问题提供了方向,本项目通过对宠物市场的分析,旨在揭示其存在的问题并从多维度提出相应的对策建议。这些建议对于规范市场秩序、推动宠物行业发展具有积极意义。首先,通过对宠物市场的交易分析,可以为消费者提供更可靠的购买参考。通过可视化技术将分析结果呈现出来,可以帮助消费者更好地了解宠物市场的交易状况,避免被虚假信息误导。其次,本研究可以为宠物行业从业者提供决策支持。通过对市场数据的分析,可以了解消费者的购买行为和需求,进而制定更加精准的市场策略。此外,利用Python的统计分析、回归分析、时间序列分析等主要分析方法可以探索数据更深层的特征和性质。使用数据分析可视化技术让不同类型图表呈现,可以更快地发现数据中的信息,进而快速做出基于数据的决策。最后,本研究有助于推动大数据技术在宠物领域的应用和发展。 综合上述,通过基于Hive的宠物市场分析与可视化研究,可以帮助人们快速地了解和掌握宠物市场的数据和特征;也能帮助相关企业及管理部门做出更加科学合理的决策。
据狗民网《2020年中国宠物行业白皮书》(2020)报告,2016-2020年我国宠物行业包括宠物猫、宠物狗、宠物食品、宠物用品、全国城镇养宠(仅包含猫和狗)主人在内的市场规模都在持续增长。线上渠道的购买人群和销售额占比大幅提升,至2020年已有90%的养宠人会通过淘宝/京东等综合电商平台消费[8]。 王兵根据亚宠研究院公布的数据,对我国宠物市场的发展规模、产品和服务、饲养品种、市场群体和区域等方面的情况进行了分析研究,并指出未来我国宠物行业发展的趋势和方向[9]。 刘叶等人依托宠物市场所存在的问题,结合在西安未央区宠物市场的实际调研,从多方面对宠物需求进行分析,进而展望未来宠物市场,探寻未来宠物市场的商业模式[10]。 陇南师专2014级畜牧兽医专业学生,在成县以调查问卷的形式,共发问卷200份,结果显示,被调查人群中61%的人有养宠物的打算,且大多数人喜欢养宠物犬,而且愿为宠物花费一定的时间和金钱,表明成县具备一定的宠物市场潜力[11]。但收集到的数据量偏少不足以支撑得出一个可靠的分析结论。
在社交媒体平台Facebook中,KAI Nekaris等人记录18个月宠物交易的帖子[12],通过广义线性模型(GLM)分析[13]影响宠物价格的各种因素,以及分析宠物交易数据中的时间趋势,了解当前宠物市场的趋势。 在印度尼西亚,Lalita Gomez等人收集了30年内365次鸟类市场调查的汇编市场数据[14]。他们通过数据分析发现,鸟类贸易的销售额、物种的数量随着时间的推移呈现出明显的趋势变化,同时物种的市场价格也显著上涨,分析到鸟类种群数量正在下降。 在韩国,Koo,Kyo Soung等人记录2019年1月22日至2月10日在25家在线宠物店出售的宠物的种类、交易频率和价格的信息[15],但记录数据量偏小,而且进行简单数据对比分析交易的信息,并没有对宠物市场深入探究和数据挖掘。
| |||||||||||||||||||||||||||
数据仓库存储对象是宠物市场电商信息,如宠物活体、宠物用品、宠物食品等数据。但原始数据存在数据量大、存储格式不规范、存在空值等问题,不能直接进行数据分析,因此需要Spark分布式计算框架对原始数据进行处理,生成符合格式要求的中间数据,根据设计好的分层策略和分区策略,把HDFS文件映射Hive数据表中。
利用时间变化趋势可以分析宠物市场规模以及增长趋势。通过计算过去几年宠物市场的销售额、增长率等指标,预测未来几年宠物交易市场的潜力以及发展方向。 针对不同的宠物产品的销售额数据进行分析,了解不同产品在市场中的市场份额,分析哪些产品类别在市场上的销售表现较好,哪些商家需要加强在特定产品类别的销售策略。
对价格与销售量的相关性进行分析,了解不同价格对销售量的影响。通过计算出的相关系数,评估分析价格与销售量之间的相关性程度,观察到某些宠物产品价格与市场需求量之间存在显著的正相关关系,表明这些宠物产品在市场中更受欢迎,价格也更高。
运用线性回归分析研究宠物市场规模与宠物产品需求量等因素之间的线性关系。通过线性回归模型的建立和参数估计,可以得出各个因素对市场规模的影响程度,从而为宠物交易市场的预测和决策提供依据。 利用宠物市场的历史数据,使用时间序列回归分析方法,研究不同因素对宠物产品发展的影响。通过时间序列回归分析,可以预测未来一段时间内宠物市场的发展趋势。
为了将分析结果更加直观的展示出来,需要将运算结果绘制成为简单易读的图表展示,Hive分析的结果通过Supetset连接数据库实现可视化,而在Python中分析的数据通过ehcarts实现可视化。
| |||||||||||||||||||||||||||
三、研究方案(包括有关方法、技术路线、实验手段、关键技术等)。
图1 数据路线图
| |||||||||||||||||||||||||||
四、设计或研究计划进度
| |||||||||||||||||||||||||||
五、设计(论文)的预期成果与特色或创新之处
| |||||||||||||||||||||||||||
指导教师 意见 | 指导教师签名: 年 月 日 | ||||||||||||||||||||||||||
专业毕业设计 (论文)工作小组意见 | 难度 | 综合训练程度 | |||||||||||||||||||||||||
组长签名: 年 月 日 | |||||||||||||||||||||||||||
学院(部) 审核意见 | 学院(部)院长签字: 年 月 日 | ||||||||||||||||||||||||||
毕业设计类型: A—工程设计;B-艺术设计;C—计算机软件设计.
本表除意见部分外由学生填写。