基于Hive的宠物市场分析与可视化

设计(论文)名称

基于Hive的宠物市场分析与可视化

设计(论文)类型

C

指导教师

学院

计算机学院

专业

数据科学与大数据技术

姓名

学 号

班级

  • 选题依据(包括项目研究的背景、研究或应用的意义、国内外研究或应用现状,附主要参考文献)
  • 研究背景

随着经济的发展和人民生活水平的提高,宠物行业逐渐成为一个庞大的产业链。越来越多的宠物爱好者开始关注宠物市场,希望从中找到心仪的宠物并获得更好的养宠体验。与此同时,人口的年龄结构逐步向着少子化、老龄化变迁,家庭组成日趋简单化,人类作为典型的社会性动物,在紧张的都市生活之余,如何宣泄压力、寄托感情已经成为无法规避的社会性话题。宠物作为最优选择,也在逐步的家庭成员化,促使宠物经济的崛起势不可挡[1]。

宠物产业在我国经历了近二十年的快速发展之后,近几年来尽管受疫情的影响,中国宠物市场规模仍呈持续增长的态势[2]。宠物贸易市场前景依旧可观,整个行业尚处于早期发展阶段,是典型的朝阳行业,应该加强研究和管理,以促进其朝着可持续健康的方向发展,为我国国民经济的发展贡献力量[3]。然而宠物产品众多,每个销售渠道标价都不统一,行业中也缺少统一的价格标准,消费者更是难以判断价格的合理性;部分宠物繁育场通过伪造宠物品种、以次充好等手段,虚高价格;以及宠物交易纠纷频现,售后无保障。因大多消费者对宠物知识了解程度有限,通常情况下也很难做出合理辨别[4]。

宠物经济的成长带动宠物产业的扩张,市场不断进行细分。但宠物市场监管不当、自主品牌建设不够等多种原因[5],使宠物市场交易的信息非常混乱、没有秩序,以及随着近几年海量数据的增长,其结构越来越复杂。数据的口径和规范各不相同,很难做到跨各个系统进行全局数据的统计分析。面对海量的宠物市场数据,传统关系型数据库出现了数据处理能力不足的问题,造成很多数据分析需求无法实现。因此,为了能充分挖掘海量历史数据的价值,市场需要建立一个新的数据分析环境来解决以上问题。

  • 研究意义

在人工智能和大数据时代,数据分析与可视化是人类理解和处理海量数据的关键技术,可以帮助人们快速从海量数据中发现和获取相应的信息或者帮助人们在错综复杂的数据中发现和验证不同维度和指标之间的关联[6]。然而宠物市场的信息规范各不相同,并且数据量大,传统的处理工具难以胜任。Hive数据仓库[7]和大数据技术的结合为上述问题提供了方向,本项目通过对宠物市场的分析,旨在揭示其存在的问题并从多维度提出相应的对策建议。这些建议对于规范市场秩序、推动宠物行业发展具有积极意义。首先,通过对宠物市场的交易分析,可以为消费者提供更可靠的购买参考。通过可视化技术将分析结果呈现出来,可以帮助消费者更好地了解宠物市场的交易状况,避免被虚假信息误导。其次,本研究可以为宠物行业从业者提供决策支持。通过对市场数据的分析,可以了解消费者的购买行为和需求,进而制定更加精准的市场策略。此外,利用Python的统计分析、回归分析、时间序列分析等主要分析方法可以探索数据更深层的特征和性质。使用数据分析可视化技术让不同类型图表呈现,可以更快地发现数据中的信息,进而快速做出基于数据的决策。最后,本研究有助于推动大数据技术在宠物领域的应用和发展。

综合上述,通过基于Hive的宠物市场分析与可视化研究,可以帮助人们快速地了解和掌握宠物市场的数据和特征;也能帮助相关企业及管理部门做出更加科学合理的决策。

  • 国内外研究现状
  1. 国内研究现状

据狗民网《2020年中国宠物行业白皮书》(2020)报告,2016-2020年我国宠物行业包括宠物猫、宠物狗、宠物食品、宠物用品、全国城镇养宠(仅包含猫和狗)主人在内的市场规模都在持续增长。线上渠道的购买人群和销售额占比大幅提升,至2020年已有90%的养宠人会通过淘宝/京东等综合电商平台消费[8]。

王兵根据亚宠研究院公布的数据,对我国宠物市场的发展规模、产品和服务、饲养品种、市场群体和区域等方面的情况进行了分析研究,并指出未来我国宠物行业发展的趋势和方向[9]。

刘叶等人依托宠物市场所存在的问题,结合在西安未央区宠物市场的实际调研,从多方面对宠物需求进行分析,进而展望未来宠物市场,探寻未来宠物市场的商业模式[10]。

陇南师专2014级畜牧兽医专业学生,在成县以调查问卷的形式,共发问卷200份,结果显示,被调查人群中61%的人有养宠物的打算,且大多数人喜欢养宠物犬,而且愿为宠物花费一定的时间和金钱,表明成县具备一定的宠物市场潜力[11]。但收集到的数据量偏少不足以支撑得出一个可靠的分析结论。

  1. 国外研究现状

在社交媒体平台Facebook中,KAI Nekaris等人记录18个月宠物交易的帖子[12],通过广义线性模型(GLM)分析[13]影响宠物价格的各种因素,以及分析宠物交易数据中的时间趋势,了解当前宠物市场的趋势。

在印度尼西亚,Lalita Gomez等人收集了30年内365次鸟类市场调查的汇编市场数据[14]。他们通过数据分析发现,鸟类贸易的销售额、物种的数量随着时间的推移呈现出明显的趋势变化,同时物种的市场价格也显著上涨,分析到鸟类种群数量正在下降。

在韩国,Koo,Kyo Soung等人记录2019年1月22日至2月10日在25家在线宠物店出售的宠物的种类、交易频率和价格的信息[15],但记录数据量偏小,而且进行简单数据对比分析交易的信息,并没有对宠物市场深入探究和数据挖掘。

  • 参考文献
  1. 张天翼.中国宠物市场状况分析与研判[J].中国洗涤用品工业,2023(06):52-59.
  2. 陈鹏峰.浅谈中国宠物行业及其市场细分[J].中国洗涤用品工业,2023(06):42-46.
  3. 阎宏晋.HJ宠物贸易公司营销策略研究[D].西南大学,2022.
  4. 韩丽萍.中国宠物市场发展的问题与对策研究[D].上海财经大学,2023.
  5. 韩娜.宠物经济发展现状初探[J].中国管理信息化,2021,24(11):180-181.
  6. 张玉叶,孙延坤.基于Zeppelin+Hive的数据分析与可视化[J].现代计算机,2023,29(14):70-73.
  7. Camacho-Rodríguez J, Chauhan A, Gates A, et al. Apache hive: From mapreduce to enterprise-grade big data warehousing[C]//Proceedings of the 2019 International Conference on Management of Data. 2019: 1773-1786.
  8. 武艳.中国宠物市场行情与行业结构研究[D].首都经济贸易大学,2023.
  9. 王兵.中国宠物市场的发展现状及趋势分析[J].贵州畜牧兽医,2023,47(02):6-8.
  10. 潘仪洁,解润东,刘叶.宠物市场问题分析及其对策研究——以西安市未央区宠物市场为例[J].中国市场,2022(14):117-120.
  11. 陈文东,苏满春,王昱等.甘肃成县宠物市场调查分析[J].甘肃科技,2019,35(21):75-76+87.
  12. Siriwat P, Nekaris K A I, Nijman V. The role of the anthropogenic Allee effect in the exotic pet trade on Facebook in Thailand[J]. Journal for nature conservation, 2019, 51: 125726.
  13. Barbier J, Krzakala F, Macris N, et al. Optimal errors and phase transitions in high-dimensional generalized linear models[J]. Proceedings of the National Academy of Sciences, 2019, 116(12): 5451-5460.
  14. Leupen B T C, Gomez L, Shepherd C R, et al. Thirty years of trade data suggests population declines in a once common songbird in Indonesia[J]. European Journal of Wildlife Research, 2020, 66: 1-11.
  15. Koo K S, Park H R, Choi J H, et al. Present status of non-native amphibians and reptiles traded in Korean online pet shop[J]. Korean Journal of Environment and Ecology, 2020, 34(2): 106-114.
  • 设计或研究内容、预期目标及拟解决的关键问题(此部分为重点阐述内容)。
  • 研究内容
  1. 数据仓库架构

数据仓库存储对象是宠物市场电商信息,如宠物活体、宠物用品、宠物食品等数据。但原始数据存在数据量大、存储格式不规范、存在空值等问题,不能直接进行数据分析,因此需要Spark分布式计算框架对原始数据进行处理,生成符合格式要求的中间数据,根据设计好的分层策略和分区策略,把HDFS文件映射Hive数据表中。

  1. 宠物市场分析模型的研究与实现
  1. 统计分析

利用时间变化趋势可以分析宠物市场规模以及增长趋势。通过计算过去几年宠物市场的销售额、增长率等指标,预测未来几年宠物交易市场的潜力以及发展方向。

针对不同的宠物产品的销售额数据进行分析,了解不同产品在市场中的市场份额,分析哪些产品类别在市场上的销售表现较好,哪些商家需要加强在特定产品类别的销售策略。

  1. 相关性分析

对价格与销售量的相关性进行分析,了解不同价格对销售量的影响。通过计算出的相关系数,评估分析价格与销售量之间的相关性程度,观察到某些宠物产品价格与市场需求量之间存在显著的正相关关系,表明这些宠物产品在市场中更受欢迎,价格也更高。

  1. 回归分析

运用线性回归分析研究宠物市场规模与宠物产品需求量等因素之间的线性关系。通过线性回归模型的建立和参数估计,可以得出各个因素对市场规模的影响程度,从而为宠物交易市场的预测和决策提供依据。

利用宠物市场的历史数据,使用时间序列回归分析方法,研究不同因素对宠物产品发展的影响。通过时间序列回归分析,可以预测未来一段时间内宠物市场的发展趋势。

  1. 可视化页面设计与实现

为了将分析结果更加直观的展示出来,需要将运算结果绘制成为简单易读的图表展示,Hive分析的结果通过Supetset连接数据库实现可视化,而在Python中分析的数据通过ehcarts实现可视化。

  • 预期目标
  1. 利用Hive的数据仓库功能,将处理后的数据进行存储和管理,以便后续的数据分析和可视化展示能够快速、准确地完成。
  2. 利用HQL,可迅速查询宠物市场交易信息,方便观察发展趋势。
  3. 指导宠物市场更合理地规划其生产和供应链管理,以避免库存积压或缺货情况。这有助于优化市场的资源配置,提高整体运营效率。
  4. 帮助管理者制定更加精准的市场策略,规划宠物市场发展。
  • 拟解决的关键问题
  1. 爬取数据庞大,需要设计高效的爬虫。
  2. 数据处理涉及数据的转换、聚合和计算等操作。在进行数据处理时,需要考虑多种因素,例如数据的量级、数据的结构等。
  3. 平台搭建,内部框架的兼容性的要求,需要注意环境搭配是否正确。
  4. 在数据模型设计中,需要考虑数据的结构,结合业务分析需求,选择合适的数据模型和设计策略。

三、研究方案(包括有关方法、技术路线、实验手段、关键技术等)。

  • 有关方法
  1. 文献研究法。根据数仓的研究目的,通过调查文献来获得资料,从而全面地、正确地了解掌握所要研究问题
  2. 定量分析法:明确分析的问题,针对所要解决的问题,确定收集宠物市场的数据。在收集到一定数量的数据以后,根据一定的目的分析数据间的关系,在分析的基础上形成综合性的认识。
  3. 实验法:提取与项目相关的数据,通过在数仓中建设表建模,通过数据分析观察宠物市场交易现象之间是否存在着相关关系,以及相互影响程度。
  • 技术路线
  1. 利用Python编写爬虫爬取宠物市场交易信息数据。
  2. 在Spark分布式框架中数据预处理后,把HDFS文件映射在Hive表。
  3. 进行数据建模和数据分析:在Hive中利用表建模进行数据分析;利用Python完成统计分析、相关性分析、回归分析等。
  4. 使用Superset和Echarts可视化。

图1 数据路线图

  • 实验手段
  1. 数据爬取:通过爬虫技术和公开数据渠道,收集宠物市场交易的数据,如宠物活体、宠物用品、宠物食品的价格、销售量、类别、品牌等信息。
  2. 数据清洗:通过Spark分布式计算框架处理宠物市场的数据。
  3. 查询与分析:利用HiveQL查询与分析功能,探究宠物市场的现状、问题和发展趋势。
  4. 数据分析:通过Python进行统计分析、相关性分析等主要分析,进一步获得数据中相关因素。
  5. 可视化技术:Hive和Python分析后的成果,分别用Superset和Echarts将可视化图表呈现。
  • 关键技术
  1. 操作系统:windows11
  2. 开发工具:Pycharm、Idea
  3. 开发语言:Python、Java
  4. 数据库:Mysql
  5. 框架:Hadoop、Hive、Spark
  6. 可视化:Superset、Echarts

四、设计或研究计划进度

第一阶段

2023年8月23日–2023年9月18日

搜集资料、确定研究方向和毕设题目

第二阶段

2023年9月19日–2023年10月22日

撰写开题报告、完成开题答辩

第三阶段

2023年10月23日–2023年12月26日

完成论文初稿和毕业设计的整体框架

第四阶段

2023年12月27日–2024年1月20日

修改和完善初稿及毕业设计、完成二稿

第五阶段

2024年1月21日–2024年2月28日

修改和完善论文和设计、完成终稿

第六阶段

2024年3月1日–2024年3月20日

完成毕业论文查重、修改和交叉评阅

第七阶段

2024年3月21日–2024年4月16日

根据交叉评阅意见修改和完善论文,准备答辩ppt和设计演示视频等材料,完成毕业论文答辩。

五、设计(论文)的预期成果与特色或创新之处

  • 预期成果
  1. 构建一个宠物市场分析数仓,帮助企业及相关部门了解市场情况和消费者需求期望。
  2. 通过数据的分析和预测,发现宠物市场的机会和潜在风险。
  3. 整理研究成果,发表一篇学术论文。
  • 创新之处
  1. 基于Hive大数据分析技术的论文国内外都有很多案例,但是对宠物市场分析此方向是新颖的。
  2. 利用Hive的大数据技术,实现了对宠物市场数据的深入挖掘,可为宠物市场研究提供了新的技术分析手段。

指导教师

意见

指导教师签名:                       年    月    日

专业毕业设计 (论文)工作小组意见

难度

综合训练程度

组长签名:                         年   月   日

学院(部)

审核意见

学院(部)院长签字:                  年    月    日

毕业设计类型: A—工程设计;B-艺术设计;C—计算机软件设计.

本表除意见部分外由学生填写。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值