杰巴巴星-CSDN博客

原创生产实习——Day15

由于上述透视表的人数和远远小于总的记录数，说明超市对保持老客户较为有效，也间接说明了超市的运营状况较为稳定；还可以发现，2011-2014年每年的新增客户数呈逐年减少的趋势，新客户获取率比较低，因此，可以进行主动推广营销，从而增加新客户数；

2024-06-20 14:05:06 1030

由上面的条形图可看出，各个地区2011-2014年的销售总额均是增长趋势，其中APAC地区和EU地区的增长速度较快，市场前景较好，下一年可以适当加大运营成本。由上图可看出，除了Canada地区以外，各大地区销售额都比较高的是电子产品，可以适当加大对各地区（除Canada地区）该种类的投入，以便扩大优势。从该饼图可以看出：APAC、BJ两个地区的销售额比例很高，总计占51.6%,Canada的销售总额占比最小，只有0.5%，可以增加对该地区的营销。

2024-06-20 11:09:56 260

原创生产实习——Day13

本案例将对某大型超市的零售数据进行数据分析，通过了解运营状况，做出合理的决策。

2024-06-20 10:43:56 437

原创生产实习——Day12

在NLP中，最细粒度的表示就是词语，但是计算机并不能直接识别词语，需要将词语转化为计算机可识别的数值形式，这种对词语的转化和表征就是“词汇表征”。 word2vec是一种基于神经网络的词嵌入技术，通过训练神经网络得到一个关于输入X和输出Y之间的语言模型，获取训练好的神经网络权重，这个权重是用来对输入词汇X进行向量化表示的。 RNN(Recurrent Neural Network)，即"循环神经网络"，是在基础神经网络模型中增加了循环机制。

2024-06-20 09:42:06 875

原创生产实习——Day11

关联规则分析的最终目标是要找出强关联规则，从而实现对目标客户的商品推荐。Apriori算法是最著名的关联规则的挖掘算法之一，其核心是一种递推算法。使用apyori库可以非常方便地实现Apriori算法，从而快速得到强关联规则。安装方法：! 中医病案的各种症状是一个错综复杂的整体，但其中也有着密不可分的联系。通过对中医病症之间关系的分析，从而认识疾病的发生发展规律，掌握疾病的诊疗特点，并且获得治疗疾病的最适宜药方。

2024-06-20 09:08:44 934

原创生产实习——Day10

人们经常会在视频平台上观看影片，有时目标明确，想要观看某部电影，但有时仅仅是随机搜寻。如果视频平台可以利用基于物品的智能推荐系统，有效地从用户对其观看过的电影的评分中挖掘数据，便可以根据用户偏好的电影个性化地推荐更多类似的电影，优化用户体验，提高用户粘性，创造额外收入。

2024-06-20 09:00:34 725

原创生产实习——Day9

安装和配置Spark环境，以便能够进行大规模数据处理和分析。在安装过程中，遇到一些问题，以下是遇到的问题及相应的解决方法。

2024-06-19 14:45:38 303

原创生产实习——Day8

使用SparkSQL来处理和分析大规模数据集。SparkSQL是Apache Spark的一个强大模块，提供了SQL查询语言以及DataFrame和Dataset API来处理结构化数据。以下是我在使用SparkSQL时遇到的一些问题及相应的解决方法。

2024-06-19 14:44:54 276

原创生产实习——Day7

安装和配置ZooKeeper，作为分布式系统中的协调服务。在安装过程中，遇到一些问题，以下是遇到的问题及相应的解决方法。

2024-06-19 14:42:05 375

原创生产实习--Day6

安装和配置Hive，以便能够进行大规模数据集的查询和分析。安装过程中遇到了一些问题，以下是遇到的问题及相应的解决方法。

2024-06-19 14:40:12 445

原创生产实习——Day5

【代码】生产实习——Day5。

2024-06-19 14:37:45 197

原创生产实习——Day4

根据电商日志文件，分析：统计页面浏览量（每行记录就是一次浏览）统计各个省份的浏览量（需要解析IP）日志的ETL操作（ETL：数据从来源端经过抽取（Extract）、转换（Transform）、加载（Load）至目的端的过程）为什么要ETL：没有必要解析出所有数据，只需要解析出有价值的字段即可。本项目中需要解析出：ip、url、pageId（topicId对应的页面Id）、country、province、city。

2024-06-19 14:19:11 326

原创生产实习——Day3

【代码】生产实习——Day3。

2024-06-19 14:05:41 117

原创生产实习——Day2

包括属性：手机号、上行流量、下行流量、总流量phone==>Access(手机号,该行手机号的上行流量,该行手机号的下行流量)

2024-06-10 16:43:01 339

原创生产实习——Day1

第四步：切换到bin目录下。第二步：解压安装压缩包。第五步：启动 idea。第三步：改文件夹名称。第六步：建立快捷方式。

2024-06-10 16:23:39 347

weixin_61780982的博客