自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 生产实习——Day15

由于上述透视表的人数和远远小于总的记录数,说明超市对保持老客户较为有效 ,也间接说明了超市的运营状况较为稳定;还可以发现,2011-2014年每年的新增客户数呈逐年减少的趋势,新客户获取率比较低,因此,可以进行主动推广营销,从而增加新客户数;

2024-06-20 14:05:06 990

原创 生产实习——Day14

由上面的条形图可看出,各个地区2011-2014年的销售总额均是增长趋势, 其中APAC地区和EU地区的增长速度较快,市场前景较好,下一年可以适当 加大运营成本。由上图可看出,除了Canada地区以外,各大地区销售额都比较高的是电子产品,可 以适当加大对各地区(除Canada地区)该种类的投入,以便扩大优势。从该饼图可以看出:APAC、BJ两个地区的销售额比例很高,总计占51.6%,Canada的销售总额占比最小,只有0.5%,可以增加对该地区的营销。

2024-06-20 11:09:56 235

原创 生产实习——Day13

本案例将对某大型超市的零售数据进行数据分析,通过了解运营状况,做出合理的决策。

2024-06-20 10:43:56 415

原创 生产实习——Day12

​ 在NLP中,最细粒度的表示就是词语,但是计算机并不能直接识别词语,需要将词语转化为计算机可识别的数值形式,这种对词语的转化和表征就是“词汇表征”。​​ word2vec是一种基于神经网络的词嵌入技术,通过训练神经网络得到一个关于输入X和输出Y之间的语言模型,获取训练好的神经网络权重,这个权重是用来对输入词汇X进行向量化表示的。​ RNN(Recurrent Neural Network),即"循环神经网络",是在基础神经网络模型中增加了循环机制。

2024-06-20 09:42:06 849

原创 生产实习——Day11

​ 关联规则分析的最终目标是要找出强关联规则,从而实现对目标客户的商品推荐。Apriori算法是最著名的关联规则的挖掘算法之一,其核心是一种递推算法。使用apyori库可以非常方便地实现Apriori算法,从而快速得到强关联规则。安装方法:!​ 中医病案的各种症状是一个错综复杂的整体,但其中也有着密不可分的联系。通过对中医病症之间关系的分析,从而认识疾病的发生发展规律,掌握疾病的诊疗特点,并且获得治疗疾病的最适宜药方。

2024-06-20 09:08:44 911

原创 生产实习——Day10

​ 人们经常会在视频平台上观看影片,有时目标明确,想要观看某部电影,但有时仅仅是随机搜寻。​ 如果视频平台可以利用基于物品的智能推荐系统,有效地从用户对其观看过的电影的评分中挖掘数据,便可以根据用户偏好的电影个性化地推荐更多类似的电影,优化用户体验,提高用户粘性,创造额外收入。

2024-06-20 09:00:34 700

原创 生产实习——Day9

安装和配置Spark环境,以便能够进行大规模数据处理和分析。在安装过程中,遇到一些问题,以下是遇到的问题及相应的解决方法。

2024-06-19 14:45:38 283

原创 生产实习——Day8

使用SparkSQL来处理和分析大规模数据集。SparkSQL是Apache Spark的一个强大模块,提供了SQL查询语言以及DataFrame和Dataset API来处理结构化数据。以下是我在使用SparkSQL时遇到的一些问题及相应的解决方法。

2024-06-19 14:44:54 260

原创 生产实习——Day7

安装和配置ZooKeeper,作为分布式系统中的协调服务。在安装过程中,遇到一些问题,以下是遇到的问题及相应的解决方法。

2024-06-19 14:42:05 354

原创 生产实习--Day6

安装和配置Hive,以便能够进行大规模数据集的查询和分析。安装过程中遇到了一些问题,以下是遇到的问题及相应的解决方法。

2024-06-19 14:40:12 426

原创 生产实习——Day5

【代码】生产实习——Day5。

2024-06-19 14:37:45 193

原创 生产实习——Day4

根据电商日志文件,分析:统计页面浏览量(每行记录就是一次浏览)统计各个省份的浏览量 (需要解析IP)日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程)为什么要ETL:没有必要解析出所有数据,只需要解析出有价值的字段即可。本项目中需要解析出:ip、url、pageId(topicId对应的页面Id)、country、province、city。

2024-06-19 14:19:11 303

原创 生产实习——Day3

【代码】生产实习——Day3。

2024-06-19 14:05:41 110

原创 生产实习——Day2

包括属性:手机号、上行流量、下行流量、总流量phone==>Access(手机号,该行手机号的上行流量,该行手机号的下行流量)

2024-06-10 16:43:01 317

原创 生产实习——Day1

第四步:切换到bin目录下。第二步:解压安装压缩包。第五步:启动 idea。第三步:改文件夹名称。第六步:建立快捷方式。

2024-06-10 16:23:39 324

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除