刘洋988-CSDN博客

原创 Day15 —— 大语言模型简介

大语言模型基本概述什么是大语言模型主要应用领域大语言模型的关键技术大语言模型的应用场景NLP什么是NLPNLP的主要研究方向word2vecword2vec介绍word2vec的两种模型全连接神经网络神经网络结构神经网络的激活函数解决神经网络过拟合问题的方法前向传播与反向传播前向传播反向传播（Back Propagation,BP）RNN认识RNNRNN的应用领域常见的RNN模型LSTM认识LSTMLSTM的“门结构”Seq2Seq模型Seq2Seq表现形式Attention模型。

2024-06-20 15:09:03 2015

原创 Day14 —— 超市电商数据分析项目

项目三 _____（超市电商数据分析项目）引言数据源概况读取、清洗数据数据分析及结果解释问题一 __ 利润分析问题二 __ 客单价分析问题三 __ 每年销售额与销售额的增长率分析问题四 __ 分析各个地区分店的销售额问题五 __ 销量分析与销售淡旺季分析问题六 __ 淡旺季分析（通过销售额分析）问题七 __ 分析新老客户数问题八 __ 用户数据分析问题九 __ 不同类型的客户每年的销售额分析问题十 __ 用户价值度RFM模型分析问题十一 __ 客户群体与产品种类的关系分析问题十二 __ 发货时间与发货

2024-06-20 14:27:35 868

原创 Day13 —— 关联规则分析

关联规则分析的目标是要找出强关联规则，从而实现对目标客户的商品推荐。Apriori算法是最著名的关联规则的挖掘算法之一，其核心是一种递推算法。中医病案的各种症状是一个错综复杂的整体，但其中也有着密不可分的联系。通过对中医病症之间关系的分析，从而认识疾病的发生发展规律，掌握疾病的诊疗特点，并且获得治疗疾病的最适宜药方。而关联规则分析在寻找中医病因病机、病症之间的关系上发挥了巨大的作用，在挖掘病症之间的关联关系方面应用广泛且实用。

2024-06-20 09:17:50 974

原创 Day12 —— 协同过滤算法

通过ETL操作，可以有效地处理大量的日志数据，提取出关键信息，减少数据存储和处理的复杂性，同时确保只有有价值的数据被提取和加载，从而实现对电商日志数据的高效分析和利用，搭建智能推荐系统的算法有很多，其中商业实战中用的较多的为协同过滤(collaborative filtering)。如下表所示，图书A和图书B都被用户1，2，3购买过（1表示购买，0表示未购买），那么可以认为图书A和图书B具有较强的相似度，即可判断喜欢图书A的用户同样也会喜欢图书B。基于用户的协同过滤：根据用户之间的相似性来推荐物品。

2024-06-19 23:28:31 1076

原创 Day11 —— 大数据技术之Spark

Apache Spark是一个快速通用的集群计算系统，是一种与Hadoop相似的开源集群计算环境，但是Spark在一些工作负载方面表现得更加优越。它提供了Java、Scala、Python和R的高级API，以及一个支持通用的执行图计算的优化引擎。它还支持高级工具，包括使用SQL进行结构化数据处理的Spark SQL、用于机器学习的MLlib、用于图处理的GraphX，以及用于实时流处理的Spark Streaming。Apache Spark是一款快速、通用、可扩展的大数据处理框架。

2024-06-19 23:05:00 882

原创 Day10 —— 大数据技术之Scala

Scala是一种将面向对象和函数式编程结合在一起的高级语言，旨在以简洁、优雅和类型安全的方式表达通用编程模式。Scala功能强大，不仅可以编写简单脚本，还可以构建大型系统。Scala运行于Java平台，Scala程序会通过JVM被编译成class字节码文件，然后在操作系统上运行。其运行时候的性能通常与Java程序不分上下，并且Scala代码可以调用Java方法、继承Java类、实现Java接口等，几乎所有Scala代码都大量使用了Java类库。

2024-06-19 22:10:18 989

原创 Day9 —— 大数据技术之ZooKeeper

ZooKeeper是一个开源的分布式协调服务，旨在管理和协调分布式应用程序。它提供了一个简单的接口，允许开发人员实现分布式系统中常见的协调任务，如选举、配置管理、命名服务、分布式锁等。

2024-06-19 20:33:32 1003

原创 Day8 —— 大数据技术之HBase

HBase 是一个开源的、分布式的、面向列的 NoSQL 数据库，它构建在 Apache Hadoop 之上，提供了高可靠性、高性能和可伸缩性的数据存储解决方案。HBase 的设计灵感来自于 Google 的 Bigtable。

2024-06-19 16:20:16 1970

原创 Day7 —— 大数据技术之Hive

Hive 是一个基于 Hadoop 的数据仓库工具，用于处理大规模数据集。它提供了类似于 SQL 的查询语言 HiveQL，允许用户在 Hadoop 分布式存储中执行查询和分析数据。Hive的本质就是将HiveQL语句转换为MapReduce任务后运行，非常适合做数据仓库的数据分析。

2024-06-19 14:43:18 790

原创 Day6 —— 电商日志数据分析项目部署流程

在最上方搜索框输入maven，或者在Build，Execution，Deployment—>Build Tools—>Maven，在Maven home path设置自己的maven安装路径，User setting file 首先点击一下Override，然后选择自己maven路径下中的conf文件夹下的settings.xml文件，Local repository 新建一个文件夹作为本地仓库地址，命名为localRepository。

2024-06-19 10:44:56 1793

原创 Day5 —— 电商日志数据分析项目

项目二 _____（电商日志数据分析项目）引言需求分析详细思路统计页面浏览量Map阶段Reduce阶段日志的ETL操作Map阶段Reduce阶段统计各个省份的浏览量Map阶段Reduce阶段具体步骤统计页面浏览量日志的ETL操作统计各个省份的浏览量工具类（utils）提取页面ID的工具类（GetPageId）IP地址解析工具类（IPParser）日志解析工具类（ LogParser）运行结果截图统计页面浏览量日志的ETL操作统计各个省份的浏览量代码展示遇到的问题及解决方案引言在电子商务领域，日志数

2024-06-19 10:07:28 928

原创 Day4 —— Maven配置阿里云镜像

首先点击新建系统变量，注意是下方的系统变量—>变量名为MAVEN_HOME，变量值为maven的解压路径—>点击确定。安装之后是一个zip的压缩包，解压缩后会出现一个名为apache-maven-x.x.x的文件夹。path—>编辑path变量—>点击新建–>%MAVEN_HOME%\bin—>点击确定。检验maven的配置情况：win+R—>中输入cmd—>点击回车。我的电脑(此电脑) 右键—>属性—>高级系统设置—>环境变量。至此maven配置阿里云镜像完毕。

2024-06-14 14:11:02 416

原创 Day3 —— 代码提交到gittee（码云）

其中姓名为必选项，填写后与个人地址空间一致，设置复杂一些，否则会出现个人地址空间已存在的情况。点击Windows凭据，点击git下的删除键，重新进行上述操作即可重新连接。Git.exe Path选择Git的安装目录下的bin目录，点击下一步。点击桌面右键的Git Clone 将复制的地址粘贴到URL上，点击OK。进行配置小乌龟和Git，确定好Git已经安装成功，默认点击下一步。可以修改一下安装的路径，点击Browse，选择自定义路径。如图所示，提交成功，点击Push，推送代码到远程仓库。

2024-06-14 08:49:32 634

原创 Day2 —— 手机流量统计项目部署流程

在最上方搜索框输入maven，或者在Build，Execution，Deployment—>Build Tools—>Maven，在Maven home path设置自己的maven安装路径，User setting file 首先点击一下Override，然后选择自己maven路径下中的conf文件夹下的settings.xml文件，Local repository 新建一个文件夹作为本地仓库地址，命名为localRepository。我们需要导入本地的maven路径，这应该是在创建完项目后就要进行的，

2024-06-13 21:04:49 1041

原创 Day1 —— 手机流量统计项目

例如，可以根据手机号的前缀将以"13"开头的手机号分配到第一个Reduce任务，以"15"开头的手机号分配到第二个Reduce任务，其余手机号分配到第三个Reduce任务。通过这些步骤，可以完成对手机号流量的统计并按照前缀分别输出到不同的文件中。具体要求是根据手机号的前缀进行分类，以13开头的手机号输出到一个文件，以15开头的手机号输出到另一个文件，其他手机号输出到另一个文件。然后，编写一个Reducer类（Reduce Task），对每个手机号的流量进行汇总，计算上行流量和下行流量的总和，然后输出。

2024-06-05 10:03:59 1032 2

weixin_62804382的博客