自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 Day1:掌握Linux核心命令与技巧

在当今的技术驱动世界中,Linux操作系统因其稳定性、安全性和灵活性而广受欢迎。Linux不仅仅是一个操作系统,它还是一个强大的工具箱,提供了丰富的命令行工具。在这篇博客中,我们将探索一些基本但极其有用的Linux命令,这些命令对于任何想要提高生产力的Linux用户来说都是必备的。

2024-06-24 08:46:36 675

原创 Day13:Apriori算法

通过设置最小支持度和最小置信度,我们可以应用Apriori算法来找出强关联规则。例如,如果我们设置最小支持度为40%,最小置信度为80%,我们可能会发现“牛奶 → 啤酒”是一个强关联规则。库提供了一个简单易用的接口来实现Apriori算法。Apriori算法是一种基于频繁项集的关联规则挖掘算法。

2024-06-21 15:42:33 370

原创 Day12:深入理解关联规则分析

关联规则分析是一种用于发现变量之间有趣关系的统计方法,最著名的案例之一是“啤酒与尿布”的故事。这个发现不仅改变了零售业的商品摆放策略,也展示了数据分析在商业决策中的重要性。

2024-06-21 15:41:49 207

原创 Day3:Hadoop实战--手机流量统计项目(二)

题目:设计MapReduce统计每个手机号上行流量和、下行流量和、总流量和(即上行流量和+下行流量和)

2024-06-20 11:08:03 233

原创 Day2:大数据项目实训----手机流量统计项目(一)

​学院:计算机学院专业:数据科学与大数据技术实训项目:手机流量分析项目环境:idea+maven+hadoop题目:设计MapReduce统计每个手机号上行流量和、下行流量和、总流量和(即上行流量和+下行流量和)

2024-06-20 10:47:33 345

原创 Day14: 探索大语言模型

大语言模型是一种基于深度学习的NLP模型,具备处理和生成复杂语言结构的能力。它们不仅能够学习大规模语料库中的语言模式,还具有记忆、推理和上下文理解能力。

2024-06-20 09:02:08 314

原创 Day11:智能推荐系统的构建与协同过滤算法解析

协同过滤(Collaborative Filtering)算法是智能推荐系统的基石。它依据用户群体对产品的偏好数据,挖掘用户之间或物品之间的相似性,进而提供个性化推荐。视频平台通过智能推荐系统,根据用户对电影的评分,挖掘数据并个性化推荐类似电影,以优化用户体验。

2024-06-19 22:32:04 409

原创 Day9:Spark SQL与Hive整合实践

Hive是基于Hadoop的一个数据仓库工具,它允许用户通过HiveQL——一种类似于SQL的查询语言——来管理和分析大数据。Hive能够将HiveQL语句转换为MapReduce、Spark或Tez任务,从而在Hadoop生态系统中执行。

2024-06-19 22:29:37 863

原创 Day10:Spark RDD的创建

RDD是Spark中的一种数据抽象,代表了一组被并行化分布在集群节点上的数据记录。RDD的“弹性”体现在其容错机制上,即使部分数据或节点失败,RDD也能够恢复。此外,RDD的数据可以存储在内存中,也可以在内存不足时自动持久化到磁盘,从而实现高效的计算性能。

2024-06-19 22:26:59 300

原创 Day9:Scala基础

Scala运行在Java平台上,能够编译成JVM可以执行的字节码。这意味着Scala程序不仅能享受Java平台的高性能,还能无缝地与Java代码进行互操作。Scala的这一特性,加上其在Apache Spark等大数据处理框架中的广泛应用,使得学习Scala成为了技术爱好者的重要课题。Scala以其独特的编程范式和强大的功能,成为了现代软件开发中的重要语言之一。无论是大数据处理还是Web应用开发,Scala都能提供高效的解决方案。

2024-06-19 22:21:32 692

原创 Day7:Hive数据库操作入门指南

Hive是一个强大的工具,适用于处理和分析大规模数据集。通过本文的介绍,您应该对Hive的基本操作有了初步的了解。随着您对Hive的进一步探索,您会发现它在数据仓库解决方案中的独特价值。请注意,这只是一个简单的博客文章草稿,您可以根据需要添加更多细节、示例或图表来丰富内容。

2024-06-19 22:14:38 166

原创 Day6:Hadoop实战--电商分析(三)

​。

2024-06-19 22:05:54 139

原创 Day5:Hadoop实战--电商分析(二)

​。

2024-06-19 20:36:44 175

原创 Day4:Hadoop实战--电商日志分析(一)

3、日志的ETL操作:解析出ip、url、pageId(topicId对应的页面Id)、country、province、city。Mapper类:用于处理网页访问日志,并将每个页面视图计数为1。1、统计页面浏览量(每行记录就是一次浏览)2、统计各个省份的浏览量 (需要解析IP)今天主要完成第一部分:统计页面浏览量。

2024-06-19 20:35:05 195

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除