自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 Day15—热点搜索词统计

根据用户上网的搜索记录对每天的热点搜索词进行统计,以了解用户所关心的热点话题。要求完成:统计每天搜索数量前3名的搜索词(同一天中同一用户多次搜索同一个搜索词视为1次)。

2024-06-20 15:19:26 981

原创 Day14—基于Langchain-chatchat搭建本地智能

基于 ChatGLM 等大语言模型与 Langchain 等应用框架实现,开一种利用 langchain 思想实现的基于本地知识库的问答应用,目标期望建立一套对中文场景与开源模型支持友好、可离线运行的知识库问答解决方案。依托于本项目支持的开源 LLM 与 Embedding 模型,本项目可实现全部使用开源模型离线私有部署。与此同时,本项目也支持 OpenAI GPT API 的调用,并将在后续持续扩充对各类模型及模型API 的接入。

2024-06-20 15:00:09 796

原创 Day13—大语言模型

​ 中医病案的各种症状是一个错综复杂的整体,但其中也有着密不可分的联系。通过对中医病症之间关系的分析,从而认识疾病的发生发展规律,掌握疾病的诊疗特点,并且获得治疗疾病的最适宜药方。而关联规则分析在寻找中医病因病机、病症之间的关系上发挥了巨大的作用,在挖掘病症之间的关联关系方面应用广泛且实用。​ 不同金融产品之间可能存在着人眼难以发掘的关联关系。例如可能买了理财产品A的人,也会经常同时购买理财产品B;亦或者同时买了理财产品A和理财产品B的人,也会经常顺带着买理财产品C。

2024-06-19 14:18:15 839

原创 Day12—智能推荐系统

​ 搭建智能推荐系统的算法有很多,其中商业实战中用的较多的为协同过滤(collaborative filtering)。

2024-06-18 13:59:16 937

原创 Day11—Spark SQL整合Hive

Hive可以将SQL语句转化为MapReduce(或Apache Spark、Apache Tez)任务执行,大大降低了Hadoop的使用门槛,减少了开发MapReduce程序的时间成本。与Hive不同的是,Hive的执行引擎为MapReduce,而Spark SQL的执行引擎为Spark RDD。​ 在IDEA中编写Spark SQL操作Hive的应用程序,然后将编写好的应用程序打包为JAR,提交到Spark集群中运行,即可对Hive进行数据的读写与分析。打包程序,然后提交到Spark集群。

2024-06-18 13:58:53 689

原创 Day10—Spark SQL基础

​ Spark SQL是一个用于结构化数据处理的Spark组件。所谓结构化数据,是指具有Schema信息的数据,例如JSON、Parquet、Avro、CSV格式的数据。与基础的Spark RDD API不同,Spark SQL提供了对结构化数据的查询和计算接口。将SQL查询与Spark应用程序无缝组合​ Spark SQL允许使用SQL或熟悉的API在Spark程序中查询结构化数据。

2024-06-17 14:51:03 1520

原创 Day9—Spark运行模式及RDD的创建

​ Apache Spark是一个快速通用的集群计算系统,是一种与Hadoop相似的开源集群计算环境,但是Spark在一些工作负载方面表现得更加优越。它提供了Java、Scala、Python和R的高级API,以及一个支持通用的执行图计算的优化引擎。它还支持高级工具,包括使用SQL进行结构化数据处理的Spark SQL、用于机器学习的MLlib、用于图处理的GraphX,以及用于实时流处理的Spark Streaming。

2024-06-14 14:31:05 1346

原创 Day8—HBase安装及基本操作演示

通过今天的学习,我不仅掌握了HBase的基本操作,如表的创建、数据的增删改查,还深入理解了其作为Hadoop生态系统中的核心分布式列存储系统的设计原理和架构优势。我学习了HBase的数据模型,包括行键、列族以及其对读写性能的优化。此外,我还实践了如何通过HBase Shell和Java API与HBase集群交互,执行复杂的数据操作和管理任务。通过对HBase的高可用性和一致性特性的学习,我认识到了它在处理大规模数据集方面的强大能力。

2024-06-13 14:44:42 943

原创 Day7—zookeeper基本操作

通过安装和配置Apache Zookeeper,我们不仅成功搭建了一个分布式协调服务框架,还深入理解了其在维护系统一致性、提供分布式锁服务以及作为高可用性解决方案中的核心作用。此外,通过监控和调优Zookeeper实例,我们增强了对高性能分布式系统运作机制的认识,提升了解决复杂分布式问题的能力。这一系列的学习和操作经历,让我们对Zookeeper的功能和应用场景有了更加全面和深刻的理解。​ ZooKeeper是一个树形目录服务,每一个节点都被称为ZNode,每个节点。

2024-06-13 14:26:40 636

原创 Day6—热点搜索词统计

根据用户上网的搜索记录对每天的热点搜索词进行统计,以了解用户所关心的热点话题。要求完成:统计每天搜索数量前3名的搜索词(同一天中同一用户多次搜索同一个搜索词视为1次)。

2024-06-12 16:42:00 556

原创 Day5—Hive安装

配置Hive环境主要包括以下步骤:安装Hadoop作为Hive的底层存储和计算框架,设置Hive的配置文件如hive-site.xml,配置环境变量如HIVE_HOME和更新PATH变量,启动Hive服务包括Hive Server和Hive Metastore服务。此外,还需配置网络和Java环境,确保Hadoop和Hive的兼容性。完成配置后,通过Hive JDBC/ODBC连接进行测试,验证安装和配置是否成功。正确配置的Hive环境能够实现对大数据的高效查询和管理。

2024-06-12 16:19:56 1067

原创 Day4—电商日志数据分析

Day4 主要完成第三问 :日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程)在本实验中,通过ETL操作对电商日志文件进行了有效处理,实现了数据的高效管理和分析。ETL操作的必要性在于它允许我们只关注和处理那些对业务分析有价值的字段,而不是解析整个日志文件的所有数据。这不仅提高了数据处理的效率,还减少了存储和计算资源的消耗。

2024-06-08 23:24:40 1112 1

原创 Day3—电商日志数据分析

Day3主要完成第二问 :统计各个省份的浏览量 (需要解析IP)以上就是今天主要做的内容,编写了mapreduce代码来统计统计各个省份的浏览量 (需要解析IP)。最终得到了结果,培养的自己的动手能力和团队协作能力。希望在今后的学习生活中,将理论与实践充分结合,不断解决问题来提高自己。

2024-06-06 13:45:14 1264

原创 Day2—电商日志数据分析

Day2主要完成第一问 :统计页面浏览量(每行记录就是一次浏览)以上就是今天主要做的内容,编写了mapreduce代码来统计页面浏览量。最终得到了结果,培养的自己的动手能力和团队协作能力。希望在今后的学习生活中,将理论与实践充分结合,达到最优。

2024-06-05 23:21:27 1109

原创 Day1—手机流量统计项目

手机流量统计项目

2024-06-04 22:54:02 737 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除