自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 【大语言模型——Day12】

​ NLP(Natural Language Processing),即“自然语言处理”,主要研究使用计算机来处理、理解及运用人类语言的各种理论和方法,属于人工智能的一个重要研究方向。​ 简单来说,NLP就是如何让计算机理解人类语言。​ 在NLP中,最细粒度的表示就是词语,但是计算机并不能直接识别词语,需要将词语转化为计算机可识别的数值形式,这种对词语的转化和表征就是“词汇表征”。​。

2024-06-19 15:45:34 869

原创 【协同过滤算法——Day11】

搭建智能推荐系统的算法有很多,其中商业实战中用的较多的为协同过滤(collaborative filtering)。

2024-06-19 08:45:03 719

原创 【Spark SQL——Day10】

​ Spark SQL是一个用于结构化数据处理的Spark组件。所谓结构化数据,是指具有Schema信息的数据,例如JSON、Parquet、Avro、CSV格式的数据。与基础的Spark RDD API不同,Spark SQL提供了对结构化数据的查询和计算接口。将SQL查询与Spark应用程序无缝组合​ Spark SQL允许使用SQL或熟悉的API在Spark程序中查询结构化数据。

2024-06-17 16:17:50 616

原创 【Spark的安装与应用——Day9】

唯一不同的是,Spark Shell本身为集群的client提交方式运行,不支持cluster提交方式,即使用Spark Shell时,Driver运行于本地客户端,而不能运行于集群中。因此,Spark处理速度比MapReduce更快。​ Driver为主控进程,负责执行应用程序的main()方法,创建SparkContext对象(负责与Spark集群进行交互),提交Spark作业,并将作业转化为Task(一个作业由多个Task任务组成),然后在各个Executor进程间对Task进行调度和监控。

2024-06-17 09:48:26 1789

原创 【电商实战Hadoop实现——Day8】

这个项目旨在分析电商日志文件,包括统计页面浏览量和各个省份的浏览量,并进行 ETL 操作提取关键字段。通过这个项目,我们了解到了数据分析的基本流程和方法,以及如何从大量数据中提取有价值的信息。在实施过程中,需要选择合适的工具和技术来处理数据,并注意数据的准确性和完整性。同时,也体会到了 ETL 操作在数据处理中的重要性,它可以帮助我们更好地理解和利用数据,为决策提供支持。

2024-06-13 15:59:17 345

原创 【电商实战Hadoop实现--Day7】

ETL(Extract, Transform, Load)操作在数据处理过程中起着关键的作用。其目的是将数据从来源端进行抽取、转换,并最终加载到目标端。之所以要进行 ETL,是因为并非所有数据都需要被解析,只需提取有价值的字段即可。在本项目中,需要解析出的重要字段包括:IP 地址、URL、页面 ID(与主题 ID 相对应的页面 ID)、国家、省份、城市。解析这些有价值的字段有助于提高数据处理的效率和准确性。

2024-06-13 15:38:39 367

原创 【电商实战Hadoop实现--Day5】

/ Driver端的代码:八股文// 如果输出目录已经存在,则先删除//需求2// 添加一个无参构造函数@Override@Override// 添加一个无参数构造函数@Overridecount++;使用MapReduce方法实现对各省份浏览量的统计。

2024-06-12 15:58:38 323

原创 【 电商实战Hadoop实现——Day4】

在当今竞争激烈的电商市场中,用户体验和精准营销是企业取得成功的关键因素。而页面浏览量作为用户行为的重要指标,扮演着至关重要的角色。

2024-06-11 23:51:04 1808

原创 【手机流量分析项目生产实习——Day3】

针对大规模的手机流量日志数据进行统计和分析。在很多互联网企业或电信运营商中,会有海量的手机流量日志数据产生,需要对这些数据进行处理和分析,以便了解用户的行为、优化网络性能、制定营销策略等。为了高效地处理这些海量数据,通常会采用分布式计算框架,比如Hadoop,来进行数据处理和分析。MapReduce作为Hadoop的核心编程模型,非常适合用于这种大规模数据的统计和分析任务。

2024-06-05 22:38:20 344 1

原创 【Hadoop伪集群安装——生产实习Day1】

(12)修改 start-yarn.sh文件(在hadoop-3.2.0/sbin目录下),在文件前面增加如下内容。(13)修改stop-yarn.sh 文件(在hadoop-3.2.0/sbin目录下),在文件前面增加如下内容。(10)修改start-dfs.sh文件(在hadoop-3.2.0/sbin目录下),在文件前面增加如下内容。(11)修改stop-dfs.sh文件(在hadoop-3.2.0/sbin目录下),在文件前面增加如下内容。

2024-06-05 22:18:34 1737 1

原创 【手机流量分析项目——生产实习Day2】

我是一名计算机学院大三学生。本文将分享我的实习第二天的经历和所获得的收获。

2024-06-04 21:38:48 305 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除