- 博客(11)
- 收藏
- 关注
原创 【大语言模型——Day12】
NLP(Natural Language Processing),即“自然语言处理”,主要研究使用计算机来处理、理解及运用人类语言的各种理论和方法,属于人工智能的一个重要研究方向。 简单来说,NLP就是如何让计算机理解人类语言。 在NLP中,最细粒度的表示就是词语,但是计算机并不能直接识别词语,需要将词语转化为计算机可识别的数值形式,这种对词语的转化和表征就是“词汇表征”。。
2024-06-19 15:45:34 924
原创 【协同过滤算法——Day11】
搭建智能推荐系统的算法有很多,其中商业实战中用的较多的为协同过滤(collaborative filtering)。
2024-06-19 08:45:03 786
原创 【Spark SQL——Day10】
Spark SQL是一个用于结构化数据处理的Spark组件。所谓结构化数据,是指具有Schema信息的数据,例如JSON、Parquet、Avro、CSV格式的数据。与基础的Spark RDD API不同,Spark SQL提供了对结构化数据的查询和计算接口。将SQL查询与Spark应用程序无缝组合 Spark SQL允许使用SQL或熟悉的API在Spark程序中查询结构化数据。
2024-06-17 16:17:50 670
原创 【Spark的安装与应用——Day9】
唯一不同的是,Spark Shell本身为集群的client提交方式运行,不支持cluster提交方式,即使用Spark Shell时,Driver运行于本地客户端,而不能运行于集群中。因此,Spark处理速度比MapReduce更快。 Driver为主控进程,负责执行应用程序的main()方法,创建SparkContext对象(负责与Spark集群进行交互),提交Spark作业,并将作业转化为Task(一个作业由多个Task任务组成),然后在各个Executor进程间对Task进行调度和监控。
2024-06-17 09:48:26 1995
原创 【电商实战Hadoop实现——Day8】
这个项目旨在分析电商日志文件,包括统计页面浏览量和各个省份的浏览量,并进行 ETL 操作提取关键字段。通过这个项目,我们了解到了数据分析的基本流程和方法,以及如何从大量数据中提取有价值的信息。在实施过程中,需要选择合适的工具和技术来处理数据,并注意数据的准确性和完整性。同时,也体会到了 ETL 操作在数据处理中的重要性,它可以帮助我们更好地理解和利用数据,为决策提供支持。
2024-06-13 15:59:17 380
原创 【电商实战Hadoop实现--Day7】
ETL(Extract, Transform, Load)操作在数据处理过程中起着关键的作用。其目的是将数据从来源端进行抽取、转换,并最终加载到目标端。之所以要进行 ETL,是因为并非所有数据都需要被解析,只需提取有价值的字段即可。在本项目中,需要解析出的重要字段包括:IP 地址、URL、页面 ID(与主题 ID 相对应的页面 ID)、国家、省份、城市。解析这些有价值的字段有助于提高数据处理的效率和准确性。
2024-06-13 15:38:39 409
原创 【电商实战Hadoop实现--Day5】
/ Driver端的代码:八股文// 如果输出目录已经存在,则先删除//需求2// 添加一个无参构造函数@Override@Override// 添加一个无参数构造函数@Overridecount++;使用MapReduce方法实现对各省份浏览量的统计。
2024-06-12 15:58:38 368
原创 【 电商实战Hadoop实现——Day4】
在当今竞争激烈的电商市场中,用户体验和精准营销是企业取得成功的关键因素。而页面浏览量作为用户行为的重要指标,扮演着至关重要的角色。
2024-06-11 23:51:04 1967
原创 【手机流量分析项目生产实习——Day3】
针对大规模的手机流量日志数据进行统计和分析。在很多互联网企业或电信运营商中,会有海量的手机流量日志数据产生,需要对这些数据进行处理和分析,以便了解用户的行为、优化网络性能、制定营销策略等。为了高效地处理这些海量数据,通常会采用分布式计算框架,比如Hadoop,来进行数据处理和分析。MapReduce作为Hadoop的核心编程模型,非常适合用于这种大规模数据的统计和分析任务。
2024-06-05 22:38:20 373 1
原创 【Hadoop伪集群安装——生产实习Day1】
(12)修改 start-yarn.sh文件(在hadoop-3.2.0/sbin目录下),在文件前面增加如下内容。(13)修改stop-yarn.sh 文件(在hadoop-3.2.0/sbin目录下),在文件前面增加如下内容。(10)修改start-dfs.sh文件(在hadoop-3.2.0/sbin目录下),在文件前面增加如下内容。(11)修改stop-dfs.sh文件(在hadoop-3.2.0/sbin目录下),在文件前面增加如下内容。
2024-06-05 22:18:34 1892 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人