Caesar'-CSDN博客

原创【大语言模型——Day12】

NLP（Natural Language Processing），即“自然语言处理”，主要研究使用计算机来处理、理解及运用人类语言的各种理论和方法，属于人工智能的一个重要研究方向。简单来说，NLP就是如何让计算机理解人类语言。在NLP中，最细粒度的表示就是词语，但是计算机并不能直接识别词语，需要将词语转化为计算机可识别的数值形式，这种对词语的转化和表征就是“词汇表征”。。

2024-06-19 15:45:34 924

原创【协同过滤算法——Day11】

搭建智能推荐系统的算法有很多，其中商业实战中用的较多的为协同过滤(collaborative filtering)。

2024-06-19 08:45:03 786

原创【Spark SQL——Day10】

Spark SQL是一个用于结构化数据处理的Spark组件。所谓结构化数据，是指具有Schema信息的数据，例如JSON、Parquet、Avro、CSV格式的数据。与基础的Spark RDD API不同，Spark SQL提供了对结构化数据的查询和计算接口。将SQL查询与Spark应用程序无缝组合 Spark SQL允许使用SQL或熟悉的API在Spark程序中查询结构化数据。

2024-06-17 16:17:50 670

唯一不同的是，Spark Shell本身为集群的client提交方式运行，不支持cluster提交方式，即使用Spark Shell时，Driver运行于本地客户端，而不能运行于集群中。因此，Spark处理速度比MapReduce更快。 Driver为主控进程，负责执行应用程序的main()方法，创建SparkContext对象（负责与Spark集群进行交互），提交Spark作业，并将作业转化为Task（一个作业由多个Task任务组成），然后在各个Executor进程间对Task进行调度和监控。

2024-06-17 09:48:26 1995

原创【电商实战Hadoop实现——Day8】

这个项目旨在分析电商日志文件，包括统计页面浏览量和各个省份的浏览量，并进行 ETL 操作提取关键字段。通过这个项目，我们了解到了数据分析的基本流程和方法，以及如何从大量数据中提取有价值的信息。在实施过程中，需要选择合适的工具和技术来处理数据，并注意数据的准确性和完整性。同时，也体会到了 ETL 操作在数据处理中的重要性，它可以帮助我们更好地理解和利用数据，为决策提供支持。

2024-06-13 15:59:17 380

原创【电商实战Hadoop实现--Day7】

ETL（Extract, Transform, Load）操作在数据处理过程中起着关键的作用。其目的是将数据从来源端进行抽取、转换，并最终加载到目标端。之所以要进行 ETL，是因为并非所有数据都需要被解析，只需提取有价值的字段即可。在本项目中，需要解析出的重要字段包括：IP 地址、URL、页面 ID（与主题 ID 相对应的页面 ID）、国家、省份、城市。解析这些有价值的字段有助于提高数据处理的效率和准确性。

2024-06-13 15:38:39 409

原创【电商实战Hadoop实现--Day5】

/ Driver端的代码：八股文// 如果输出目录已经存在，则先删除//需求2// 添加一个无参构造函数@Override@Override// 添加一个无参数构造函数@Overridecount++;使用MapReduce方法实现对各省份浏览量的统计。

2024-06-12 15:58:38 368

原创【电商实战Hadoop实现——Day4】

在当今竞争激烈的电商市场中，用户体验和精准营销是企业取得成功的关键因素。而页面浏览量作为用户行为的重要指标，扮演着至关重要的角色。

2024-06-11 23:51:04 1967

原创【手机流量分析项目生产实习——Day3】

针对大规模的手机流量日志数据进行统计和分析。在很多互联网企业或电信运营商中，会有海量的手机流量日志数据产生，需要对这些数据进行处理和分析，以便了解用户的行为、优化网络性能、制定营销策略等。为了高效地处理这些海量数据，通常会采用分布式计算框架，比如Hadoop，来进行数据处理和分析。MapReduce作为Hadoop的核心编程模型，非常适合用于这种大规模数据的统计和分析任务。

2024-06-05 22:38:20 373 1

原创【Hadoop伪集群安装——生产实习Day1】

（12）修改 start-yarn.sh文件（在hadoop-3.2.0/sbin目录下），在文件前面增加如下内容。（13）修改stop-yarn.sh 文件（在hadoop-3.2.0/sbin目录下），在文件前面增加如下内容。（10）修改start-dfs.sh文件（在hadoop-3.2.0/sbin目录下），在文件前面增加如下内容。（11）修改stop-dfs.sh文件（在hadoop-3.2.0/sbin目录下），在文件前面增加如下内容。

2024-06-05 22:18:34 1892 1

原创【手机流量分析项目——生产实习Day2】

我是一名计算机学院大三学生。本文将分享我的实习第二天的经历和所获得的收获。

2024-06-04 21:38:48 366 1

weixin_63192724的博客