闷得儿蜜的啊秋呀-CSDN博客

原创【大数据处理学习笔记】2.4 IDEA开发词频统计项目

执行命令：spark-submit --master spark://master:7077 --deploy-mode cluster --class net.huawei.rdd.WordCount --driver-memory 512m --executor-memory 1g --executor-cores 2 hdfs://master:9000/park/SparkRDDWordCount.jar。hdfs://master:9000/wc/output：统计结果的输出路径。

2023-06-16 20:21:23 353

原创【大数据处理学习笔记】2.3 Spark运行架构与原理

Spark有多种运行模式，可以运行在一台机器上，称为本地（单机）模式，也可以以YARN或Mesos作为底层资源调度系统以分布式的方式在集群中运行，称为Spark On YARN模式，还可以使用Spark自带的资源调度系统，称为Spark Standalone模式。Driver进程向Cluster Manager申请资源，Cluster Manager接收到Application的注册请求后，会使用自己的资源调度算法，在Spark集群的Worker节点上，通知Worker为应用启动多个Executor。

2023-06-16 20:16:25 226

原创【大数据处理学习笔记】2.2 搭建Spark开发环境

Executor为应用程序运行在Worker节点上的一个进程，由Worker进程启动，负责执行具体的Task，并存储数据在内存或磁盘上。Spark-Shell是一个强大的交互式数据分析工具，初学者可以很好的使用它来学习相关API，用户可以在命令行下使用Scala编写Spark程序，并且每当输入一条语句，Spark-Shell就会立即执行语句并返回结果，这就是我们所说的REPL（Read-Eval-Print Loop，交互式解释器），Spark-Shell支持Scala和Python。

2023-06-16 20:15:30 762

原创【大数据处理学习笔记】2.1 初识Spark

另一方面，优酷土豆的视频推荐往往涉及机器学习及图计算，而使用Spark解决机器学习、图计算等迭代计算能够大大减少网络传输、数据落地等的次数，极大地提高了计算性能。淘宝技术团队使用了Spark来解决多次迭代的机器学习算法、高计算复杂度的算法等，将Spark运用于淘宝的推荐相关算法上，同时还利用GraphX解决了许多生产问题，包括以下计算场景：基于度分布的中枢节点发现、基于最大连通图的社区发现、基于三角形计数的关系衡量、基于随机游走的用户属性传播等。而Spark在计算时产生的中间结果存储在内存中。

2023-06-16 20:14:33 183

原创【大数据处理学习笔记】1.8 掌握Scala函数

如果在函数定义时，如果用到了上下文中的变量，则函数的具体执行将会和该变量的值具有了相关性，即这个函数包含了外部该变量的引用，这个过程称之为函数的闭包。甚至在一些极端情况下，变量所在的环境已经被释放，但是由于函数中包含对它的引用，变量依然会存在，阻止了对象的释放，造成内存泄露的问题。函数体中return关键字往往可以省略掉，一旦省略掉，函数将会返回整个函数体中最后一行表达式的值，这也要求整个函数体的最后一行必须是正确类型的值的表达式。注意，Java是不允许函数嵌套的，但是Scala是允许的。

2023-06-16 20:11:25 71

原创【大数据处理学习笔记】1.7 掌握Scala类、对象、抽象类与特质

说明：实例化Dog时，传入的参数是""与0，但是会执行类里的两个给成员变量赋值的语句，于是name成了瑞瑞，age成了5，于是调用对象的speak()方法，会输出我叫瑞瑞，今年5岁了~。类被称为该对象的伴生类。def speak(): Unit = println("我叫" + name + "，" + gender + "，今年" + age + "岁了~")println("我叫" + name + "，今年" + age + "岁，家住" + address + "，擅长讲课与翻译~" )

2023-06-16 20:06:36 65

原创【大数据处理学习笔记】1.6 掌握Scala数据结构

ArrayBuffer的API文档：https://www.scala-lang.org/api/current/scala/collection/mutable/ArrayBuffer.html。创建整型可变空列表，添加1、3、5、7四个元素，在5和7之间插入元素6，移除开头的1、3两个元素，统计列表元素总和、最大值和最小值，最后将列表降序输出。关于Set的API文档：https://www.scala-lang.org/api/current/scala/collection/Set.html。

2023-06-16 20:02:55 115

原创【大数据处理学习笔记】1.5 掌握Scala内建控制结构

注意不会是finally的返回值，finally即使有返回值，也会被抛弃，这点和Java是不同的。for循环语句本身的返回值是Unit类型，无论在循环体中返回什么都是无效的，最终得到的都是Unit的值，但是可以在循环中的循环条件和循环体之间加上yield关键字，那么就可以将循环体产生的返回值组成数组进行返回。我们把mx()方法里的抛出异常的语句注释掉，此时程序正常运行，但是test()方法的返回值不会是恭喜，程序运行正常~，还是会被finally语句块的返回值覆盖，成为无论如何，程序结束~

2023-06-16 19:49:15 32

原创【大数据处理学习笔记】1.4 掌握Scala运算符

例如：3 + 2 * 5，我们期望获得的是13，但是根据Scala特点，Scala中所有运算符其实就是方法，那么按照这种说法，表达式应该等同于(3).+(2) 得到5，(5).*(5) 得到25，与我们的预期不符！由于Scala并没有真正的运算符，运算符其实是方法的一种形式，所以此处运算符的优先级，其实就是指方法的优先级。Scala中，如果是基本数据类型，==与!-1等同于1.unary_-，前缀运算符如同中缀运算符一样，也是方法调用的另一种方式，不同的是，方法名要在符号前加上前缀unary_。

2023-06-16 19:42:14 62

原创【大数据处理学习笔记】1.3 使用Scala集成开发环境

在包net.huawei.day01上右击，选择New→Scala Class，选择创建Object，创建一个Scala对象TestHelloWorld，在里面创建主方法，实例化HelloScala，然后调用其speak()方法。在IDEA的欢迎界面中单击Create New Project按钮，在弹出的窗口中选择左侧的Scala项，然后选择右侧的IDEA项，单击Next按钮。Scala类创建成功后，即可编写Scala程序，定义一个没有返回值的speak()方法，用来输出一条信息。我们学习在线安装方式。

2023-06-16 19:21:41 67

原创我的期末总结

Spark提供了Java、Scala、Python和R语言的开发API，支持一组丰富的高级工具，包括使用SQL进行结构化数据处理的SparkSQL，用于机器学习的MLlib，用于图处理的GraphX，以及用于实时流处理的Spark Streaming。从Spark的上手到最后的项目，整个过程我一路磕磕绊绊的时常遇到一些奇怪的问题，但是好在寻求了老师和同学们的帮助，都得到了解决，半学期的学习结束了，但我还需要继续花时间去学习，尤其是Hadoop的知识点，结合两者的实际应用去体会不同。

2023-06-05 13:14:02 43