自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 【大数据处理学习笔记】2.4 IDEA开发词频统计项目

执行命令:spark-submit --master spark://master:7077 --deploy-mode cluster --class net.huawei.rdd.WordCount --driver-memory 512m --executor-memory 1g --executor-cores 2 hdfs://master:9000/park/SparkRDDWordCount.jar。hdfs://master:9000/wc/output:统计结果的输出路径。

2023-06-16 20:21:23 353

原创 【大数据处理学习笔记】2.3 Spark运行架构与原理

Spark有多种运行模式,可以运行在一台机器上,称为本地(单机)模式,也可以以YARN或Mesos作为底层资源调度系统以分布式的方式在集群中运行,称为Spark On YARN模式,还可以使用Spark自带的资源调度系统,称为Spark Standalone模式。Driver进程向Cluster Manager申请资源,Cluster Manager接收到Application的注册请求后,会使用自己的资源调度算法,在Spark集群的Worker节点上,通知Worker为应用启动多个Executor。

2023-06-16 20:16:25 226

原创 【大数据处理学习笔记】2.2 搭建Spark开发环境

Executor为应用程序运行在Worker节点上的一个进程,由Worker进程启动,负责执行具体的Task,并存储数据在内存或磁盘上。Spark-Shell是一个强大的交互式数据分析工具,初学者可以很好的使用它来学习相关API,用户可以在命令行下使用Scala编写Spark程序,并且每当输入一条语句,Spark-Shell就会立即执行语句并返回结果,这就是我们所说的REPL(Read-Eval-Print Loop,交互式解释器),Spark-Shell支持Scala和Python。

2023-06-16 20:15:30 762

原创 【大数据处理学习笔记】2.1 初识Spark

另一方面,优酷土豆的视频推荐往往涉及机器学习及图计算,而使用Spark解决机器学习、图计算等迭代计算能够大大减少网络传输、数据落地等的次数,极大地提高了计算性能。淘宝技术团队使用了Spark来解决多次迭代的机器学习算法、高计算复杂度的算法等,将Spark运用于淘宝的推荐相关算法上,同时还利用GraphX解决了许多生产问题,包括以下计算场景:基于度分布的中枢节点发现、基于最大连通图的社区发现、基于三角形计数的关系衡量、基于随机游走的用户属性传播等。而Spark在计算时产生的中间结果存储在内存中。

2023-06-16 20:14:33 183

原创 【大数据处理学习笔记】1.8 掌握Scala函数

如果在函数定义时,如果用到了上下文中的变量,则函数的具体执行将会和该变量的值具有了相关性,即这个函数包含了外部该变量的引用,这个过程称之为函数的闭包。甚至在一些极端情况下,变量所在的环境已经被释放,但是由于函数中包含对它的引用,变量依然会存在,阻止了对象的释放,造成内存泄露的问题。函数体中return关键字往往可以省略掉,一旦省略掉,函数将会返回整个函数体中最后一行表达式的值,这也要求整个函数体的最后一行必须是正确类型的值的表达式。注意,Java是不允许函数嵌套的,但是Scala是允许的。

2023-06-16 20:11:25 71

原创 【大数据处理学习笔记】1.7 掌握Scala类、对象、抽象类与特质

说明:实例化Dog时,传入的参数是""与0,但是会执行类里的两个给成员变量赋值的语句,于是name成了瑞瑞,age成了5,于是调用对象的speak()方法,会输出我叫瑞瑞,今年5岁了~。类被称为该对象的伴生类。def speak(): Unit = println("我叫" + name + "," + gender + ",今年" + age + "岁了~")println("我叫" + name + ",今年" + age + "岁,家住" + address + ",擅长讲课与翻译~" )

2023-06-16 20:06:36 65

原创 【大数据处理学习笔记】1.6 掌握Scala数据结构

ArrayBuffer的API文档:https://www.scala-lang.org/api/current/scala/collection/mutable/ArrayBuffer.html。创建整型可变空列表,添加1、3、5、7四个元素,在5和7之间插入元素6,移除开头的1、3两个元素,统计列表元素总和、最大值和最小值,最后将列表降序输出。关于Set的API文档:https://www.scala-lang.org/api/current/scala/collection/Set.html。

2023-06-16 20:02:55 115

原创 【大数据处理学习笔记】1.5 掌握Scala内建控制结构

注意不会是finally的返回值,finally即使有返回值,也会被抛弃,这点和Java是不同的。for循环语句本身的返回值是Unit类型,无论在循环体中返回什么都是无效的,最终得到的都是Unit的值,但是可以在循环中的循环条件和循环体之间加上yield关键字,那么就可以将循环体产生的返回值组成数组进行返回。我们把mx()方法里的抛出异常的语句注释掉,此时程序正常运行,但是test()方法的返回值不会是恭喜,程序运行正常~,还是会被finally语句块的返回值覆盖,成为无论如何,程序结束~

2023-06-16 19:49:15 32

原创 【大数据处理学习笔记】1.4 掌握Scala运算符

例如:3 + 2 * 5,我们期望获得的是13,但是根据Scala特点,Scala中所有运算符其实就是方法,那么按照这种说法,表达式应该等同于(3).+(2) 得到5,(5).*(5) 得到25,与我们的预期不符!由于Scala并没有真正的运算符,运算符其实是方法的一种形式,所以此处运算符的优先级,其实就是指方法的优先级。Scala中,如果是基本数据类型,==与!-1等同于1.unary_-,前缀运算符如同中缀运算符一样,也是方法调用的另一种方式,不同的是,方法名要在符号前加上前缀unary_。

2023-06-16 19:42:14 62

原创 【大数据处理学习笔记】1.3 使用Scala集成开发环境

在包net.huawei.day01上右击,选择New→Scala Class,选择创建Object,创建一个Scala对象TestHelloWorld,在里面创建主方法,实例化HelloScala,然后调用其speak()方法。在IDEA的欢迎界面中单击Create New Project按钮,在弹出的窗口中选择左侧的Scala项,然后选择右侧的IDEA项,单击Next按钮。Scala类创建成功后,即可编写Scala程序,定义一个没有返回值的speak()方法,用来输出一条信息。我们学习在线安装方式。

2023-06-16 19:21:41 67

原创 我的期末总结

Spark提供了Java、Scala、Python和R语言的开发API,支持一组丰富的高级工具,包括使用SQL进行结构化数据处理的SparkSQL,用于机器学习的MLlib,用于图处理的GraphX,以及用于实时流处理的Spark Streaming。从Spark的上手到最后的项目,整个过程我一路磕磕绊绊的时常遇到一些奇怪的问题,但是好在寻求了老师和同学们的帮助,都得到了解决,半学期的学习结束了,但我还需要继续花时间去学习,尤其是Hadoop的知识点,结合两者的实际应用去体会不同。

2023-06-05 13:14:02 43

原创 【大数据处理学习笔记】1.2 Scala变量与数据类型

定义变量需要初始化,否则会报错。注意:Java里可以先声明变量,然后再赋值定义变量时可以不指定数据类型,系统会根据初始化值自动推断变量的类型。注意:Java声明变量必须指定类型。

2023-05-11 08:37:17 86

原创 【大数据处理学习笔记】1.1 搭建Scala开发环境

一、Windows上安装Scala(一)到Scala官网下载Scala。

2023-03-16 08:42:35 177

原创 【大数据清洗和预处理】1.8HDFS的shell操作(2)(学习笔记)

学习笔记

2022-11-25 00:05:05 705

原创 【大数据清洗和预处理】1.8HDFS的shell操作(学习笔记)

学习笔记

2022-11-17 17:26:58 772

原创 【大数据清洗和预处理】1.7Hadoop集群测试(学习笔记)

学习笔记

2022-11-09 08:34:27 139

原创 【大数据清洗和预处理】1.6Hadoop集群配置(学习笔记)

学习笔记

2022-11-09 08:25:01 895

原创 【大数据清洗和预处理】1.5Hadoop部署模式(学习笔记)

学习笔记

2022-11-04 11:40:36 91

原创 【大数据清洗和预处理】1.4Hadoop安装准备(学习笔记)

学习笔记

2022-10-20 19:23:28 457

原创 【大数据清洗和预处理】1.2Linux用户操作(学习笔记)

【大数据清洗和预处理】1.2Linux用户操作(学习笔记)

2022-10-13 23:48:15 398

原创 【大数据清洗和预处理】1.3Linux用户操作(学习笔记)

学习笔记

2022-10-13 20:13:54 485

原创 【大数据清洗和预处理】1.1 在VMWzare上安装CentOS7(学习笔记)

学习笔记记录消息

2022-09-22 23:39:34 621

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除