- 博客(11)
- 收藏
- 关注
原创 PySpark核心编程(核心RDD API、核心原理)
11.0 为什么要使用RDD?🐰分布式计算需要:分区控制、shuffer控制、数据存储/序列化、发送、数据计算在分布式框架中,需要有一个统一的数据抽象对象来实现上述分布式计算所需的功能,这个数据抽象对象就是RDD1.1 RDD 是什么?-- 弹性分布式数据集R : 弹性 :数据可以存放在内存中也可以存储在磁盘中D :分布式 :分布式存储,用于分布式计算,RDD的数据是跨越机器存储(跨进程)D :数据集 :是一个数据的集合,用于存放数据 ( 类使用 list、Dict、array
2022-03-10 20:25:40 740
原创 Flume
1.0 Flume概述1.1 Flume 定义 Flume 是 一个高可用,高可靠的,分布式的海量日志采集、聚合和传输的系统 只能采集文本文档。Flume基于流式架构,灵活简单,是动态采集的。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yL6ZtDUf-1640089838539)(C:\Users\Administrator\Desktop\image-20211205133350590.png)] Flume最主要的作用就是,实时读取服务器本地磁盘的数据
2021-12-21 20:30:59 339
原创 Kafka
1.0 Kafka 概述1.1 kafka 定义Kafka 是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域。1.2 消息队列1.2.1 传统消息队列的应用场景使用消息队列的好处解耦(类似Spring的IOC)允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。可恢复性系统的一部分组件失效时,不会影响到整个系统。消息队列降低了进程间的耦合度,所以即使一个处理消息的进程挂掉,加入队列中的消息仍然可以在系统恢
2021-12-21 20:30:12 617
原创 Flink
package com.shtd.contest.streamingimport java.util.Propertiesimport com.shtd.contest.etl.extractjobimport org.apache.flink.api.common.serialization.SimpleStringSchemaimport org.apache.flink.streaming.api.functions.ProcessFunctionimport org.apache.fl
2021-12-21 20:23:09 1003 2
原创 S抽取Mysql
sq1.0 用Scala抽取Mysql指定数据到Hive的ODS层的指定分区表中object demo_extractjob { def main(args: Array[String]): Unit = { System.setProperty("HADOOP_USER_NAME", "root") val sparkBuilder = SparkSession.builder() if ((args.length > 0 && args(0).equ
2021-12-21 20:21:02 2135 2
原创 00001
1.0 Hadoop配置解压tar包配置环境变量配置文件hadoop-env.shexport JAVA_HOME=/usr/java/jdk.1.8.0_212core-site.xml<property> <name>fs.default.name<name> <value>hdfs://master:9000<property>hdfs-site.xml<property> <
2021-12-21 20:17:48 1251
原创 Comparator的使用
一、Comparator是什么?Comparator 是 java 中的接口,位于java.util包下。Comparator 这个接口代表一个比较器,具有可比性。1.1 什么时候用Comparator ?排序 : 比较两个对象谁前谁后分组 : 比较两个对象是否属于同一组1.2 实例例子:public class Test1(){ //main方法 public static void main(String[] args) { //设置一个泛型 List <In
2021-05-08 18:07:38 1273 1
原创 List接口的使用
一、什么是 List 接口?List 接口继承了 Collection 接口,称为有序集合,可以精确控制列表中每个元素的插入位置。通过整数索引获取列表中的元素。List 允许出现重复的值。实现 List 接口的常用类有 ArrayList 和 LinkedList。它们都可以容纳所有类型的对象,包括 null 。 允许重复,并且可保证元素的存储顺序。二、ArrayList 类ArrayList 支持可随需要而增长的动态数组。在 Java 数组中,长度是固定的,因此在数组被创建后,不能修改长
2021-05-05 20:26:05 331
原创 Java8新特性笔记
Java8的新特性:简介:Java8(又称为jdk 1.8)是Java语言开发的一个主要版本。Java8 是 Oracle公司于2014年3月发布,可以看成是自Java5以来最具革命性的版本。Java8为Java语言、编译器、类库、开发工具与JVM带来了大量的新特性。(1)Java8的作用:速度更快代码更少(增加了新的语法:Lambda表达式 )强大的 Stream API便于并行最大化减少空指针异常 :OptionalNashorn引擎,允许在JVM运行JS应用1.1 并
2021-04-15 06:31:27 1051 4
原创 2021 JAVA学习记录笔记(更新学习中)
第一章:“HelloWorld"//类名必须与文件名一致class HelloChina{ //main()方法如同JAVA程序的大门,一个程序只能有一个main方法。 public static void main(String[] args){ System.out.println("Hello,World!"); //ln代表行的意思 } }...
2021-03-19 17:06:00 796 4
原创 Win10的jdk15.0.2的下载和配置环境变量
首先下载jdk官网链接:https://www.oracle.com/java/technologies/javase-jdk15-downloads.html根据自己系统安装自己所需要的jdk
2021-03-03 13:55:45 4379 3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人