大数据技术栈
文章平均质量分 58
zhang35
-
简单理解parquet文件格式——按列存储和元数据存储
简介Apache Parquet是一种常见的列式存储文件格式,常用于Pig, Spark, Hive等大数据组件中,其后缀是.parquet。核心特点有:跨平台可被各种文件系统识别的格式按列存储数据存储元数据下面详细介绍第3、4个特点。列式存储假设有以下数据表:#> id name age#> <int> <chr> <dbl>#> 1 1 n1 20#> 2 2 n2原创 2022-01-03 11:12:56 · 8162 阅读 · 0 评论 -
sql的7种join
转自:https://www.runoob.com/sql/sql-join.html原创 2021-06-07 06:58:54 · 106 阅读 · 0 评论 -
Coursera课程Big Data Analysis with Scala and Spark Week 1笔记
Coursera上的spark课程笔记。spark为什么快把尽可能多的不可变数据存到内存里,记录对数据的一系列操作。如果某个节点出现问题,重新执行一遍操作即可还原结果,无需太多的磁盘操作。这就是它的容错思路。RDD大数据的hello world程序:word countval rdd = spark.textFile("hdfs://...")val count = rdd.flatMap(line => line.split(" ")) .map(word => (原创 2021-05-30 10:21:48 · 345 阅读 · 2 评论 -
mac启动sbt错误class is broken解决方法
在Mac上启动sbt时报错:error: error while loading String, class file '/modules/java.base/java/lang/String.class' is broken(class java.lang.NullPointerException/null)[error] java.io.IOError: java.lang.RuntimeException: /packages cannot be represented as URI...原创 2021-05-26 07:18:29 · 472 阅读 · 0 评论 -
Hadoop学习笔记(一)分布式文件存储系统 —— HDFS
概念HDFS (Hadoop Distributed File System),Hadoop分布式文件系统,用来存超大文件的。HDFS 遵循主/从架构,由单个 NameNode(NN) 和多个 DataNode(DN) 组成:NameNode : 负责执行有关 文件系统命名空间 的操作,例如打开,关闭、重命名文件和目录等。它同时还负责集群元数据的存储,记录着文件中各个数据块的位置信息。管理员,负责协调。DataNode:负责提供来自文件系统客户端的读写请求,执行块的创建,删除等操作。打工人,负责存原创 2020-11-12 17:08:10 · 822 阅读 · 1 评论