- 博客(5)
- 收藏
- 关注
原创 linux wget报错:错误: 无法验证 curl.se 的由 “CN=R3,O=Let‘s Encrypt,C=US” 颁发的证书: 颁发的证书已经过期
使用wget命令下载安装包时出现错误: wget https://curl.haxx.se/download/curl-7.55.1.tar.gz 无法验证 curl.se 的由 “CN=R3,O=Let’s Encrypt,C=US” 颁发的证书: 颁发的证书已经过期 解决办法:要以不安全的方式连接至 curl.se,使用 --no-check-certificate wget --no-check-certificate https://curl.haxx.se/download/curl-7.
2022-01-07 10:10:37 3494
原创 Spark读取csv文件,存在换行符,无法读取完整一行数据#解决方案
在使用Spark读取csv文件时,文件中数据存在换行符,导致读出的数据非一行完整的数据,可使用spark中option参数解决 import org.apache.spark.sql.SparkSession object TestFor { def main(args: Array[String]): Unit = { val session = SparkSession.builder().master("local[*]").appName(" ").getOrCreate()
2021-12-21 18:24:16 3324
原创 HBase必备知识点
Hbase是基于HDFS的面向列的分布式数据库,用于海量结构化数据存储。内部的文件全部存储在HDFS上 HBase中表的特点: 1 大,一个表可以有几十亿行,上百万列 2 面向列,面向列族的存储和权限控制,列簇的独立检索 3 稀疏,对于为空的列,并不占据空间,因此表的设计可以非常稀疏 4 无模式,每行又有一个可排序的主键和任意多的列,列可以根据需要动态的添加,同一张表不同的行可以使用不同的列 Hb...
2020-03-04 00:13:19 244
原创 flume必备知识点
Flume是一个分布式、可靠、高可用的海量日志聚合系统。从整体上看就是source-channel-sink三层架构。类似于生产者和消费者的架构,他们之间通过channel传输解耦。 Agent:flume以agent作为最小的独立运行单位。一个agent就是一个JVM。由source、channel、sink三大构建组成。Flume支持用户建立多级流,多个agent可以协同工作 Source:捕...
2020-03-02 21:14:19 373
原创 HDFS必备知识点
Hadoop中的组件: HDFS、MapReduce、Yarn、Hive、Hbase、zookeeper、Sqoop、flume、yarn、pig、mahout 其它开源组件:impala、spark、storm、kafka、redis、flink等 Hdfs:分布式文件存储系统 主节点:namenode,secondarynamenode Namenode:保存HDFS上元数据的信息:命名空间信...
2020-03-02 18:21:40 312
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人