- 博客(5)
- 收藏
- 关注
原创 linux wget报错:错误: 无法验证 curl.se 的由 “CN=R3,O=Let‘s Encrypt,C=US” 颁发的证书: 颁发的证书已经过期
使用wget命令下载安装包时出现错误:wget https://curl.haxx.se/download/curl-7.55.1.tar.gz无法验证 curl.se 的由 “CN=R3,O=Let’s Encrypt,C=US” 颁发的证书: 颁发的证书已经过期解决办法:要以不安全的方式连接至 curl.se,使用 --no-check-certificatewget --no-check-certificate https://curl.haxx.se/download/curl-7.
2022-01-07 10:10:37
3774
原创 Spark读取csv文件,存在换行符,无法读取完整一行数据#解决方案
在使用Spark读取csv文件时,文件中数据存在换行符,导致读出的数据非一行完整的数据,可使用spark中option参数解决import org.apache.spark.sql.SparkSessionobject TestFor { def main(args: Array[String]): Unit = { val session = SparkSession.builder().master("local[*]").appName(" ").getOrCreate()
2021-12-21 18:24:16
3749
原创 HBase必备知识点
Hbase是基于HDFS的面向列的分布式数据库,用于海量结构化数据存储。内部的文件全部存储在HDFS上HBase中表的特点:1 大,一个表可以有几十亿行,上百万列2 面向列,面向列族的存储和权限控制,列簇的独立检索3 稀疏,对于为空的列,并不占据空间,因此表的设计可以非常稀疏4 无模式,每行又有一个可排序的主键和任意多的列,列可以根据需要动态的添加,同一张表不同的行可以使用不同的列Hb...
2020-03-04 00:13:19
328
原创 flume必备知识点
Flume是一个分布式、可靠、高可用的海量日志聚合系统。从整体上看就是source-channel-sink三层架构。类似于生产者和消费者的架构,他们之间通过channel传输解耦。Agent:flume以agent作为最小的独立运行单位。一个agent就是一个JVM。由source、channel、sink三大构建组成。Flume支持用户建立多级流,多个agent可以协同工作Source:捕...
2020-03-02 21:14:19
444
原创 HDFS必备知识点
Hadoop中的组件:HDFS、MapReduce、Yarn、Hive、Hbase、zookeeper、Sqoop、flume、yarn、pig、mahout其它开源组件:impala、spark、storm、kafka、redis、flink等Hdfs:分布式文件存储系统主节点:namenode,secondarynamenodeNamenode:保存HDFS上元数据的信息:命名空间信...
2020-03-02 18:21:40
365
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人