![](https://img-blog.csdnimg.cn/20200217183805243.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据框架
hadoop spark
劫径
这个作者很懒,什么都没留下…
展开
-
HBase数据库 及 HappyBase库
概念数据模型原理HMaster 服务器RegionServer表储存读数据流程REST ServerHBase Shellscan 限制查询happybaseConnection 连接HBasetables() 返回此HBase实例中表名列表create_table 新建表delete_table 删除表禁用和解禁表table 创建表对象原创 2020-06-05 22:53:01 · 1038 阅读 · 0 评论 -
Hive
Hive简介组件CLI 操作数据类型数据库操作表操作加载导出数据数学函数聚合函数表生成函数字符函数时间函数自定义函数排序(ORDER BY 和 SORT BY)CLUSTER BY、DISTRIBUTE BY、SORT BY分页(limit)起别名(as)去重(distinct)分组查询(group by)case表达式联表查询动态分区原创 2020-05-25 20:57:22 · 829 阅读 · 0 评论 -
Kafka 分布式消息对列
Kafka 分布式消息对列 概述整体结构zookeeper安装kafka安装创建集群Kafka python API创建生产者创建消费者Kafka-python Demo原创 2020-04-03 20:02:45 · 330 阅读 · 0 评论 -
Spark框架 及 pyspark库
简介开启sparkspark-core(RDD)使用步骤RDD的 常用算子transformationactionpersistSpark SQL (DataFrame)DataFrame简介、创建和分类数据清洗案例数据去重缺失值处理异常值处理Spark-Streaming原创 2020-02-14 18:15:30 · 901 阅读 · 0 评论 -
hadoop 分布式文件管理系统
概念组成HDFS 分布式文件系统HDFS环境搭建HDFS shell操作YARN 资源管理系统YARN 框架YARN执行流程YARN 环境搭建MapReduce 分布式处理框架MapReduce原理详解MapReduce Python 操作MapReduce框架局限及代替框架HAdoop漫画Hadoop 读写流程 、 容错机制 和 副本分派规则原创 2020-02-16 18:54:36 · 453 阅读 · 0 评论 -
Flume 分布式日志收集系统
Flume 分布式日志收集系统概述运行机制安装部署使用配置文件书写Source选型Channel选型Sink选型系统结构图Flume 拦截器(时间戳、静态、正太筛选、UUID、主机)Flume优化(负载均衡、故障转移)原创 2020-04-01 18:44:34 · 489 阅读 · 0 评论