学习笔记
Diego_zh
学习就是认识新观念和新想法的过程。假如人们始终以同一种思维方式来考虑问题的话,那么始终只会得到同样的结果。
展开
-
Flume与Kafka区别与联系【学习笔记】
区别:Flume (Apache 日志收集系统),主要功能就是收集同步数据源的数据,并将数据保存到持久化系统中,适合数据来源比较广,数据收集结构比较固定的场景; Kafka (Apache 分布式消息系统),主要是作为一个中间件系统的方式存在,适合高吞吐量和负载的情况,可以作为业务系统中的缓存、消息通知系统、数据收集等场景。为什么还需要Flume作为日志收集系统?主要原因:Kafka ...原创 2019-06-15 22:23:52 · 1526 阅读 · 0 评论 -
什么是 RDD?【学习笔记】
一、什么是 RDD(从源码解读)1、A Resilient Distributed Dataset (RDD), the basic abstraction in Spark.RDD 弹性分布式数据集,是 Spark 中的最基本抽象。✓ Resilient ==> 指的是RDD的分区(代表着RDD数据分为几份)数量是可以进行弹性控制的;✓ Distributed ==>...原创 2019-06-15 23:13:47 · 544 阅读 · 0 评论 -
Spark SQL 与 Hive 的区别简介【学习笔记】
一、什么是Spark SQL? (官方定义)Spark SQL* A Spark module for structured data processing(known set of fields for each record - schema) ;1. Spark SQL是Spark中专门用来处理结构化数据(每一行数据都遵循Schema信息 —— 建表时表的字段及其 ...原创 2019-06-16 17:06:07 · 17858 阅读 · 3 评论 -
Hive常用字符串函数
转载自 过往记忆(https://www.iteblog.com/)本文链接:【Hive常用字符串函数】(https://www.iteblog.com/archives/1639.html)Hive内部提供了很多操作字符串的相关函数,本文将对其中部分常用的函数进行介绍。下表为Hive内置的字符串函数,具体的用法可以参见本文的下半部分。返回类型 函数名 描述...转载 2019-09-23 18:26:00 · 684 阅读 · 0 评论