![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
老师笔记
文章平均质量分 93
整理笔记,自己看的,请勿订购
最美不过你回眸
这个作者很懒,什么都没留下…
展开
-
pyspark安装和使用
PySpark笔记PySpark:Python on Spark基于python语言,使用spark提供的pythonAPI库,进行spark应用程序的编程==============================================================一、搭建PySpark的环境1.windows上进行pyspark环境配置步骤:-1.在windows上搭...原创 2020-03-11 17:19:01 · 2027 阅读 · 0 评论 -
kafka笔记
Kafka笔记kafka我们称之为中间件Kafka官网:http://kafka.apache.org/Kafka的文档:http://kafka.apache.org/0110/documentation.html使用的版本:Kafka_2.11-0.11.0.1Kafka® is used for building real-time data pipelines and strea...原创 2020-03-10 18:05:04 · 747 阅读 · 0 评论 -
spark-sql笔记
SparkSQL:1.sparksql可以和hive集成问题1:sparksql什么时候和hive集成?答:当开发者需要使用sparksql来代替mapreduce,去计算hive中的表的时候,就需要集成hive。(mapreduce计算太慢了,所以我们采用sparksql去访问hive,来达到提供计算效率的目的)问题2:如何和hive集成?SparkSQL和hive集成的步骤:hiv...原创 2020-03-10 18:02:39 · 564 阅读 · 0 评论 -
spark-streaming笔记
SparkStreaming笔记框架的类型:1.离线批处理:mapreduce、hive、SparkCore、Sparksql =》 mapreduce spark2.SQL的交互式查询:hive、SparkSQL3.流式框架:flume、kafka、SparkStreaming4.实时计算:SparkStreamingStrom(Clojure编写的)/jStrom(java编...原创 2020-03-10 18:00:17 · 397 阅读 · 0 评论 -
spark-streaming笔记
SparkStreaming笔记=================================================================框架的类型: 1.离线批处理:mapreduce、hive、SparkCore、Sparksql =》 mapreduce spark 2.SQL的交互式查询:hive、SparkSQL 3.流式框架:flume、kafk...原创 2020-03-10 17:29:03 · 260 阅读 · 0 评论 -
kafka的安装
Kafka笔记=====================================================================kafka我们称之为中间件Kafka官网:http://kafka.apache.org/Kafka的文档:http://kafka.apache.org/0110/documentation.html使用的版本:Kafka_2.11-0...原创 2020-03-04 14:56:20 · 80 阅读 · 0 评论 -
scala-Spark课堂笔记3
第三天笔记一、闭包1.定义:闭包是一个函数返回值依赖声明在函数外部的一个或多个变量2.实例package Day.Day3object app { def main(args: Array[String]): Unit = { val factor = 3 def mul(n:Int): Int ={ n * factor } }}二...原创 2020-02-12 17:31:19 · 281 阅读 · 0 评论 -
hadoop-day02-hdfs机制及mr开发
1 HDFS机制namenode 负责元数据的管理 处理client的读写的请求datanode 数据块本身 数据块的元数据(数据块的长度,块数据的校验和,以及时间戳)心跳namenode启动后,datanode向namenode进行注册,然后周期性的发送心跳信号;心跳是每3秒一次,心跳返回结果带有NameNode给该DataNode的命令;比如删除块...原创 2020-01-16 20:11:42 · 159 阅读 · 0 评论 -
hadoop的安装和介绍
1 大数据1.1 大数据概念大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。1.2 大数据的特征Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值高、价值密度低)、Veracity...原创 2020-01-16 20:09:39 · 152 阅读 · 0 评论 -
oozie安装及使用
oozie (会用!) 任务调度框架 当一个项目中出现多个shell、MapReduce、hql、sqoop类型的任务时 并且这些任务之前存在一种依赖关系时,需要借助专业的任务调度框架完成任务流的定义控制 oozie可以实现 多个任务执行的顺序控制 job1->job2->job3/job4->job7 .. 多个任务组成的一个任务流的执行频...原创 2020-01-06 18:38:11 · 390 阅读 · 0 评论 -
Hue安装及使用
hue框架 (会用)**cloudera公司开源 http://archive.cloudera.com/cdh5/cdh/5/hue-3.9.0-cdh5.14.2/大数据的web工具,hue为其他以hadoop为基础的生态圈中的几乎所有的框架通过了一个基于web-ui平台的统一的操作或监控平台 通过hue的web平台可以对其他的框架进行哪些操作呢 hdfs 可以对hdfs...原创 2020-01-06 17:57:51 · 797 阅读 · 0 评论 -
hadoop环境配置
1 大数据1.1 大数据概念大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。1.2 大数据的特征Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值高、价值密度低)、Veracity...原创 2019-12-18 18:37:46 · 172 阅读 · 0 评论