排序:
默认
按更新时间
按访问量

hive简单数据分析实验

将一个英文的短篇小说Alice上传到hdfs上,计算每个单词出现的次数查看文件,只显示5条(line);把每个单词分开,因为段落是用空行分割,所用使用条件去除,只显示5条;...

2018-04-22 20:17:08

阅读数:51

评论数:0

Spark SQL 和 DataFrames

Spark SQL 和 DataFramesSpark SQL 是 Spark 内嵌的模块,用于结构化数据。在 Spark 程序中可以使用 SQL 查询语句或 DataFrame API。DataFrames 和 SQL 提供了通用的方式来连接多种数据源,支持 Hive、Avro、Parquet、...

2018-04-22 18:56:12

阅读数:33

评论数:0

Spark SQL入门用法与原理分析

sparkSQL是为了让开发人员摆脱自己编写RDD等原生Spark代码而产生的,开发人员只需要写一句SQL语句或者调用API,就能生成(翻译成)对应的SparkJob代码并去执行,开发变得更简洁一. APISpark SQL的API方案:3种SQLthe DataFrames APIthe Dat...

2018-04-22 18:36:49

阅读数:18

评论数:0

安装hive,并连接mysql

安装hive:将hive文件传输到Linux中hadoop用户目录下,然后将其解压至opt目录中解压好后进入其目录中,在一个conf目录下找到hive-default.xml.template这个文件,将其复制并改名为hive-site.xml后进入修改 配置元数据库地址找name  改value...

2018-04-15 19:24:39

阅读数:88

评论数:0

在centos7中安装mysql

  切换root去mysql官网:https://dev.mysql.com/downloads/repo/yum/   下载第一个下载完执行:rpm -Uvh mysql57-community-release-el7-11.noarch.rpm 下一步安装mysql:yum install m...

2018-04-15 18:55:14

阅读数:26

评论数:0

spark面试问题收集

spark面试问题1、spark中的RDD是什么,有哪些特性RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。 Dataset:就是一个集合,用于存放数据的Distribute...

2018-04-15 16:06:48

阅读数:2953

评论数:1

hadoop的三大核心组件之HDFS和YARN

Hadoop的三大核心组件之HDFS和YARNHadoop集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起。(1)HDFS集群:负责海量数据的存储,集群中的角色主要有 NameNode / DataNode/SecondaryNameNode。(2)YARN集...

2018-04-15 16:01:02

阅读数:437

评论数:1

hdfs的文件读取与写入流程

HDFS客户端文件读取过程如下:应用程序通过HDFS客户端向NameNode发生远程调用请求。NameNode收到请求之后,返回文件的块列表信息。块列表信息中包含每个block拷贝的datanode地址。HDFS 客户端会选择离自己最近的那个拷贝所在的datanode来读取数据。数据读取完成以后,...

2018-04-15 15:59:47

阅读数:47

评论数:0

spark数据分析(3)

combineByKey(createCombiner,mergeValue,mergeCombiners)    createCombiner: combineByKey() 会遍历分区中的所有元素,因此每个元素的键要么还没有遇到过,要么就 和之前的某个元素的键相同。如果这是一个新的元素, co...

2018-04-08 22:47:00

阅读数:30

评论数:0

spark数据分析(2)

首先来理解(0,0)这个初始值:说明aggregate()方法会返回一个元组,而因为是分布式集群来进行分析,所以第一个lambda表达式是每个worker所执行的,比如我们有三个worker,那么他们得到的结果分别是:(14,2);(8,2);(14,2)。而第二个lambda表达式则是drive...

2018-04-03 22:31:57

阅读数:55

评论数:1

spark数据分析

首先要运行spark,加载 py4j,执行shell.py  初始化 spark sc(SparkContext)编写处理rdd的代码代码分两类一类叫driver的代码  driver只有一个一类叫worker的代码  worker有多个 worker的代码有两类算子(操作operate) 变换 ...

2018-04-01 20:49:42

阅读数:85

评论数:0

hadoop(单机伪分布式) pyspark(Anaconda)

学习Hadoop前的准备工作:1.网络 主机名称 主机映射目前是动态IP,所以需要配置IP地址为静态IP/etc/sysconfig/network-scripts ll | grep ifcfg-ens33可查看此文件的权限,只能在root下更改vi ifcfg-ens33:BOOTPROTO=...

2018-03-27 21:10:45

阅读数:32

评论数:0

Linux

第一个符号之后的所有符号都表示的是与权限相关的信息每三位一组rwx   表示拥有者的权限---   表示组的权限---.  表示其它人或组的权限每一组里的三个字符的意义第一个表示读  r   4第二个表示写  w   2第三个表示执行 x   1修改权限时:chmod num1num2num3  ...

2018-03-22 19:22:27

阅读数:19

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭