wyfly69-CSDN博客

原创 hive简单数据分析实验

将一个英文的短篇小说Alice上传到hdfs上，计算每个单词出现的次数查看文件，只显示5条（line）；把每个单词分开，因为段落是用空行分割，所用使用条件去除，只显示5条；...

2018-04-22 20:17:08 647

Spark SQL 和 DataFramesSpark SQL 是 Spark 内嵌的模块，用于结构化数据。在 Spark 程序中可以使用 SQL 查询语句或 DataFrame API。DataFrames 和 SQL 提供了通用的方式来连接多种数据源，支持 Hive、Avro、Parquet、ORC、JSON、和 JDBC，并且可以在多种数据源之间执行 join 操作。Spark SQL之所以...

2018-04-22 18:56:12 231

转载 Spark SQL入门用法与原理分析

sparkSQL是为了让开发人员摆脱自己编写RDD等原生Spark代码而产生的，开发人员只需要写一句SQL语句或者调用API，就能生成（翻译成）对应的SparkJob代码并去执行，开发变得更简洁一. APISpark SQL的API方案：3种SQLthe DataFrames APIthe Datasets API.但会使用同一个执行引擎the same execution engine is u...

2018-04-22 18:36:49 288

原创安装hive，并连接mysql

安装hive：将hive文件传输到Linux中hadoop用户目录下，然后将其解压至opt目录中解压好后进入其目录中，在一个conf目录下找到hive-default.xml.template这个文件，将其复制并改名为hive-site.xml后进入修改配置元数据库地址找name 改value第一个：（找不到的话就按n）/javax.jdo.option.ConnectionURLjdbc:m...

2018-04-15 19:24:39 573

原创在centos7中安装mysql

切换root去mysql官网：https://dev.mysql.com/downloads/repo/yum/ 下载第一个下载完执行：rpm -Uvh mysql57-community-release-el7-11.noarch.rpm 下一步安装mysql：yum install mysql-community-server -y修改关闭密码验证ALTER USER 'root'@'...

2018-04-15 18:55:14 156

转载 spark面试问题收集

spark面试问题1、spark中的RDD是什么，有哪些特性RDD（Resilient Distributed Dataset）叫做分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。 Dataset：就是一个集合，用于存放数据的Distributed：分布式，可以并行在集群计算Resilient：表示弹性的弹性表示 1、RDD中的数据可以存储在内...

2018-04-15 16:06:48 12428 1

转载 hadoop的三大核心组件之HDFS和YARN

Hadoop的三大核心组件之HDFS和YARNHadoop集群具体来说包含两个集群：HDFS集群和YARN集群，两者逻辑上分离，但物理上常在一起。（1）HDFS集群：负责海量数据的存储，集群中的角色主要有 NameNode / DataNode/SecondaryNameNode。（2）YARN集群：负责海量数据运算时的资源调度，集群中的角色主要有 ResourceManager /NodeMan...

2018-04-15 16:01:02 11677 6

转载 hdfs的文件读取与写入流程

HDFS客户端文件读取过程如下：应用程序通过HDFS客户端向NameNode发生远程调用请求。NameNode收到请求之后，返回文件的块列表信息。块列表信息中包含每个block拷贝的datanode地址。HDFS 客户端会选择离自己最近的那个拷贝所在的datanode来读取数据。数据读取完成以后，HDFS客户端关闭与当前的datanode的链接。如果文件没有读完，HDFS客户端会继续从NameNo...

2018-04-15 15:59:47 4595

原创 spark数据分析(3)

combineByKey(createCombiner,mergeValue,mergeCombiners) createCombiner: combineByKey() 会遍历分区中的所有元素，因此每个元素的键要么还没有遇到过，要么就和之前的某个元素的键相同。如果这是一个新的元素， combineByKey() 会使用一个叫作 createCombiner() 的函数来创建那个键对应的...

2018-04-08 22:47:00 493

原创 spark数据分析(2)

首先来理解(0,0)这个初始值：说明aggregate（）方法会返回一个元组，而因为是分布式集群来进行分析，所以第一个lambda表达式是每个worker所执行的，比如我们有三个worker，那么他们得到的结果分别是：(14,2)；(8,2)；(14,2)。而第二个lambda表达式则是driver把那三个worker的结果进行汇总计算，得到（36，6）这一结果而在现实生产中，我们需要尽可能的去利...

2018-04-03 22:31:57 239

原创 spark数据分析

首先要运行spark，加载 py4j，执行shell.py 初始化 spark sc（SparkContext）编写处理rdd的代码代码分两类一类叫driver的代码 driver只有一个一类叫worker的代码 worker有多个 worker的代码有两类算子（操作operate）变换 transformation 懒执行 map flatMap groupByKey reduceByK...

2018-04-01 20:49:42 1080

原创 hadoop(单机伪分布式) pyspark(Anaconda)

学习Hadoop前的准备工作：1.网络主机名称主机映射目前是动态IP，所以需要配置IP地址为静态IP/etc/sysconfig/network-scripts ll | grep ifcfg-ens33可查看此文件的权限，只能在root下更改vi ifcfg-ens33:BOOTPROTO=dhcp改为 BOOTPROTO=staticONBOOT=yes添加四行代码：IPADDR=192....

2018-03-27 21:10:45 875

原创 Linux

第一个符号之后的所有符号都表示的是与权限相关的信息每三位一组rwx 表示拥有者的权限--- 表示组的权限---. 表示其它人或组的权限每一组里的三个字符的意义第一个表示读 r 4第二个表示写 w 2第三个表示执行 x 1修改权限时：chmod num1num2num3 三个数字对应着拥有者、组、其他人或组，0是没任何权限、4只读、2只写、1只进入，三种权限叠加就把对应的...

2018-03-22 19:22:27 147

wyfly69的博客