大数据
hello_zzw
这个作者很懒,什么都没留下…
展开
-
IDEA插件安装
1.IDEA首页尾部Plugin repository2.搜索要下载的插件3.选择要下载的插件4.下载要下载的版本5.通过IDEA的About查看IDEA的版本6.将插件导入到个IDEA中,重启IDEA...原创 2019-06-11 14:07:00 · 972 阅读 · 0 评论 -
yarn-client|cluster
一、yarn-client任务提交方式1.任务提交方式./spark-submit --master yarn --class org.apache.spark.examples.SparkPi ../examples/jars/spark-examples_2.11-2.3.1.jar 100./spark-submit --master yarn --deploy-mode cli...原创 2019-05-23 21:15:25 · 168 阅读 · 0 评论 -
Spark context stopped while waiting for backend
spark提交任务到yarn上执行时,出现以下问题:ERROR TransportClient:233 - Failed to send RPC 7036352720568735489 to /172.16.96.152:34091: java.nio.channels.ClosedChannelExceptionjava.nio.channels.ClosedChannelException...原创 2019-05-23 20:44:45 · 3868 阅读 · 0 评论 -
Standalone-client|cluster
Standalone-client1.任务提交 ./spark-submit --master spark://node1:7077 #master在那个节点上 --deploy-mode client #任务提交方式,client cluster两种,不写的情况下默认是client --class org.apache.spark.examples.SparkPi #类名...原创 2019-05-23 19:23:02 · 323 阅读 · 0 评论 -
SparkCore
一、RDD:Resilient Distributed DateSet,弹性分布式数据集五大特性是由一系列partition组成函数作用在每个partition上partition之间有一系列依赖关系分区器作用在K,V格式的RDD上RDD提供一些列最佳的计算位置1.默认情况下,一个block对应一个partition2.RDD并不存储数据,我的理解是: RDD就是一些套在数...原创 2019-05-22 22:25:05 · 145 阅读 · 0 评论 -
CDH集群部署
1.选择免费版本,默认是数据集线器试用版2.选择搭建集群需要的主机2.1 可以在这里选择安装CDH的主机2.2 这里是CDH搭建时已经添加的主机3.选择对应的版本,在配置集群时使用的版本4.等待集群进行安装5.在分配解压时会有tmpToah_7临时文件6.7.选择要安装的服务8.安装完毕...原创 2019-05-16 17:41:48 · 739 阅读 · 0 评论 -
Spark资源调度和任务调度
在了解资源调度和任务调度之前,需要先了解一下宽窄依赖和Stage两个概念1.宽窄依赖RDD之间是有依赖关系的,分为宽依赖和窄依赖宽依赖 父RDD和子RDD之间的对应关系是一对多,即一个RDD中的数据会被放到多个子RDD中窄依赖 父RDD和子RDD之间的对应关系是一对一或多对一,即一个父RDD中的数据去往一个子RDD或多个父RDD中的数据去一个子RDD2.StageSpark任务会...原创 2019-05-25 11:11:28 · 160 阅读 · 0 评论 -
scala break和continue
1.导入import scala.util.control.Breaks._2.使用breakable包裹要跳出的范围,在break跳出时,会跳出到将自己包裹离自己最近的breakable在跳出时会跳出到breakable包裹的范围//跳出最外层for循环breakable{ for (i <- 1 to 10;j <- 1 to i){ pri...原创 2019-05-20 20:33:37 · 133 阅读 · 0 评论 -
scala getter和setter
当类的属性是公共的实时可以通过“对象.属性” 直接调用,当属性是private私有时,则无法直接调用,这时就需要该字段的getter和setter进行访问。scala中的getter和setter方法是通过value和value_=进行实现的,以下是具体的实现object GetterSetterTest { def main(args: Array[String]): Unit = {...原创 2019-05-20 19:51:43 · 477 阅读 · 0 评论 -
Failed to construct terminal; falling back to unsupported java.lang.NumberFormatException: For input
在启动scala时报以下错误Welcome to Scala 2.11.12 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_181).Type in expressions for evaluation. Or try :help.[ERROR] Failed to construct terminal; falling back to uns...原创 2019-05-24 11:22:36 · 4584 阅读 · 4 评论 -
广播变量
当Executor端使用到Driver端的变量时,该变量就会产生副本随着task放到Executor中,一个task对应着一个变量副本,如果使用这个变量的task有1000个,则就会产生1000个副本。广播变量:将Executor端使用到的Driver端的变量生成一个副本,放到Executor端的BlockManager。有几个Executor使用到对用的变量,就有几个副本无论该Executo...原创 2019-05-28 20:03:42 · 1553 阅读 · 3 评论 -
累加器
当在Driver端定义一个变量后,在Executor内对该变量的修改,对Driver端内的变量是无影响的。想要在Executor中对Driver端的变量进行修改,可以使用累加器//每次累加整型的值,给累加器起名字:aaa,通过aaa.name可以获取val aaa = sc.longAccumulator("aaa")val bbb = sc.longAccumulator//每次累加小数...原创 2019-05-28 20:41:41 · 1334 阅读 · 0 评论 -
kylin
前言OLAP和OLTP数据处理大致可以分成两大类:联机分析处理OLAP(On-Line Analytical Processing)联机事务处理OLTP(On-Line Transaction Processing)OLTP是传统的关系数据库的主要应用,主要用于基本的、日常的事务处理。例如银行交易OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询...原创 2019-06-20 22:22:25 · 1838 阅读 · 0 评论 -
Azkaban配置
1.下载Azkaban1.1登陆Azkaban的官网:https://azkaban.github.io/ 点击Downloads,如图示:1.2点击之后,在跳转的页面中选择Releases,进入页面选择相应的版本下载,这里选择的版本是3.70.0版本,点击“Source code(tar.gz)”下载。1.3 选择自己要下载的源码,下载2.环境准备2.1 在安装之前要安装jdk,...原创 2019-06-11 01:17:50 · 1217 阅读 · 1 评论 -
开窗函数
对指定的列进行排序后,赋予序号值,从1开始partition by area_id:以area进行分区,也可以没有order by cars desc:以cars排序,降序排序row_number() over(partition by area_id order by cars desc) as rn ...原创 2019-06-10 22:00:35 · 634 阅读 · 0 评论 -
kafka
上传kafka_2.10-0.8.2.2.tgz包到三个不同节点上,解压。 tar -zxf kafka_2.11-0.11.0.3.tgz -C /opt/配置…/ kafka_2.10-0.8.2.2/config/server.properties文件#节点编号:(不同节点按0,1,2,3整数来配置)broker.id=0#真实数据存储位置:log.dirs=/kafka_l...原创 2019-06-10 20:08:27 · 124 阅读 · 0 评论 -
mac IDEA matplotlib中文
只在自己系统内找到了一个字体中文完全显示查看字体from matplotlib.font_manager import FontPropertiesimport matplotliba=sorted([f.name for f in matplotlib.font_manager.fontManager.ttflist])for i in a: print(i)...原创 2019-06-15 11:18:51 · 323 阅读 · 0 评论 -
决策树和随机森林
1.决策数和随机森林都是非线性有监督的分类模型1.1 决策树是一种树形结构,树内部 每一个节点都表示一个属性上的测试, 每个分支代表一个测试输出, 每个叶子节点代表一个分类类别。 通过训练数据构建决策树,可以对未知数据进行分类1.2 随机森林是由多颗决策树组成的,这些决策树之间没有联系。 在得到一个随机森林后,当有新的样本进入后,随机森林内的每棵决策树会独立对数据进行判断,分析...原创 2019-06-18 23:25:25 · 2300 阅读 · 0 评论 -
spark历史服务器配置
查看spark任务日志记录,需要配置历史服务器,将日志记录保存1.在客户端…/spark/conf/spark-defaults.conf中配置:spark.eventLog.enabled truespark.eventLog.dir hdfs://mycluster/spark/logspark.history.fs.logDirecto...原创 2019-06-02 15:19:38 · 1793 阅读 · 0 评论 -
spark搭建
1.上传jar包spark-2.3.1-bin-hadoop2.6.tgz并解压2.去conf下修改slaves.template文件,该文件是worker所在的节点,在文件中加入worker的主节点mv slaves.template slavesvim slaves node2 node33.修改spark-env. shSPARK_MASTER_IP:master的ipSP...原创 2019-06-01 17:23:31 · 196 阅读 · 0 评论 -
mac配置Scala环境
1.官网下载对应的压缩包官网下载地址:https://www.scala-lang.org/download/进入后,默认是2.12.8我下载的是2.11.12,在当前页面可以找到以前的版本选择自己要下载的版本在最下面有压缩包2.下载压缩包,解压到指定目录tar -zxf scala-2.11.12.tgz -C /Users/zzw/Downloads/3.在/etc/p...原创 2019-05-20 18:58:52 · 784 阅读 · 0 评论 -
It seems as though you are running sqoop with a JRE.
在执行sqoop import --connect jdbc:mysql://node1:3306/result_db --username root --password 123456 --columns browser_name,browser_version --table dimension_browser --delete-target-dir -m 1 --target-dir...原创 2019-05-06 23:24:40 · 1537 阅读 · 3 评论 -
hadoop HA配置
1、zookeeper集群搭建a) 将zookeeper.tar.gz上传到node2、node3、node4b) 解压到/opt tar -zxf zookeeper-3.4.6.tar.gz -C /optc) 配置环境变量: export ZOOKEEPER_PREFIX=/opt/zookeeper-3.4.6 export PATH=$PATH:$ZOOKEEPER...原创 2019-04-17 09:06:11 · 300 阅读 · 2 评论 -
Hive SQL
1.数据类型data_type : primitive_type | array_type | map_type | struct_type | union_type -- (Note: Available in Hive 0.7.0 and later)## 基本数据类型 ## primitive_type : TINYINT | SMALLINT | I...原创 2019-04-25 21:38:17 · 88 阅读 · 0 评论 -
Hive jdbc运行方式
1.在服务器端启动hiveserver2,metastore服务所在的服务器hive --service hiveserver22.代码和访问mysql数据库的一样package com.bjsxt.hive;import java.sql.Connection;import java.sql.DriverManager;import java.sql.ResultSet;imp...原创 2019-04-25 20:38:58 · 346 阅读 · 0 评论 -
hive自定义函数
hive中的函数有以下三种类型 UDF:一进一出 UDAF:多进一出 UDTF:一进多出在实现自定函数时需要继承以上三个类中的一个,实现如下方法:evaluate。具体类如下所示public class TuoMin extends UDF { public Text evaluate(final Text s) { return new Text(s.toString() + ...原创 2019-04-25 20:17:37 · 212 阅读 · 0 评论 -
Mac Hadoop伪分布式配置
1.core-site.xml<configuration> <property> <name>hadoop.tmp.dir</name> <value>/Users/zzw/Documents/hadoop/hadoop-2.6.5/hadoop_tmp</value> </propert...原创 2019-04-20 22:38:37 · 149 阅读 · 0 评论 -
Hadoop独立(本地)模式
1.core_site.xml<configuration> <property> <name>fs.defaultFS</name> <value>file:///</value> </property></configuration>2.hdfs-site...原创 2019-04-20 21:23:49 · 328 阅读 · 0 评论 -
hadoop完全分布式配置
完全分布式配置1、node1,2,3,4做免密钥登录ssh-keygen -t dsa -P '' ssh-copy-id -i ~/.ssh/id_rsa.pub root@node22、安装和配置jdkrpm -ivh jdk-7u67-linux-x64.rpm vim /etc/profile export JAVA_HOME=/usr/java/jdk1.7.0_67...原创 2019-04-16 09:09:48 · 181 阅读 · 0 评论 -
hadoop读流程
读操作语言描述1.使用客户端Distributed FileSystem对象,通过RPC连接调用NameNode获取文件的block信息,对于每个block,NameNode会返回存有block副本信息的DataNode的地址,返回的地址会通过这些DataNode与客户端的距离进行排序2.Distribute FileSystem 会返回一个FSDataInputStream对象,该对象内封...原创 2019-04-11 20:48:13 · 135 阅读 · 0 评论 -
mapreduce on yarn搭建
节点分布在HA的基础上进行以下修改1.拷贝mapred-site.xml.template为mapred-site.xml文件,并进行修改<configuration> <property> <name>mapreduce.framework.name</name> <...原创 2019-04-17 20:27:30 · 216 阅读 · 2 评论 -
hbase-搭建
1.单机模式1.1 上传压缩包到服务器,并解压tar -zxf hbase-1.2.9-bin.tar.gz -C /opt1.2 配置环境变量vim /etc/profile.d/hbase_1.2.9.sh export HBASE_HOME=/opt/hbase-1.2.9 export PATH=$PATH:$HBASE_HOME/bin1.3 修改/opt/hbase-...原创 2019-04-27 17:26:58 · 98 阅读 · 0 评论 -
HBase读写流程
HBase写流程1.Client从缓存中定位要写入的region的信息。如果没有,访问zookeeper,找到-MEAT-,以此确定要写入的region的信息2.regionserver会先将更新写入到HLog中(HLog在hdfs中,因此丢失的风险很小),在写入WAL中之后,写入到写缓存memcache中3.当写缓存的大小达到写缓存的阈值(默认64M)后,溢写到磁盘中4.当磁盘中的溢写文...原创 2019-04-27 22:30:12 · 87 阅读 · 0 评论 -
hive与hbase整合
只需要在hive的配置文件中加入如下配置即可 <property> <name>hbase.zookeeper.quorum</name> <value>node2,node3,node4</value> </property>通过zookeeper进行hive与hbase之间的通信...原创 2019-05-06 17:37:44 · 109 阅读 · 0 评论 -
CDH搭建
系统环境准备使用3台主机进环境搭建 1.1.网络配置 vi /etc/sysconfig/network vi /etc/hosts 1.2.SSH免密钥登录 ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa ssh-copy-id 1.3.防火墙关闭 service iptables stop chkconfig iptable...原创 2019-05-13 20:05:29 · 179 阅读 · 0 评论 -
beeline连接hiveserver2
在hive服务器端启动hiveserver2(即metastore服务所在的服务器) hiveserver2通过beeline连接有两种连接方式1.beeline -u jdbc:hive2://localhost:10000/default -n root2.beeline !connect jdbc:hive2://node3:10000/default在beeline进行连...原创 2019-04-24 23:17:43 · 4940 阅读 · 0 评论 -
hive执行sql时死机
在执行MR时,一直暂停,无法执行,如下:hive> select count(*) from person_basic;WARNING: Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engin...原创 2019-04-29 09:18:06 · 993 阅读 · 4 评论 -
Hive Runtime Error while processing row {"id":202,"name":"zhangsan202","age":18}
在查询数据时,查询的字段,由于和要插入的表的字段不对应,因此报了以下错误:Error: java.lang.RuntimeException: org.apache.hadoop.hive.ql.metadata.HiveException: Hive Runtime Error while processing row {"id":202,"name":"zhangsan202","age":...原创 2019-04-29 09:06:32 · 2525 阅读 · 2 评论 -
Schema initialization FAILED! Metastore state would be inconsistent !!
[root@node3 hive-2.3.4]# schematool -dbType mysql -initSchemaSLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [jar:file:/opt/hive-2.3.4/lib/log4j-slf4j-impl-2.6.2.jar!/org/...原创 2019-04-29 08:58:47 · 18127 阅读 · 18 评论 -
hive安装部署
hive有以下三种搭建模式本地模式derby使用derby存储时,会在当前目录生成一个derby.log文件和一个metastore_db目录。在同一个目录下同时只能有一个用户访问,在更换目录后,会因为没有以上两个文件,导致无法连接之前的数据库。单机模式该模式下需要启动一个服务器,我使用的是mysql服务器配置如下 <!-- hdfs存储路径 --> &...原创 2019-04-23 20:53:50 · 117 阅读 · 0 评论