![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
鸿儒之观
这个作者很懒,什么都没留下…
展开
-
Spark集成HIve 往HDFS中写数据权限不足的解决办法
1,错误呈现Spark集成HIve后执行如下语句def readHive(): Unit ={ val conf: SparkConf = new SparkConf().setMaster("local").setAppName("my") val sc: SparkSession = SparkSession.builder() .enableHiveSupport()// 启用Hive的支持 .config("spark.sql.warehouse.dir", "h.原创 2020-09-12 00:46:20 · 1303 阅读 · 0 评论 -
Flume和Kafka结合实现日志采集
1,业务流程2,日志采集2.1采集模型(1)用传统的flume聚合模型采用这种模型服务器3的压力比较大,有可能会宕机.服务器1和服务器2是主动往服务器3进行数据的推送,而不是服务器3主动拉取.(2)结合Kafka的聚合模型(Kafka source)[1]解析采用Kafka Channel,省去了Sink,提高了效率。KafkaChannel数据存储在Kafka里面,所以数据是存储在磁盘中。注意在Flume1.7以前,Kafka Channel很少有人使用,因为发现parseAsFlu原创 2020-08-18 22:58:09 · 1203 阅读 · 0 评论 -
sqoop开发参数
(1)在sqoop-env.sh 添加export HADOOP_COMMON_HOME=/opt/module/hadoop-3.1.3export HADOOP_MAPRED_HOME=/opt/module/hadoop-3.1.3export HIVE_HOME=/opt/module/hiveexport ZOOKEEPER_HOME=/opt/module/zookeeper-3.5.7export ZOOCFGDIR=/opt/module/zookeeper-3.5.7/conf原创 2020-08-18 22:52:27 · 258 阅读 · 0 评论 -
hive优化
1,Fetch抓取Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM emp;在这种情况下,Hive可以简单地读取emp对应的存储目录下的文件,然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是more,老版本hive默认是minimal,该属性修改为more以后,在全局查找、字段查找、limit查找等都不走mapreduce。<proper原创 2020-08-17 00:20:26 · 173 阅读 · 0 评论 -
hive习题
--学生表CREATE TABLE STUDENT(S_ID STRING,S_NAME STRING,S_BIRTH STRING,S_SEX STRING)ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';load data local inpath '/opt/module/hive/datas/sroce/student' overwrite into table STUDENT;-- 课程表CREATE TABLE COURSE(.原创 2020-08-16 23:52:26 · 202 阅读 · 0 评论 -
azkaban创建project报500的错误的解决办法
因为权限不够,需要配置权限为管理员的权限原创 2020-08-12 15:02:31 · 593 阅读 · 1 评论 -
Hive之常用函数
Hive常用的内置函数2.1空字段赋值1)空字段赋值 nvl()-- 给值为NULL的数据赋值,它的格式是NVL( value,default_value)。它的功能是如果value为NULL,则NVL函数返回default_value的值,select nvl(null,'空值');2)if(表达式,default,default)-- if(表达式,value1,value2) 如果表达式为true 则取value1,否则取value2select if('' is null,'空值',原创 2020-08-10 20:48:23 · 629 阅读 · 0 评论 -
两大表Join时报Map operator initialization failed错误解决方法
1,错误信息 :Map operator initialization failedTaskAttempt 3 failed, info=[Error: Error while running task ( failure ) : attempt_1596414152423_0018_3_02_000002_3:java.lang.RuntimeException: java.lang.RuntimeException: Map operator initialization failed at原创 2020-08-03 13:34:45 · 3616 阅读 · 1 评论 -
Hadoop HA集群搭建
Hadoop HA集群搭建流程一,环境准备(1)修改IP(2)修改主机名及主机名和IP地址的映射vim /etc/hostnamevim /etc/sysconfig/network-scripts/ifcfg-ens33DEVICE=ens33TYPE=EthernetONBOOT=yesBOOTPROTO=static#修改改为静态NAME="ens33"IPADDR=192.168.244.102 #改为服务器的IpPREFIX=24GATEWAY=192.168.244原创 2020-07-28 19:52:02 · 411 阅读 · 0 评论 -
6台服务器集群配置文档
6台服务器集群部署文档一,集群部署规划服务器号102103104105106107HDFSNN2NNDNDNDNYARNNMNMNMRMLogHistoryServer二,文件的配置1,核心文件的配置 core-site.xml<!-- 指定NameNode的地址 --> <property> <name>fs.defaultFS</name>原创 2020-07-28 18:53:16 · 353 阅读 · 0 评论 -
hadoop工作流程图
原创 2020-07-28 18:31:09 · 1234 阅读 · 1 评论 -
ReduceTask工作机制源码解析
1. 在LocalJobRunner$Job中的run()方法中 try { if (numReduceTasks > 0) { //根据reduceTask的个数,创建对应个数的LocalJobRunner$Job$ReduceTaskRunnable List<RunnableWithThrowable> reduceRunnables = getReduceTaskRunnables( ...原创 2020-07-28 16:58:06 · 180 阅读 · 0 评论 -
Shuffle流程(溢写,归并)源码解析
1. map中的kv持续往 缓冲区写, 会达到溢写条件,发生溢写,最后发生归并。2. map中的 context.write(k,v) 1) . mapContext.write(key, value); (1). output.write(key, value); <1> collector.collect(key, value, partitioner.getPartition(key, va...原创 2020-07-28 16:57:33 · 673 阅读 · 1 评论 -
MapTask的工作机制源码解析
1. 从Job提交流程的(2)--><9> 进去 Job job = new Job(JobID.downgrade(jobid), jobSubmitDir); 构造真正执行的Job , LocalJobRunnber$Job2. LocalJobRunnber$Job 的run()方法 1) TaskSplitMetaInfo[] taskSplitMetaInfos = SplitMetaInfoReader.readSplitMetaIn...原创 2020-07-28 16:57:01 · 309 阅读 · 0 评论 -
Job提交流程源码解析
1. job.waitForCompletion(true); 在Driver中提交job 1) sumbit() 提交 (1) connect(): <1> return new Cluster(getConfiguration()); ① initialize(jobTrackAddr, conf); 通过YarnClientProtocolProvider | LocalClientProtocol...原创 2020-07-28 16:55:42 · 273 阅读 · 0 评论 -
MapTask阶段默认分区源码解析
// reduceTask的个数大于1的情况// 如果没有自定义分区器,并且reduceTask的个数设置大于1的话就会走HashPartitioner(job.setNumberReduceTasks(2))public class HashPartitioner<K, V> extends Partitioner<K, V> { /** Use {@link Object#hashCode()} to partition. */ public int getPar.原创 2020-07-28 16:54:36 · 248 阅读 · 0 评论 -
hadoop常用的调优参数
hadoop常用的调优参数1)资源相关参数(1)以下参数是在用户自己的MR应用程序中配置就可以生效(mapred-default.xml) 配置参数 参数说明 mapreduce.map.memory.mb 一个MapTask可使用的资源上限(单位:MB),默认为1024。如果MapTask实际使用的资源量超过该值,则会被强制杀死。 mapreduce.reduce.memory.mb原创 2020-07-26 15:03:17 · 315 阅读 · 0 评论 -
mysql基础知识一
一、DDLSQL的分类DDL:数据定义语言,定义库,表结构等,包括create,drop,alter,show等DML:数据操作(Manipulation)语言,增删改查数据,包括insert,delete,update,select等 DRL/DQL:专指查询DCL:数据控制语言,权限,事务等管理。1、查看所有数据库show databases;2、指定使用某个数据库use 数据库名;3、创建数据库create database 数据库名; #使用my.ini中配置的服务器的编原创 2020-07-25 16:48:03 · 429 阅读 · 0 评论