一个命令搞定,linux空间满,找不到大文件的问题 #有的文件被删除了,进程没有被杀掉,造成的空间满lsof | grep deleted | awk '{print $2}' | xargs kill -9
maven打包插件 <build> <!--scala待编译的文件目录--> <sourceDirectory>src/main/java</sourceDirectory> <plugins> <plugin> <artifactId>maven-compiler-plugin</artifactId> <version>3.6..
实时项目-Flink pv解决数据倾斜问题 实时项目-Flink pv解决数据倾斜问题需求:网站总浏览量的PV统计实时统计每小时内的网站PVimport com.hw.bean.UserBehavior;import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.api.java.tuple.Tuple2;import org.apache.flink.streaming.api.TimeCharacteristic;import or
ERROR Executor: Exception in task 0.0 in stage 3.0 (TID 10) java.sql.SQLException: ERROR 726 (43M10) 20/11/06 08:37:59 ERROR Executor: Exception in task 0.0 in stage 3.0 (TID 10)java.sql.SQLException: ERROR 726 (43M10): Inconsistent namespace mapping properties. Cannot initiate connection as SYSTEM:CATALOG is found but client does not have phoenix.sche.
Kylin启动报错解决Failed to find metadata store by url: kylin_metadata@hbase 具体的报错:Exception in thread "main" java.lang.IllegalArgumentException: Failed to find metadata store by url: kylin_metadata@hbase at org.apache.kylin.common.persistence.ResourceStore.createResourceStore(ResourceStore.java:101) at org.apache.kylin.common
Yarn资源调度器 Yarn资源调度器Hadoop的作业调度器主要有三种:FIFO,Capcity Schedule和Fair Schedule.默认的调度器是Capcity Schedule,存放在yarn-default.xml文件中FIFO调度器容量调度器支持多个队列,每个队列可以配置一定的资源量,每个队列采用fifo调度策略为了防止同一用户的作业独占队列中的资源,该调度器会对同一用户提交的作业所占的资源量进行限定.最闲的队列计算方法,task/资源百分比队列内任务的排序按照作
Hive的metastore和hiveserver2 Hive的metastore和hiveserver2hiveserver2相当于是一个代理器.可以代理beeline和jdbc的访问请求,他们都不需要知道密码,只需要连接hiveserver2就可以了metastore连接元数据:可以直接连接,也可以通过metastore.通过metastore就需要开启服务...
Sqoop同步策略 Sqoop同步策略全量导入:针对小公司,数据量少增量导入:针对支付表,数据不发生变化新增机变化策略:数据发生变化,16号的数据修改了14号的数据.比如订单表,把14号的数据发生变化,就把数据倒过来覆盖.,就把数据倒过来覆盖....
项目经验之Flume内存优化 项目经验之Flume内存优化1)问题描述:如果启动消费Flume抛出如下异常ERROR hdfs.HDFSEventSink: process failedjava.lang.OutOfMemoryError: GC overhead limit exceeded2)解决方案步骤:(1)在hadoop102服务器的/opt/module/flume/conf/flume-env.sh文件中增加如下配置export JAVA_OPTS="-Xms100m -Xmx2000m -Dcom.sun
项目经验之Hadoop参数调优 项目经验之Hadoop参数调优1)HDFS参数调优hdfs-site.xmldfs.namenode.handler.count= ,比如集群规模为8台时,此参数设置为41The number of Namenode RPC server threads that listen to requests from clients. If dfs.namenode.servicerpc-address is
测试Hadoop上传下载性能 测试Hadoop上传下载性能建好hadoop之后需要面对的问题:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-u1uktqWA-1601802082816)(E:\BigData\学习笔记\Typora\数仓项目\src\装好hadoop之后需要面临的问题.png)]问题:1t的数据需要上传多久1t的数据需要下载多久100t的数据,执行mr需要多久机器能够抗住多少数据量测试HDFS写性能测试内容:向HDFS集群写10个128M的文件 cpu核数-1[
Hive案例总结 Hive案例总结:处理日期的两种方式:substring(orderdate,1,7) = ‘2017-04’year(orderdate) = 2017 and month(orderdate) = 04不能写windows字句的函数:所有的排名函数last_valuefirst_value两种特殊情况当指定ORDER BY缺少WINDOW子句时,WINDOW规范默认为RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW。如果
Hive连接第三方dbever Hive连接第三方dbever简单说就是三步:新建连接,选择hive主机名,端口号10000,用户名库两种选择:使用默认的hive根目录中的jdbc里面的jar包,下载下来,放到dbever的根目录完毕默认的库也可以用,因为比较新密码不需要输入,因为在beeline中也不需要输入line中也不需要输入...
Linux环境下MySQL的安装 MySQL的安装:1)检查当前系统是否安装过Mysql[haha@hadoop102 ~]$ rpm -qa|grep mariadbmariadb-libs-5.5.56-2.el7.x86_64 //如果存在通过如下命令卸载[haha @hadoop102 ~]$ sudo rpm -e --nodeps mariadb-libs //用此命令卸载mariadb2)将MySQL安装包拷贝到/opt/module目录下[haha @hadoop102 software]# ll总用
Hive窗口函数 Hive窗口函数1)定义窗口函数属于sql中比较高级的函数mysql从8.0版本才支持窗口函数,5.6,5.7都没有窗口函数oracle 里面一直支持窗口函数hive也支持窗口函数以下函数才是窗口函数窗口函数(13个):LEAD LEAD(col,n, default_val):往后第n行数据 col 列名 n 往后第几行 默认为1 默认值 默认nullLAG LAG(col,n,default_val):往前第n行数据 col 列名 n 往前第几行 默认为1
Hive列转行函数 Hive列转行函数select split("a,b,c,d",',');效果:select explode(split("a,b,c,d",','));效果:案例:原始数据moviecategory《疑犯追踪》悬疑,动作,科幻,剧情《Lie to me》悬疑,警匪,动作,心理,剧情《战狼2》战争,动作,灾难需求《疑犯追踪》 悬疑《疑犯追踪》 动作《疑犯追踪》 科幻《疑犯追踪》 剧情《Lie
Hive行转列函数 Hive行转列函数concatselect e.empno,e.ename,e.job,concat(e.empno,e.ename,e.job) from emp e;cancat_ws:concat加强版,但是只能够处理string,所以需要强转select e.empno,e.ename,e.job,concat_ws('-',case(e.empno as string),e.ename,e.job) from emp e;collect_list:多行转一列,不去重select c
Hive分桶表&分区表 Hive分桶表&分区表分区表Hive存在的问题:hive中没有索引机制,每次查询的时候,hive会暴力扫描整张表.MySQL具有索引机制.因为没有分区,所以hive搞了一个分区表的机制.在建表的时候,加上分区字段,然后会在表的目录下建立一个个的分区.如果按照天为分区,那么在表目录里就会有每天的目录.分区表的核心就是分目录.分区表的建表create table dept_partition(deptno int, dname string, loc string)partitioned
Hive中的排序(order by,sort by,distribute by,cluster by) Hive中的排序全局排序Order By 全局排序,只有一个reducer 查看有多少个reducer的命令:set mapreduce.job.reduces;发现他的之值是-1.-1是动态变化的,当知道使用的身世orderby的时候,会把-1置为1.每个Reducer内部的排序 Sort By 使用sort by需要指定reduce的个数 set mapreduce.job.reduces = 3;我们在来看看是不是生成了三个文件insert overwrite local d
Hive和关系型数据库的区别 Hive和关系型数据库的区别hive和关系型数据库太像了,所以在hive的学习中总是会有一种hive就是数据库的错觉,hive不是数据库。hive是Hadoop的客户端,底层是hdfs,执行引擎是mapreduce,mapreduce执行在yarn上,说白了就是hadoop的客户端包了一层。一、数据更新hive读多写少mysql通常经常需要修改二、数据延迟mysql执行通常都是秒回hive的时间通常要长:hive查询的时候,没有索引,需要扫描整个表,因此延迟比较高mapreduce