bu想起名字
码龄6年
关注
提问 私信
  • 博客:42,193
    社区:1
    42,194
    总访问量
  • 54
    原创
  • 1,590,365
    排名
  • 8
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:河南省
  • 加入CSDN时间: 2019-01-14
博客简介:

weixin_44516261的博客

查看详细资料
个人成就
  • 获得13次点赞
  • 内容获得4次评论
  • 获得55次收藏
  • 代码片获得121次分享
创作历程
  • 2篇
    2021年
  • 53篇
    2020年
成就勋章
TA的专栏
  • Java基础
    3篇
  • 实时项目
    1篇
  • kylin
    1篇
  • Hadoop
    9篇
  • 数仓项目
    5篇
  • Hive
    16篇
  • Spark
    3篇
  • 面试
    8篇
  • Idea
    1篇
  • Scala
    2篇
  • hbase
    3篇
  • 调优
    1篇
  • Flume
    1篇
  • 集合
    1篇
  • 谷粒商城
    1篇
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

一个命令搞定,linux空间满,找不到大文件的问题

#有的文件被删除了,进程没有被杀掉,造成的空间满lsof | grep deleted | awk '{print $2}' | xargs kill -9
原创
发布博客 2021.04.28 ·
239 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

maven打包插件

<build> <!--scala待编译的文件目录--> <sourceDirectory>src/main/java</sourceDirectory> <plugins> <plugin> <artifactId>maven-compiler-plugin</artifactId> <version>3.6..
原创
发布博客 2021.01.22 ·
197 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

实时项目-Flink pv解决数据倾斜问题

实时项目-Flink pv解决数据倾斜问题需求:网站总浏览量的PV统计实时统计每小时内的网站PVimport com.hw.bean.UserBehavior;import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.api.java.tuple.Tuple2;import org.apache.flink.streaming.api.TimeCharacteristic;import or
原创
发布博客 2020.11.26 ·
500 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

ERROR Executor: Exception in task 0.0 in stage 3.0 (TID 10) java.sql.SQLException: ERROR 726 (43M10)

20/11/06 08:37:59 ERROR Executor: Exception in task 0.0 in stage 3.0 (TID 10)java.sql.SQLException: ERROR 726 (43M10): Inconsistent namespace mapping properties. Cannot initiate connection as SYSTEM:CATALOG is found but client does not have phoenix.sche.
原创
发布博客 2020.11.06 ·
4428 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏

Kylin启动报错解决Failed to find metadata store by url: kylin_metadata@hbase

具体的报错:Exception in thread "main" java.lang.IllegalArgumentException: Failed to find metadata store by url: kylin_metadata@hbase at org.apache.kylin.common.persistence.ResourceStore.createResourceStore(ResourceStore.java:101) at org.apache.kylin.common
原创
发布博客 2020.10.23 ·
2543 阅读 ·
3 点赞 ·
1 评论 ·
8 收藏

Yarn资源调度器

Yarn资源调度器Hadoop的作业调度器主要有三种:FIFO,Capcity Schedule和Fair Schedule.默认的调度器是Capcity Schedule,存放在yarn-default.xml文件中FIFO调度器容量调度器支持多个队列,每个队列可以配置一定的资源量,每个队列采用fifo调度策略为了防止同一用户的作业独占队列中的资源,该调度器会对同一用户提交的作业所占的资源量进行限定.最闲的队列计算方法,task/资源百分比队列内任务的排序按照作
原创
发布博客 2020.10.08 ·
176 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive的metastore和hiveserver2

Hive的metastore和hiveserver2hiveserver2相当于是一个代理器.可以代理beeline和jdbc的访问请求,他们都不需要知道密码,只需要连接hiveserver2就可以了metastore连接元数据:可以直接连接,也可以通过metastore.通过metastore就需要开启服务...
原创
发布博客 2020.10.05 ·
465 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

Sqoop同步策略

Sqoop同步策略全量导入:针对小公司,数据量少增量导入:针对支付表,数据不发生变化新增机变化策略:数据发生变化,16号的数据修改了14号的数据.比如订单表,把14号的数据发生变化,就把数据倒过来覆盖.,就把数据倒过来覆盖....
原创
发布博客 2020.10.05 ·
733 阅读 ·
0 点赞 ·
0 评论 ·
6 收藏

项目经验之Flume内存优化

项目经验之Flume内存优化1)问题描述:如果启动消费Flume抛出如下异常ERROR hdfs.HDFSEventSink: process failedjava.lang.OutOfMemoryError: GC overhead limit exceeded2)解决方案步骤:(1)在hadoop102服务器的/opt/module/flume/conf/flume-env.sh文件中增加如下配置export JAVA_OPTS="-Xms100m -Xmx2000m -Dcom.sun
原创
发布博客 2020.10.05 ·
278 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

项目经验之Hadoop参数调优

项目经验之Hadoop参数调优1)HDFS参数调优hdfs-site.xmldfs.namenode.handler.count= ,比如集群规模为8台时,此参数设置为41The number of Namenode RPC server threads that listen to requests from clients. If dfs.namenode.servicerpc-address is
原创
发布博客 2020.10.04 ·
192 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

测试Hadoop上传下载性能

测试Hadoop上传下载性能建好hadoop之后需要面对的问题:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-u1uktqWA-1601802082816)(E:\BigData\学习笔记\Typora\数仓项目\src\装好hadoop之后需要面临的问题.png)]问题:1t的数据需要上传多久1t的数据需要下载多久100t的数据,执行mr需要多久机器能够抗住多少数据量测试HDFS写性能测试内容:向HDFS集群写10个128M的文件 cpu核数-1[
原创
发布博客 2020.10.04 ·
337 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Hive案例总结

Hive案例总结:处理日期的两种方式:substring(orderdate,1,7) = ‘2017-04’year(orderdate) = 2017 and month(orderdate) = 04不能写windows字句的函数:所有的排名函数last_valuefirst_value两种特殊情况当指定ORDER BY缺少WINDOW子句时,WINDOW规范默认为RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW。如果
原创
发布博客 2020.10.03 ·
327 阅读 ·
0 点赞 ·
1 评论 ·
1 收藏

Hive连接第三方dbever

Hive连接第三方dbever简单说就是三步:新建连接,选择hive主机名,端口号10000,用户名库两种选择:使用默认的hive根目录中的jdbc里面的jar包,下载下来,放到dbever的根目录完毕默认的库也可以用,因为比较新密码不需要输入,因为在beeline中也不需要输入line中也不需要输入...
原创
发布博客 2020.10.03 ·
277 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Linux环境下MySQL的安装

MySQL的安装:1)检查当前系统是否安装过Mysql[haha@hadoop102 ~]$ rpm -qa|grep mariadbmariadb-libs-5.5.56-2.el7.x86_64 //如果存在通过如下命令卸载[haha @hadoop102 ~]$ sudo rpm -e --nodeps mariadb-libs //用此命令卸载mariadb2)将MySQL安装包拷贝到/opt/module目录下[haha @hadoop102 software]# ll总用
原创
发布博客 2020.10.03 ·
105 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive窗口函数

Hive窗口函数1)定义窗口函数属于sql中比较高级的函数mysql从8.0版本才支持窗口函数,5.6,5.7都没有窗口函数oracle 里面一直支持窗口函数hive也支持窗口函数以下函数才是窗口函数窗口函数(13个):LEAD LEAD(col,n, default_val):往后第n行数据 col 列名 n 往后第几行 默认为1 默认值 默认nullLAG LAG(col,n,default_val):往前第n行数据 col 列名 n 往前第几行 默认为1
原创
发布博客 2020.10.03 ·
1136 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

Hive列转行函数

Hive列转行函数select split("a,b,c,d",',');效果:select explode(split("a,b,c,d",','));效果:案例:原始数据moviecategory《疑犯追踪》悬疑,动作,科幻,剧情《Lie to me》悬疑,警匪,动作,心理,剧情《战狼2》战争,动作,灾难需求《疑犯追踪》 悬疑《疑犯追踪》 动作《疑犯追踪》 科幻《疑犯追踪》 剧情《Lie
原创
发布博客 2020.10.03 ·
2931 阅读 ·
1 点赞 ·
0 评论 ·
5 收藏

Hive行转列函数

Hive行转列函数concatselect e.empno,e.ename,e.job,concat(e.empno,e.ename,e.job) from emp e;cancat_ws:concat加强版,但是只能够处理string,所以需要强转select e.empno,e.ename,e.job,concat_ws('-',case(e.empno as string),e.ename,e.job) from emp e;collect_list:多行转一列,不去重select c
原创
发布博客 2020.10.03 ·
291 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive分桶表&分区表

Hive分桶表&分区表分区表Hive存在的问题:hive中没有索引机制,每次查询的时候,hive会暴力扫描整张表.MySQL具有索引机制.因为没有分区,所以hive搞了一个分区表的机制.在建表的时候,加上分区字段,然后会在表的目录下建立一个个的分区.如果按照天为分区,那么在表目录里就会有每天的目录.分区表的核心就是分目录.分区表的建表create table dept_partition(deptno int, dname string, loc string)partitioned
原创
发布博客 2020.10.03 ·
299 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive中的排序(order by,sort by,distribute by,cluster by)

Hive中的排序全局排序Order By​ 全局排序,只有一个reducer​ 查看有多少个reducer的命令:set mapreduce.job.reduces;发现他的之值是-1.-1是动态变化的,当知道使用的身世orderby的时候,会把-1置为1.每个Reducer内部的排序 Sort By​ 使用sort by需要指定reduce的个数 set mapreduce.job.reduces = 3;​我们在来看看是不是生成了三个文件insert overwrite local d
原创
发布博客 2020.10.03 ·
423 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Hive和关系型数据库的区别

Hive和关系型数据库的区别hive和关系型数据库太像了,所以在hive的学习中总是会有一种hive就是数据库的错觉,hive不是数据库。hive是Hadoop的客户端,底层是hdfs,执行引擎是mapreduce,mapreduce执行在yarn上,说白了就是hadoop的客户端包了一层。一、数据更新hive读多写少mysql通常经常需要修改二、数据延迟mysql执行通常都是秒回hive的时间通常要长:hive查询的时候,没有索引,需要扫描整个表,因此延迟比较高mapreduce
原创
发布博客 2020.10.02 ·
2956 阅读 ·
1 点赞 ·
0 评论 ·
6 收藏
加载更多