yoohhwz
码龄7年
关注
提问 私信
  • 博客:69,731
    69,731
    总访问量
  • 37
    原创
  • 985,447
    排名
  • 8
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2017-12-05
博客简介:

yoohhwz的博客

查看详细资料
个人成就
  • 获得31次点赞
  • 内容获得4次评论
  • 获得126次收藏
创作历程
  • 2篇
    2022年
  • 1篇
    2021年
  • 35篇
    2019年
成就勋章
TA的专栏
  • flink
    1篇
  • Spark
    1篇
  • Maven
  • Idea
    1篇
  • Oracle
    1篇
  • hadoop
    14篇
  • Hive
    10篇
  • Sqoop
    1篇
  • CDH
    2篇
  • Shell
    1篇
  • Zookeeper
    2篇
  • HDFS
    1篇
兴趣领域 设置
  • 大数据
    spark
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

flink读取kafka数据写入clickhouse很慢

flink的业务逻辑代码导致的flink反压,进而导致kafka数据挤压
原创
发布博客 2022.06.15 ·
2472 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

flink源码解析

flink源码解析
原创
发布博客 2022.02.08 ·
3620 阅读 ·
3 点赞 ·
0 评论 ·
6 收藏

windows搭建HDFS客户端

1、去Apache官网下载hadoop解压包(官网)2、找到你需要的安装包下载3、下载后解压,配置环境变量3、下载尽量对应版本的 hadoop.dll 和 winutils.exe(下载地址)4、然后将下载后的 winutils.exe 放入解压后的 %HADOOP_HOME%\bin 目录下,将hadoop.dll 放入C:\Windows\System32 目录下5、新建Maven项目测试 <properties> <maven..
原创
发布博客 2021.02.14 ·
1983 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

单节点部署三台zookeeper和三台kafka

一台机器部署三台zookeeper:同理kafka也可以这样部署解压创建三个软连接,分别为 zookeeper,zookeeper1,zookeeper2[hadoop@hadoop001 app]$ lllrwxrwxrwx. 1 hadoop hadoop 25 Sep 1 03:37 zookeeper -> zookeeper-3.4.5-cdh5.7.0/drwxr...
原创
发布博客 2019.10.30 ·
883 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

spark如何读取hive里面的数据

首先,将hive-site.xml copy到spark/conf目录下spark shell和spark sql:指定mysql驱动包位置,--jars只会在executor端读取到,driver-class-path可以在driver端读取到spark-shell/spark-sql --master local[2] --jars ~/lib/mysql-connector-java-...
原创
发布博客 2019.10.23 ·
1076 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

部署cdh时web页面激活夯住解决方案

web页面激活的时候夯住了,可以使用以下方案进行api激活第一步:查看版本[root@hadoop001 lib]# curl -u admin:admin -XGET http://hadoop001:7180/api/versionv19第二步:查看集群名称,取name字段的值[root@hadoop001 lib]# curl -u admin:admin -XGET http...
原创
发布博客 2019.10.19 ·
411 阅读 ·
0 点赞 ·
1 评论 ·
1 收藏

云主机tar包离线部署cdh

环境: 阿里云三台:centos7.2 hadoop001 hadoop002 hadoop003上传所需要的安装包到hadoop001 [root@hadoop001 ~]# ll total 3605076-rw-r--r-- 1 root root 2127506677 Oct 19 00:00 CDH-5.16.1-1.cdh5.16.1.p0.3-el7.parcel-rw-r...
原创
发布博客 2019.10.19 ·
546 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Maven打jar包的三种方式

不包含依赖jar包该方法打包的jar,不包含依赖的jar包,也没有指定入口类。<build> <plugins> <plugin> <!-- 指定项目编译时的java版本和编码方式 --> <groupId>org.apache.maven.plugins<...
转载
发布博客 2019.10.11 ·
322 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive自定义函数

hive自定义函数:UDF :User-Defined Function (用户自定义函数)一进一出UDAF : User-Defined Aggregation Function(用户自定义聚合函数) 多进一出UDTF : User-Defined Table-Generating Function(用户自定义表生成函数)一进多出这里重点说一下自定义UDF的使用:因为在使用hive清洗...
原创
发布博客 2019.10.11 ·
150 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

spark编译

编译需要依赖:1.scala 下载安装2.maven 下载安装,修改maven的仓库地址3.git yum安装如果使用maven编译的话最后不会生成tar.gz包,所以我们使用以下方式:编译命令:(--name参数是写上你的hadoop的版本,-Dhadoop.version写上你的hadoop版本,此方式默认的scala版本是2.11.8)./dev/make-distribu...
原创
发布博客 2019.10.11 ·
191 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

还原hadoop离线项目实战

项目架构:idea创建sb项目:至此,sb项目构建完毕,找到程序入口,测试成功!搭建nginx环境:1,安装c++依赖cd /etc/yum.repos.drm -rf *上传 CentOS6-Base-163.repo 文件---->/etc/yum.repos.dyum clean allyum makecacheyum -y install gcc pcre...
原创
发布博客 2019.10.05 ·
171 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

本地idea提交到yarn上运行错误解析

1.Exception in thread "main" org.apache.hadoop.security.AccessControlException: Permission denied: user=yoohhwz, access=EXECUTE, inode="/tmp/hadoop-yarn":hadoop:supergroup:drwx------解决方案:在main方法首行加上...
原创
发布博客 2019.09.04 ·
1134 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

javaAPI操作HDFS进行文件流传输

##直接粘代码public class HDFSTest {public static final String HDFS_PATH="hdfs://hadoop001:9000";public static final String HADOOP_NAME="hadoop";Configuration configuration=null;FileSystem fs=null;@B...
原创
发布博客 2019.08.25 ·
1710 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

记录一次ssh远程别的机器找不到java环境的问题

环境:hadoop001hadoop002hadoop003三台机器,在hadoop001机器上远程启动hadoop002机器的zookeeper时候无法找到java环境,不能远程启动hadoop002机器上的zookeeper[hadoop@hadoop001 ~]$ ssh hadoop002 ${ZOOKEEPER_HOME}/bin/zkServer.sh startJMX e...
原创
发布博客 2019.08.25 ·
861 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Shell中awk和sed简单用法

awk:[hadoop@hadoop001 script]$ cat awk.log张三,李四,王五北京,上海,深圳‘18’,20,161.取出第一列[hadoop@hadoop001 script]$ cat awk.log | awk -F ‘,’ ‘{print $1}’张三北京‘18’2.取出第一列,第三列[hadoop@hadoop001 script]$ cat ...
原创
发布博客 2019.08.24 ·
306 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Shell相关

shell的两种执行方式:1.使用./ 脚本名执行chmod u+x shell脚本名–给当前用户一个可执行权限,如果别的用户需要执行权限,可以给其它用户可执行的权限,然后使用 ./shell脚本名 执行该脚本2.sh shell脚本名shell的debug模式:1.sh -x shelll脚本名2.在 脚本中 #!/bin/bash -x ,然后使用./shell脚本名执行shel...
原创
发布博客 2019.08.24 ·
148 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

阿里云主机Hadoop-HA集群搭建步骤(详细)

环境:阿里云三台:centos7.2hadoop-2.6.0-cdh5.15.1.tar.gzjdk-8u45-linux-x64.gzzookeeper-3.4.6.tar.gz先在三台机器上分别创建一个hadoop用户,并切换至hadoop用户[root@hadoop001 ~]# useradd hadoop[root@hadoop002 ~]# useradd hadoop...
原创
发布博客 2019.08.21 ·
880 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

Hive小Demo

需求分析:求各个区域下最受欢迎的产品的TOP 3假设我们mysql上存放了两表,一张city_info城市信息表,一张product_info产品信息表city_info:city_id 城市idcity_name 城市名字area 区域信息(华东、华北、华南、华中这些)product_info:product_id 产品idproduct_name 产品名称extend_inf...
原创
发布博客 2019.07.27 ·
645 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Sqoop

Sqoop:一个hdfs(或者说hive,hbase)和关系型数据库(本文以mysql为例)交互的工具,可以将hdfs上面的数据导出到关系型数据库(如mysql),也可以将关系型数据库(mysql)导入到hdfs上,导入导出都是针对hdfs来说的。Sqoop搭建:1.下载与cdh对应版本的sqoop版本,然后解压,改名或者创建软连接[hadoop@hadoop001 software]$ ...
原创
发布博客 2019.07.24 ·
176 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive分区分桶详解

一、分区概念:分区最主要的目的:实现快速查询为什么要创建分区:单个表数据量越来越大的时候,在Hive select查询中一般会扫描整个表内容(暴力扫描),会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。(1)、Hive的分区和mysql的分区差异:mysql分区是将表中的字段拿来直接作为分区字段,而hive的分区则是分区字段不在...
原创
发布博客 2019.07.23 ·
299 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏
加载更多