自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(43)
  • 收藏
  • 关注

原创 【第二部分--Python之基础】02

如果a为十进制数178,则~a为十进制数-179;在Python中只有while语句,没有do-while语句。本节先介绍break和continue语句,对于return语句,将在后面的章节中介绍。用于结束本次循环,跳过循环体中尚未执行的语句,接着进行终止条件的判断,以决定是否继续循环。用于比较两个表达式的大小,其结果是布尔类型的数据,即True或False。在循环体正常结束时会执行else语句,如果发生中断,则不运行else语句。:+(正号)和-(负号),例如:+a还是a,-a是对a的取反运算。

2024-03-26 19:13:34 755 2

原创 【第二部分--Python之基础】01

高级语言:Python Java PHP C# Go Ruby C++ ... => 字节码低级语言:C 汇编 => 机器码PHP类:适用于写网页吗,局限性。Python Java:既可以写网页,也可以写后台功能。— Python 执行效率低,开发效率高。

2024-03-25 22:35:11 924 2

原创 04Hadoop分布式文件系统HDFS(HDFS)

大数据技术之Hadoop(HDFS)

2022-06-04 10:50:33 523

原创 02Linux操作系统(三)--shell

第1章 Shell概述Linux与shell的关系Shell 中文意思贝壳,寓意类似内核的壳。Shell是指一种应用程序,这个应用程序提供了一个界面,用户通过这个界面访问操作系统内核的服务。Shell 是一个用 C 语言编写的程序,它是用户使用 Linux 的桥梁。Shell 既是一种命令语言,又是一种程序设计语言。Shell 脚本(shell script)是一种为 shell 编写的脚本程序。常说的shell通常都是指 shell 脚本,但shell和shell script是两个不同的概念。通常

2022-05-27 17:18:06 648

原创 07数据导入Sqoop

第1章 Sqoop简介Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。Sqoop项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部署,也为了让开发人员能够更快速的迭代开发,Sqoop独立成为一个Apache项目。

2022-05-26 00:06:07 463

原创 04Hadoop分布式文件系统HDFS(入门)

第1章 Hadoop概述1.1 Hadoop是什么1.2 Hadoop发展历史(了解)1.3 Hadoop三大发行版本(了解)Hadoop三大发行版本:Apache、Cloudera、Hortonworks。Apache 版本最原始(最基础)的版本,对于入门学习最好。2006Cloudera内部集成了很多大数据框架,对应产品CDH 。2008Hortonworks文档较好,对应产品HDP 。2011Hortonworks现在已经被Cloudera公司收购,推出新的品牌CDP 。

2022-05-25 17:29:46 612

原创 02 Linux操作系统(二)

用户管理命令useradd添加用户语法:useradd [选项] 用户名passwd修改密码命令语法:passwd [选项] [用户名]用户密码:生产环境中,用户密码长度8位以上,设置大小写加数字加特殊字符,要定期更换密码。qwhA1/j=userdel(user delete)删除用户 -r 删除账号时同时删除宿主目录(remove)权限管理三种基本权限r 读权限(read)w 写权限(write)x 执行权限 (execute)权限说明所有者 所属组 其他人第

2022-05-24 10:57:35 206

原创 02 Linux操作系统(一)

Linux操作系统1 Linux简介UNIX与Linux发展史Unix在1969年,美国贝尔实验室的肯汤普森在DEC PDP-7机器上开发出了UNIX系统。Linux出现于1991年,是由芬兰赫尔辛基大学学生李纳斯·托瓦兹(Linus Torvalds)和后来加入的众多爱好者共同开发完成 。Linux介绍Linux是一种自由和开放源码的操作系统,存在着许多不同的Linux发行版本,但它们都使用了Linux内核。Linux内核网站:www.kernel.org基于内核,再增加一些桌面,应用程

2022-05-23 19:47:25 604

原创 01安装虚拟机

vmware / virualboxvm => virtual machine1 vmware => n vmredhat / ubuntu / centos7(基于redhat)###新建虚拟机步骤#####1、在电脑中先创建好安装的文件夹vm-env文件下装的是虚拟机工具文件vm-data文件下放置数据文件#2、创建一个文件夹比如single01#3、打开虚拟机,点击新建虚拟机,选择自定义安装,点击下一步如下操作,按图片顺序进行,不再进行文字描述,比较简单。

2022-05-16 09:59:01 102

原创 大数据知识目录

第一阶段:安装虚拟机第二阶段:Linux操作系统第三阶段:zookeeper分布式协调服务框架第四阶段:Hadoop分布式文件系统HDFS第五阶段:Hadoop分布式计算Mapreduce和资源管理第六阶段:数据仓库Hive第七阶段:分布式数据仓库Hbase第八阶段:日志采集Flume第九阶段:分布式搜索Elasticsearch第十阶段:缓存数据库Redis第十一阶段:分布式语言Scala第十二阶段:分布式计算框架Spark第十三阶段:大数据任务调度系统Azkaban第十四阶段:

2022-05-16 09:46:01 298

原创 Linux(Centos7)取消密码复杂度及长度限制

(1)编辑密码验证策略vim /etc/pam.d/system-authpassword requisite pam_pwquality.so try_first_pass local_users_only retry=3 authtok_type= minlen=6 ucredit=1 lcredit=1 ocredit=1 dcredit=1(2)修改用户xiao的密码注:输入一次密码:123456,提示“无效的密码: 密码未通过字典检查 - 过于简单化/系统化”,不用管,继续输入密码:

2021-12-04 19:27:52 3458

原创 ElasticSearch原理+实战知识点

今天为大家带来流计算领域经常使用的组件 ElasticSearch,本文通过原理+实战操教程带领大家快速学会 ElasticSearch 搜索引擎,以下内容全部经过实战操作,可以根据文档进行学习~大纲如下:1 ElasticSearch 概述1.1 全文搜索引擎小伙伴们经常使用 google 或者百度进行搜索内容,在输入框中输入关键字,这个时候,网站会将包含 关键字 的所有网页返回,大家有没有想过,为什么输入关键字就可以查到结果呢? 同时网站上返回的页面内容大多都是一些 非结构化 的文本数据,

2021-11-30 18:56:08 1942

原创 Flink实时计算topN热榜

topN的常见应用场景,最热商品购买量,最高人气作者的阅读量等等。1. 用到的知识点1.Flink创建kafka数据源;2.基于 EventTime 处理,如何指定 Watermark;3.Flink中的Window,滚动(tumbling)窗口与滑动(sliding)窗口;4.State状态的使用;5.ProcessFunction 实现 TopN 功能;2. 案例介绍通过用户访问日志,计算最近一段时间平台最活跃的几位用户topN。1.创建kafka生产者,发送测试数据到kafka;2

2021-11-30 00:04:12 1997 2

转载 彻底解决Hive小文件问题

最近发现离线任务对一个增量Hive表的查询越来越慢,这引起了我的注意,我在cmd窗口手动执行count操作查询发现,速度确实很慢,才不到五千万的数据,居然需要300s,这显然是有问题的,我推测可能是有小文件。我去hdfs目录查看了一下该目录:发现确实有很多小文件,有480个小文件,我觉得我找到了问题所在,那么合并一下小文件吧:insert into test select * from table distribute by floor (rand()*5);这里使用distribute by进

2021-11-29 23:30:33 785

原创 flink 提交程序

flink提交程序有两种方式:1、Standalone HA2、Flink on yarn首先结合例子先介绍第一种方法:#Standalone HApackage cn.wcimport org.apache.flink.api.java.utils.ParameterToolimport org.apache.flink.streaming.api.scala._object StreamWordCount01 { def main(args: Array[String]): Un

2021-08-28 22:12:09 375

原创 lunix重新分配root 和 home 空间内存

查看虚拟机磁盘分布[root@data ~]# df -lh文件系统 容量 已用 可用 已用% 挂载点devtmpfs 4.7G 0 4.7G 0% /devtmpfs 4.7G 0 4.7G 0% /dev/shmtmpfs 4.7G 13M 4.7G 1% /runtmpfs

2021-08-17 09:30:34 343

原创 sqoop创建job出现的一系列问题解决方法

1、一种是会报空指针错误如图:出现这种情况有两种可能,第一种是缺少依赖包:cp /opt/software/mysql-connector-java-5.1.31.jar /opt/install/sqoop/lib/cp /opt/software/commons-lang-2.6.jar /opt/install/sqoop/lib/cp /opt/software/java-json.jar /opt/install/sqoop/lib/第二种是/sqoop/lib/下面多了hive-ex

2021-08-07 23:17:52 657

原创 02-taildir source

------------------------------------taildir source ------------------------------------1、内容查询====================================[root@singlelucky flume]# head -10000 prolog.log>tail01/prologhead10000.log[root@singlelucky flume]# ls tail01prologhea

2021-07-14 18:36:45 106

原创 01-spooldir

-------------------------------------- spooldir -----------------------------------------1、创建cnfvim flume_spooldir_file_hdfs.cnf2、配置信息# 组件说明a1.sources = s1a1.channels = c1a1.sinks = k1# 初始化数据源a1.sources.s1.type = spooldira1.sources.s1.spoo

2021-07-14 18:32:54 125

原创 flume 190 INSTALL

#1、解压和改名tar -zxvf /opt/download/hadoop/apache-flume-1.9.0-bin.tar.gz -C /opt/software/mv /opt/software/apache-flume-1.9.0-bin /opt/software/flume190#2、配置cd /opt/software/flume190/confmv flume-env.sh.template flume-env.shexport JAVA_HOME=/opt/softwa

2021-07-14 18:27:27 82

原创 sqoop的表的导入

#------ hdfs -> mysql ------create table sqp_order(create_date date,user_name varchar(20),total_volume decimal(10,2));sqoop export \--connect jdbc:mysql://singlelucky:3306/test \--username root \--password kb12kb12 \--table sqp_order \-m 1 \

2021-07-11 20:30:33 251

原创 SQOOP 1.4.6 INSTALL

#1、版本支撑1.4.6|7 => hadoop 2.X + hive 1.X + hbase 1.X => hadoop 3.1.3 + hive 3.1.2 + hbase 2.3.5(not support)#2、操作类型:参考方向为RDBMS -import -> hadoop(hdfs|hive|hbase) -export -> RDBMS(mysql|oracle|...) #3、sqoop146安装 #解压和改名 tar -zxvf /opt/d

2021-07-11 20:19:50 86

原创 hbase 表结构

#命名空间:namespace => databaselist_namespace #查看所有命名空间列表create_namespce 'NS_NAME' #创建命名空间drop_namespace 'NS_NAME' #删除命令空间#数据表:namespace:tablelist_namespace_tables 'NS_NAME' #查看指定命名空间下的所有列表 list #查看当前hbase中的所有表 create 'NS_NAM

2021-07-11 11:51:44 313

原创 hbase235 INSTALL

#hbase安装#解压和改名 tar -zxvf /opt/download/hadoop/hbase-2.3.5-bin.tar.gz -C /opt/software/ mv /opt/software/hbase-2.3.5-bin.tar.gz /opt/software/hbase235 cd /opt/software/hbase235/conf vim hbase-env.sh # export JAVA_HOME=/opt/software/jdk180 # ex

2021-07-11 11:47:26 55

原创 zookeeper357 install

#0、概念角色: leader learner(follower observer) client状态: looking leading following选举: 过半机制,先启动先当头leader#1、zookeeper安装#解压和改名 tar -zxvf /opt/download/hadoop/apache-zookeeper-3.5.7-bin.tar.gz -C /opt/software/ mv /opt/software/apache-zookeeper-3.5.7-

2021-07-11 11:43:59 47

原创 hive拉链表

#拉链表: org.apache.hadoop.hive.ql.io.AcidoutputFormat或者bucketedcreate table groupbyorder (buytime date,name string,pay decimal (10,2))row format delimitedfields terminated by ','lines terminated by '\n'stored as textfilelocation '/kb12/hive/groupby

2021-07-11 11:39:15 206

原创 hive优化(数据倾斜)

#hive优化(数据倾斜)#问题描述: 倾斜 小文件join大文件 内容倾斜 JOBS多 join union sub_query count(distinct) 建议使用group by,因为在hive底层中,自带对group by 进行优化 #解决方案: 建模 分层=>轻量聚合 分区=>避免数据交换 压缩=>减少体量 配置优化 合理减少job,并行无依赖job,增加jvm重用 合理控制mappe

2021-07-10 22:47:23 114 4

原创 创建maven工程

#udf#创建maven工程#pom.xml <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId> <version>3.1.2</version> </dependency> #创建继承自UDF的自定义类 import org.apache.hadoop,hive.ql.exe

2021-07-10 22:45:34 88

原创 hive 数据类型、表结构和函数

#hive 数据类型 java mysql hive 字符 char[]/String char(n)/varchar(n) string数值 byte/short/int/long tinyint/smallint/int/bigint int/bigint BigInteger decimal(37,18) decimal(38,18) float/double BigDecimal布尔 boolean bi

2021-07-10 22:38:53 590

原创 hive 操作

#7、hive执行流程#逻辑计划 #Antlr Antlr => AST #another tool for language recognition #D:\teaching\notes\kb12\system_install\hadoop\apache\apache-hive-3.1.2-src\ql\src\java\org\apache\hadoop\hive\ql\parse #Hive.g => HiveLexer.g Select

2021-07-10 22:29:52 90

原创 HIVE 3.1.2 INSTALL

#1、install 省略解压、重命名tar -zxvf /opt/download/hive-3.1.2.tar.gz -C /opt/softwaremv /opt/software/hive-3.1.3 /opt/software/hive312#2、配置cd /opt/software/hive312/confmv hive-default.xml.template hive-default.xmlvim hive-site.xml ------------------------

2021-07-10 22:20:23 67

原创 SHELL 命令

#查看#查看目录 [DIR] 缺省默认为查看当前目录 ls [DIR] #查看目录中的内容简单列表 ll [DIR] #查看详情列表 ls -la [DIR] #查看所有内容 #查看文件 输出至控制台=>标准输出 cat [-n] FILE_PATH #查看文件中的所有内容 head -n FILE_PATH #查看文件前n行的内容 tail -n FILE_PATH #查看文件后n行的内容 #查看/etc/profile文件的第6~10行的内容 he

2021-07-10 21:42:19 219

原创 JDK 1.8 INSTALL

#创建目录mkdir download software;mkdir download/java software/java# -z *.gz# -x 解压# -c 压缩# -v 输出详情# -f 固定格式符tar -zxvf jdk-8u171-linux-x64.tar.gz -C /opt/software/java/#创建独立便于维护自定义环境变量 【推荐的环境变量配置方式】vi /etc/profile.d/myenv.shJAVA_HOME=/opt/software/

2021-07-10 21:34:55 64

原创 在LUNIX中安装MYSQL

wget https://dev.mysql.com/get/mysql57-community-release-el7-9.noarch.rpmrpm -ivh mysql57-community-release-el7-9.noarch.rpmyum -y install mysql-server#尝试开启mysql服务systemctl start mysqld#查看服务状态systemctl status mysqld#关闭服务进行字符集配置systemctl stop mys

2021-07-10 21:29:39 141

原创 LUNIX INSTALL

vmware / virualboxvm => virtual machine1 vmware => n vmredhat / ubuntu / centos7(基于redhat)#查看主机名hostname#修改主机名hostnamectl set-hostname singlelucky#查看防火墙状态systemctl status firewalld#关闭防火墙systemctl stop firewalld#禁用防火墙systemctl disable

2021-07-10 21:20:24 94 2

原创 一键启停hive脚本

#编写hive脚本[root@singlelucky ~]# ls bak kb12 script test2.log text.log [root@singlelucky ~]# cd script [root@singlelucky script]# ls ALLOW_RM_SRC_LOG cha01 cha01.sh cha02.sh.bak deploy.sh ls.log my.cnf mysql.cnf [root@singlelucky script]# mv

2021-07-08 19:57:06 510 2

原创 Hive 安装

#1、解压和改名hive tar -zxvf /opt/download/hadoop/apache-hive-3.1.2-bin.tar.gz -C /opt/software/ mv /opt/software/apache-hive-3.1.2-bin /opt/software/hive312#2、配置cd /opt/software/hive312/conf mv hive-default.xml.template hive-default.xml vim hive-site.xm

2021-07-08 19:29:57 94

原创 springmvcmybatis工程的创建

1、打开IDE创建工程

2021-07-08 00:00:04 106

原创 csv文件中日期格式问题

csv文件中日期格式问题我们在hive中做MySQL的 题目时,遇到日期格式不是yyyy-mm-dd时,会比较头疼。关于csv文件

2021-06-29 14:04:24 10100 5

原创 hive中端口10000

关于在hive中无法查询到端口10000的问题 ![在这里插入图片描述](https://img-blog.csdnimg.cn/20210616195005301.jpg?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80Njc4Nzc4OA==,size_16,color_FFFFFF,t_70#...

2021-06-16 19:53:43 2125

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除