自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(40)
  • 收藏
  • 关注

原创 Power BI Dax 之时间智能函数

Power bi dax 时间智能函数

2022-12-29 00:01:04 3206

原创 Power BI Dax 之All(表函数) Values Distinct 的区别

Distinct Value 的区别

2022-12-01 00:58:40 740 1

原创 Power BI Dax 之聚合函数

Max/Sum/Average

2022-11-30 23:08:15 1080

原创 Power BI DAX 之日期函数

Power BI DAX 之日期函数

2022-07-19 14:34:59 10553

原创 Spark Core 算子常见面试题

1.手敲WCreduceByKeysc.textFile("data/wccount.txt") .flatMap(_.split(" ")) .map(x=>{ (x,1) }) .reduceByKey(_+_) .foreach(println)sc.stop()groupBykeysc.textFile("data/wccount.txt") .flatMap(_.split(" ")) .map(x=>{ (x,1

2022-04-17 00:21:27 1753

原创 Hive拓展

1 数据集成?数据同步,抽数,导数离线数仓,离线同步数据同步的时候几个必要的东西1.数据源包括从哪里来,到哪里去可以是数据库,也可以是别的,比如FTP,ES等2.表来源表 目标表3.字段映射关系4.同步方式/同步逻辑比如从mysql到hive先清空hive表的某些分区,再插入,全删全插直接插入hive到mysql呢?全删全插直接插入主键冲突updatehive到mysql,我们公司称为“回流”同步方法1.直接对m

2022-04-10 18:46:24 1971

原创 Hive知识点总结

1.四大byorder by(全局排序) 只有一个reduce。这里无论设置多少个reduce数,都是一个 优点:全局排序 缺点:当数据量大的时候,耗时长,效率低,适用于较小数据量的场景(十万、百万) sort by(分区内排序) 对每一个reduce内部的数据进行排序,全局结果来说不是排序的 也就是说只能保证每一个reduce输出的文件中的数据是按照规定字段排序的 适用于数据量大,但是对排序要求不严格的场景,可以大幅提高执行效率(抽样)需要预先设置reduce个数,reduce结果文件内

2022-04-09 18:18:03 1942

原创 Hive的分区以及各种函数用法

1.分区表的创建create table emp_partition(EMPNO bigint,ENAME string,JOB string,MGR bigint,HIREDATE string,SAL bigint,COMM bigint,DEPTNO bigint)PARTITIONED BY (dt string)ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';创建一个以dt为分区列的分区表2.向表中插入数据ins

2022-04-05 19:18:27 3826

原创 Hive文件格式(表stored as 的五种类型)

hive文件存储格式包括以下几类:1、TEXTFILE2、SEQUENCEFILE3、RCFILE4、ORCFILE(0.11以后出现)5、PARQUET1、其中TEXTFILE为默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理; SEQUENCEFILE,RCFILE,ORCFILE,PARQUET格式的表不能直接从本地文件导入数据,数据要先导入到textfile格式的表中, 然后再从表中用insert导入SequenceFile..

2022-04-04 19:44:20 1632

原创 HIVE常用语句及内外部表对比

1.Hive 命令hive -e SQL语句hive -e "select * from tname"hive -f SQL文件 hive -f test0330.sqltest0330.sql文件create table .. temp01 select * from emp;create table .. temp02 select * from dept;insert into dws_resultselect * from temp01 le

2022-04-04 19:08:02 919

原创 使用客户端工具dbeaver(JDBC)连接hive

1.进入app/hadoop/etc/hadoop/目录下配置core-site.xml,添加配置文件如下 <property> <name>hadoop.proxyuser.heipilei.hosts</name> <value>*</value> </property> <property> <name>hadoop.proxyuser.

2022-04-04 02:00:29 2742 3

原创 Mysql两种主要数据引擎的区别

nnoDB和MyISAM是在使用MySQL最常用的两个表类型,它们各有各的优点,视具体应用而定。Innodb引擎(该引擎在5.5后的MySQL数据库中为默认存储引擎。)Innodb引擎提供了对数据库ACID事务的支持,并且实现了SQL标准的四种隔离级别。该引擎还提供了行级锁和外键约束,它的设计目标就是处理大容量数据库系统,它本身其实就是基于MySQL后台的完整的数据库系统,MySQL运行时,Innodb会在内存中建立缓冲池,用于缓冲数据和索引。但是该引擎不支持FULLTEXT类型的索引,而且它启动也比

2022-04-03 20:53:51 647

原创 学Hive 认识Hive

官网 :hive.apache.orghive简介 Hadoop广义是大数据生态圈,其中hive是使用sql完成大数据统计分析的工具Hadoop狭义:HDFS MR YarnHive是facebook公司开源的工具,用来解决海量的结构化日志的统计问题hive是构建在hadoop之上的数据仓库HDFS:hive的数据是存放在HDFS(distributed storage),元数据(medadata)存在对应的底层关系型数据库,一般是MySQLMR(计算引擎):Hive的作业(SQL).

2022-04-03 17:09:43 1395

原创 Linux上Mysql的安装

安装检查系统有没有安装mysql,需要卸载rpm -qa | grep mysql安装前如果你的系统有Mariadb数据库,需要卸载rpm -qa | grep mariadb#如果存在,卸载rpm -e mariadb-libs-5.5.68-1.el7.x86_64#如果存在依赖关系,会报错,,用yum卸载yum remove mariadb-libs-5.5.68-1.el7.x86_64下载我们需要的mysql版本wget https://c...

2022-04-03 02:00:41 126

原创 Hadoop一定会问的面试题 (MapReduce)

1.hadoop解决数据倾斜的方法。首先什么是数据倾斜?以及现象比如一个文件 a b ca 一亿个 map1b 1个 map2c 1个 map3做wordcount以及现象: map1 99% map2 100% mp3 100%如何解决数据倾斜:1.combiner (a,1),....(a,1)->(a.1亿) 减少网络传输但是avg不适合,如果导致数据倾斜的文件的key分布在很多文件中,不同的mapper 这种就不太适用2.如果导致数据倾斜..

2022-03-30 03:17:17 721

原创 Hadoop Wordcount案例用Java编写MapReduce

1.Maven 本地环境搭建,请看上一篇文章本地Maven环境配置2.打开Ieda工具,新建Mavenpeoject3.编写Mapper类package WC;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Map

2022-03-30 02:10:36 1661

原创 Windows 的Maven安装与环境配置

1.官网下载Maven包Index of /maven/maven-3https://dlcdn.apache.org/maven/maven-3/2.本地解压3.修改settings.xml让下载的东西默认不放在C盘,防止空间占用越来越大 <localRepository>D:\Maven\apache-maven-3.6.3\repository</localRepository>下载依赖的时候更加快速 <mirr...

2022-03-29 02:34:21 425

原创 Sql 经典题目(视频相同爱好推送)

Sql 经典题目id代表用户,spu_id 代表用户浏览的产品,可以看出 001 浏览了 ac 004 浏览了 acf所以我们的这题就是将001 004 有相同爱好(其中一个人的浏览全通东西必须完全与另一个人浏览的部分相同)应用场景(抖音 视频 等 点赞 推送视频)首先我们这是sql server 是运行的,别的数据库想法可以这样,语句的实现可能更加便捷我们的思路先是将每个人浏览的东西全部展现出来 格式如下(all_name 是浏览的所有产品)..

2022-03-29 01:52:50 440

转载 理解zookeeper选举机制

一、zookeeper集群配置多个实例共同构成一个集群对外提供服务以达到水平扩展的目的,每个服务器上的数据是相同的,每一个服务器均可以对外提供读和写的服务,这点和redis是相同的,即对客户端来讲每个服务器都是平等的。这篇主要分析leader的选择机制,zookeeper提供了三种方式:LeaderElection AuthFastLeaderElection FastLeaderElection(最新默认)默认的算法是FastLeaderElection,所以这篇主要分析它的选..

2022-03-26 19:52:02 6189

转载 zookeeper集群中的三种角色Leader、Follower和observer

像Mysql的主从模式会分master主节点和slave从节点一样,在zookeeper集群中,节点也有不同的角色,承担着不同角色。zookeeper有三种角色:老大Leader(领导者) 2、老二Follower (跟随者) 3、老三Observer(观察者)。其中,Follower和Observer归类为Learner(学习者)按重要性排序是Leader > Follower > Observer老大领导者LeaderLeader在集群中只有一个节点,可以说是老大No.1,是

2022-03-26 19:47:22 5702

转载 Zooker的作用及状态

zookeeper基本概念和功能zookeeper是hadoop生态圈里面重要的底层的框架,主要为上层的框架提供分布式协调服务的。hadoop-spof 问题及HA 解决思路引入集群协调服务框架的必要性zookeeper 简介ZooKeeper 是一个分布式应用程序协调服务,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等。目前zookeeper 被广泛应用于hadoop 生态体系中各种框架的分布式协调,我们也可以利用zookeeper 来简化分布式应用开发Zk简介1、zo

2022-03-26 19:45:24 1035

原创 MapReduce的学习

MapReduce :java编写数仓开发 sql=》 HiveMapReduce easily writing application 轻松编写应用程序对于如何容错,如何进行RPC通信等,开发人员不需要关注,关注我们的业务即可,这方面来讲是easily 但是对MR开发很麻烦 相较于SPARK(业务逻辑 + MR框架自带的内置组件=》 分布式应用程序开发)Map:映射 把一个任务拆解成多个Reduce:聚合 把拆解的任务做最后的聚合操作wordcount 举例子hdf

2022-03-26 03:18:59 129

原创 YARN的三种调度器

理想情况下,我们应用对yarn资源的请求应该立刻被满足,但是实际上,资源有限。特别是很忙的集群。调度本身就是一大难题,很难找到完美的解决方案,所以yarn提供了三种调度器1.FIFO SchedulerFIFO = first in first out 先进先出 (队列)这种调度把应用提交按顺序排成一个队列,先进先出的队列,在进行资源分配的时候,先给队列中最头部的应用分配资源,等到应用满足了,再给下一个分配,以此类推。问题:大的应用可能会占用所有的资源,造成阻塞,不适合集群2

2022-03-26 03:00:20 3890

原创 Sql 之连续登录(经典面试题)

1 .求用户连续登录的最大天数用户login表先将每个人按登录天数row_numberselect * ,row_number()over(partition by a.id order by login_date) as rnfrom login a我们会发现 login_date 与rn之前存在一定关系(连续登陆的 login_date-rn 都是一样的值)所以我们将login_date-rn 计算出来select * ,convert(varchar..

2022-03-26 01:49:19 4060

原创 YARN的介绍与学习以及(MapReduce on yarn )

YARN 作用 :资源调度分配比 开启hdfs多两个进程 ResourceManager NodeManager 这两个进程主要的模块1.ResourceManager (RM)yarn的资源控制框架的中心模块,负责集群中的所有的资源的统一管理和分配。RM里面: 调度器 应用管理器2.调度器(ResourceScheduler)根据各个应用程序的资源需求,进行分配3.应用管理器(Applications Manager)负责监控和跟踪AM的执行状态4.

2022-03-25 01:59:52 1936

原创 sql迭代(with)查询上下级等,以及sqlserver的行列转换

emp表1 为了便于分析,先拿一个员工select * from emp awhere a.empno in ('7369')2 用with迭代出7369的所有上级(迭代里面不能用外部关联)with tt as(select a.empno ,a.ENAME,a.mgr,b.ENAME as mgr_ENAME,count(a.ename)over(partition by a.empno) as rnfrom emp aleft join em...

2022-03-23 20:59:25 3918

原创 HDFS的读写流程(面试题)

HDFS的读流程RPC:远程过程调用HDFS Cilent会调用FileSystem.open(filePath)方法,与NN进行RPC通信,返回该文件的block块的列表,返回FSDataInputStream对象HDFS Client调用 FIleSystem.Read()方法,与第一个块的最近的DN进行读取,如果读取成功则进行下一个块,若不成功则去下一个DN进行读取,以此类推,等到所有的块都读取完毕。HDFS Cilent 调用 FSDatainputStream.close方法,

2022-03-21 15:51:10 142

转载 hdfs 机架感知

一、背景分布式的集群通常包含非常多的机器,由于受到机架槽位和交换机网口的限制,通常大型的分布式集群都会跨好几个机架,由多个机架上的机器共同组成一个分布式集群。机架内的机器之间的网络速度通常都会高于跨机架机器之间的网络速度,并且机架之间机器的网络通信通常受到上层交换机间网络带宽的限制。Hadoop在设计时考虑到数据的安全与高效,数据文件默认在HDFS上存放三份,存储策略为:第一个block副本放在客户端所在的数据节点里(如果客户端不在集群范围内,则从整个集群中随机选择一个合适的数据节点来存放)..

2022-03-20 14:35:22 1526

原创 HDFS 主从架构 以及优缺点

NameNode SecondaryNameNode DataNodeNN 名称节点存储的内容包括1.文件名称2.文件的目录结构3.文件的属性(权限,副本数,组别,大小,创建时间等)可以用 hdfs dfs -ls 能看到的4.一个文件被对应切割哪些数据块(包括副本的块) ==》对应分布到哪些DateNode管理文件系统命名空间,其实就是维护系统树的文件和文件夹(整体架构)主要文件编辑日志文件 :edits镜像文件:fsimage路径 : /home/he

2022-03-20 02:57:58 291

原创 各种开窗函数

1 sum(sal)over()求和 partition by order by 可以省略2 avg(sal)over()求平均 partition by order by 可以省略3 count()over()计数 partition by order by 可以省略4 row_number()over( order by sal)排序 partition by 可以省略 order by 不可以省略 5 rank( )over(or...

2022-03-20 00:09:22 615 1

原创 开窗函数 First_value , Last_value

首先数据格式select * from empSQL:select *,first_value( sal)over(partition by deptno order by sal) as a,last_value(sal)over(partition by deptno order by sal) as b,last_value(sal)over(partition by deptno order by sal rows between unbounded precedin...

2022-03-19 23:43:26 669 2

转载 Hadoop中小文件过多的问题

问题定义HDFS上的小文件是指文件大小明显小于HDFS上块(block)大小(默认64MB)的文件。在hdfs上大量存储小文件会给hadoop的扩展性和性能带来严重问题。原因首先,在HDFS中,任何一个文件,目录或者block在NameNode节点的内存中均以一个对象表示(元数据)(Every file, directory and block in HDFS is represented as an object in the namenode’s memory),而这受到NameNode物理内存

2022-03-19 19:54:10 1991

原创 Power BI Dax 基础知识

1 字符串拼接Test = "A"&"B"&" "&"c"2 Blank() 函数表实空白Test = BLANK()&"AAaD"Test = BLANK()+ 3223 value() 将表示数值的文本字符串转换为数值4 values() 返回的是表 参数可以是列名可以是物理表名字 列名返回的是不重复表 表名保留重复值5 Distinct() 返回的是表 参数可以是列名可以是表名字 列名返回的是不重复表Value...

2022-03-19 18:35:33 1354

原创 Hive rows between ,range between 的理解跟案例

unbounded preceding 起始行unbounded following 结尾行current row 当前行1 preceding 当前行的前1行1 following 当前行的后1行首先这是数据格式1.当前行到最后一行的汇总(逐行递减)with tt as(select a.*,sum(mainid)over(rows between current row and unbounded following) as sumsfrom (select r

2022-03-18 21:48:37 2732

原创 简单的HDFS 命令

hdfs dfs-ls 显示当前目录结构,-ls -R 递归显示目录结构 ll -a ll-h (KB)-put [localsrc] [dst] 从本地加载文件到HDFS-get [dst] [localsrc] 从HDFS导出文件到本地-cp [src] [dst] 从源目录复制文件到目标目录-text 查看文件内容-mkdir -P (层级目录) 创建目录-tail 显示文件末尾-help...

2022-03-17 21:47:29 282

原创 /etc/profile 跟 ~/.bashrc ~/.bash_profile的区别

交互式模式:就是shell等待你的输入,并且执行你提交的命令。这种模式被称作交互式是因为shell与用户进行交互。这种模式也是大多数用户非常熟悉的:登录、执行一些命令、签退。当你签退后,shell也终止了。非交互式模式:在这种模式下,shell不与你进行交互,而是读取存放在文件中的命令,并且执行它们。当它读到文件的结尾,shell也就终止了。login shell:就是需要输入用户名及密码登录的shell,如开机shell登陆、ssh登陆、su - username(从root切换到其他用户时...

2022-03-16 21:05:23 2695

原创 阿里云上Hadoop的安装

1.创建新用户useradd heipilei2.heipilei用户下创建所需文件夹mkdir sourcecode software app log lib data tmp shell3.将下载好的hadoop java 文件上传到 software下software 目录下 rz4.将hadoop java 解压到 用户app下tar -xzvf hadoop-3.1.3.tar.gz -C ../app/tar -xzvf jdk-8u212-linux-x64.t

2022-03-15 01:48:05 2957

原创 CDH和Hadoop的区别

1.hadoop有几个版本?2.CDH有几种安装方式?3.CDH在安装认证方面做了什么改变?----------------------------------------------------------------------------------------------------------------------------Cloudera的CDH和Apache的Hadoop的区别 目前而言,不收费的Hadoop版本主要有三个(均是国外厂商),分别是:Apache(最原始的版本,所有.

2022-03-14 21:03:14 4969

原创 简单描述什么是hadoop?

1.狭义数据存储: HDFS数据计算: MapReduce资源和计算作业调度分配: YARN谁最重要?个人理解 数据存储 计算跟调度相辅相成。2.广义:hadoop生态圈的所有软件(模块)hive sqoop HBASE kafka spark flink(偏实时)等离线数仓 实时数仓...

2022-03-14 21:01:04 2183

原创 破碎记忆的linux命令

1.useradd heipilei 添加用户2.passwd heipilei 修改用户密码3.rm -rf test.txt 删除文件4.who 命令用于列举出当前已登录系统的用户名称 : 用户名、tty号、时间日期、主机地址5.pkill -kill -t pts/1 强制退出已登录用户6.whoami ...

2022-03-14 01:33:05 1230

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除