![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
总结
Iridescent_cy
这个作者很懒,什么都没留下…
展开
-
APP项目业务术语
业务术语1.用户 设备id,唯一性2.新增用户 首次打开应用的用户 -- 如果一个用户首次打开某app,那这个用户定义为新增用户。 卸载再安装不是新增 日新增用户、周新增用户、月新增用户3.活跃用户 指定时间段内打开过app的用户即为活跃用户。多次打开算一次。 4.周(月)活跃用户 某个自然周(月)内启动过应用的用户,该周(月)内的多次启动只记一个活跃用户。 5.月活率 月活跃用户 / 截止到当月累计用户总数。6.沉默用户 用户仅在安装当天(次日)启动原创 2020-10-24 16:33:52 · 380 阅读 · 0 评论 -
面试提问的相关问题
1.Hive和HBase有什么区别?Hive的定位是数据仓库,虽然也有增删改查,但其删改查对应的是整张表而不是单行数据,查询的延迟较高。其本质是更加方便地使用mr的威力来进行离线分析的一个数据分析工具。Hbase的定位是hadoop的数据库,是一个典型的Nosql,所以Hbase是用来在大量数据中进行低延迟的随机查询的。2.hive 特点?a.可扩展:Hive可以自由地扩展集群的规模,一般情况下不需要重启服务b.延展性:Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数c.容错:原创 2020-09-03 18:46:54 · 306 阅读 · 1 评论 -
kafka高可用搭建
启动zookeeper启动kafka nohup bin/kafka-server-start.sh config/server.properties &关闭kafka bin/kafka-server-stop.sh单机随机选择一台服务器把kafka传上去:node7-2# 解压 tar -xzf kafka_2.12-2.5.0.tgz# 重命名 mv kafka_2.12-2.5.0 kafka# 删除tar包 rm -rf kafka_2.12-2.5.0.原创 2020-08-30 23:43:18 · 102 阅读 · 0 评论 -
Hive特殊查询&Beeline
特殊查询Grouping set Grouping sets是union的简写Cubes 立方体 WITH CUBE 列出元素的所有组合情况Rollups 筒 with ROLLUP 依次少一个Grouping__ID function 对于每一列,如果该列已在该行中聚合,则为结果集中的一行生成“1”值,否则值为“0” Grouping_id其实就是所统计各列二进制和Groupping示例官方表结构create external table key_val(key str原创 2020-08-30 22:57:17 · 497 阅读 · 0 评论 -
Hbase hw/高可用
Hw实战随机选择一台服务器(node7-3)上传hbase-2.2.5-bin.tar.gztar -zxv hbase-2.2.5-bin.tar.gzrm -rf hbase-2.2.5-bin.tar.gzmv hbase-2.2.5/ hbaserm -rf docs/配置文件:(conf/hbase-env.sh)export JAVA_HOME=/usr/java/jdk1.8.0_251-amd64/查看方式:whereis javall /usr/bin/javal原创 2020-08-30 22:18:10 · 177 阅读 · 0 评论 -
HIVE实操--DDL、DCL、DML
启动服务器: bin/hive --service metastore nohup bin/hive --service metastore & nohup bin/hiveserver2 &启动客户端:bin/hive数据库的CRUDDDL--单用户模式创建一个数据库:create database mydata;创建一张表:create table psn_1(id int,name string);插入一条记录:insert into psn_1(id,nam原创 2020-08-30 21:29:28 · 183 阅读 · 0 评论 -
Hive环境搭建
【Hive本地模式】先启动Hadoop、zookeeper;随便选择一台虚拟机(node7-4),将hive的包(apache-hive-3.1.2-bin.tar)传到虚拟机上,解压删除tar包重命名;修改配置文件,复制模板conf/hive-env.sh.template重命名;conf/hive-env.sh 修改HADOOP_HOME路径HADOOP_HOME=/data/hadoop/hadoop启动hive命令:bin/hive,输入一个命令show databases;启动不报原创 2020-08-15 10:00:19 · 116 阅读 · 0 评论 -
理论(概念/定义)总结
为什么要使用Hive传统数据仓库的不足:• 无法满足快速增长的海量数据存储需求• 无法有效处理不同类型的数据• 计算和处理能力不足Hive的介绍Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是将HQL转化成MapReduce程序。 Hive是一个构建于Hadoop顶层的数据仓库工具,主要用于对存储在 Hadoop 文件中的数据集进行数据整理、特殊查询和分析处理。Hive在某种程度上可以看作是用户编程接口,本身不存储和处理数..原创 2020-07-30 18:43:56 · 555 阅读 · 0 评论 -
Hadoop综合试题5
判断题1.Yarn的默认配置是不允许JVM重用,但用户可以通过配置来允许JVM重用,一个task运行在一个JVM上,开启重用的话,该task在JVM上运行完毕后,JVM继续运行其他task (对)2.Hadoop集群添加节点有两种方式,一种是静态添加,关闭hadoop集群,配置相应配置,重启集群。另一种是动态添加,不关闭hadoop集群,配置相关配置,刷新节点即可(对)3.一个集群里可以添加...原创 2020-01-04 16:49:17 · 12369 阅读 · 0 评论 -
Zookeeper入门&安装&实战&内部原理
Zookeeper概述Zookeeper是一个分布式协调服务的开源概架,主要用来解决分布式集群中应用系统的一致性问题,例如怎样避免同时操作同一数据造成脏读的问题。ZooKeeper本质上是一个分布式的小文件存储系统,提供基于类似于文件系统的目录树方式的数据存储,并且可以对树中的节点进行有效管理,从而用来维护和监控你存储的数据的状态变化,通过监控这些数据状态的变化,从而可以达到基于数据的集群管理...原创 2020-01-04 15:50:49 · 145 阅读 · 0 评论 -
Hadoop(MapReduce工作机制)
MapReduce核心编程思想1)分布式的运算程序往往需要分成至少2个阶段2)第一个阶段的MapTask并发实例,完全并行运行,互不相干3)第二个阶段的ReduceTask并发实例互不相干,但是他们的数据依赖于上一个阶段的所有MapTask并发实例的输出4)MapReduce编程模型只能包含一个Map阶段和一个Reduce阶段,如果用户的业务逻辑非常复杂,那就只能多个MapReduce程...原创 2019-12-29 20:37:19 · 378 阅读 · 0 评论 -
综合试题4
问答题1.简单描述Shuffle过程环形缓冲区的作用?答:key,value从map()方法输出,被outputcollector收集通过getpartitioner()方法获取分区号,再进入环形缓冲区。 默认情况下,环形缓冲区大小值为100M.当map输入的数据进入环形缓冲区的量达到80MB以上时,那么开始执行溢写过程,溢写过程中如果有其他数据进入,那么由剩余的百分之二十反向写入.溢写过程会...原创 2019-12-28 15:33:59 · 8855 阅读 · 1 评论 -
Hadoop序列化&MapReduce框架原理(1)
Hadoop序列化1.什么是序列化序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。2.为什么要序列化序列化可以存储“活的”对象,可以将“活的”对象发送到远程计算机。3.为什么不用Java的序列化Java的序列化是一个重量级序列化框架(Seri...原创 2019-12-25 20:49:07 · 409 阅读 · 0 评论 -
MapReduce概述&编程思想&WordCount案例
1.mapreduce定义和优缺点?定义:MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce的核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。优点:(1)MapReduce易于编程(2)良好的扩展性(3)高容错性(4)适合PB级以上海量数据的离线...原创 2019-12-24 20:31:48 · 658 阅读 · 0 评论 -
HDFS读写数据&NameNode和SecondaryNameNode&DataNode
数据读写相关的类FileSystem是一个通用文件系统的抽象基类,可以被分布式文件系统继承,所有可能使用Hadoop文件系统的代码都要使用到这个类.DistributedFileSystem就是FileSystem在HDFS文件系统中的实现。FileSystem的open()方法返回的是一个输入流FSDataInputStream对象,在HDFS文件系统中具体的输入流就是DFSInputSt...原创 2019-12-23 22:01:52 · 372 阅读 · 0 评论 -
HDFS客户端操作&API操作&IO流操作
HDFS客户端环境准备(使用IDEA)1.根据自己电脑的操作系统拷贝对应的编译后的hadoop jar包到非中文路径(D:\Develop\hadoop-2.7.2)2.配置HADOOP_HOME环境变量3 . 配置Path环境变量4.创建一个Maven工程,如:HdfsClientDemo5.在pom.xml中导入相应的依赖坐标+日志添加<dependencies>...原创 2019-12-23 20:24:51 · 295 阅读 · 0 评论 -
第三次综合45题
39.[问答题]是否可以自行搭建Hadoop集群?请自行设计一个hadoop集群,并简述基本搭建流程。[答案]是的设计集群可以做如下设计:3台(hadoop默认的副本数是3)hadoop01: namenode、datanode、nodemanager 、historyservehadoop02 : resourcemanager、datanode、nodemanagerhado...原创 2019-12-23 14:32:20 · 4151 阅读 · 0 评论 -
HDFS概述和HDFS的Shell操作
HDFS定义:HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。使用场景:适合一次写入,多次读取的场景,且不支持文件的修改。适合用来做数据分析,并不适合用来做网盘应用。HDFS优缺点:优点:1.高容错性(1)数据自动保存多个副本...原创 2019-12-21 15:09:25 · 207 阅读 · 0 评论 -
大数据概论&Hadoop入门
大数据概论1.大数据概念大数据(Big Data):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。主要解决:海量的数据存储、海量数据的分析计算、统一资源管理调度。2.数据存储单位有:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、BD1 By...原创 2019-12-17 20:25:59 · 243 阅读 · 0 评论 -
shell脚本练习题
1.写一个脚本输入任意数组或者数字,例如 2 3 4 5 6 7 8 9,输出最大值、最小值、平均值#!/bin/bashmin=$ 1max=$ 1sum=0for i in “$@”doif [ $min -gt $ i ]thenmin=$ifiif [ $max -lt $ i ]thenmax= $ifisum= $[ $sum+ $i]doneecho...原创 2019-12-17 17:38:01 · 458 阅读 · 0 评论 -
Linux&Shell选择问答判断32题
问答题1.每分钟清空/tmp/内容 ; 每个星期三的下午6点和8点的第5到15分钟之间备份/home/jinghang文件夹下的数据到 /opt/software[答案]/ * * * * /bin/rm -rf /tmp/*5-15 18,20 * * 3 /bin/cp /home/jinghang/* /opt/software/2.Linux如何查看进程,和杀死进程?[答案] ...原创 2019-12-17 13:09:34 · 3968 阅读 · 0 评论 -
12-16总结
Shell中的数组Shell数组用括号来表示,元素用"空格"符号分割开。语法格式1:arr=()语法格式2:arr=(value1 value2 value3)(这种方式带值)注意:往数组里添加值,数组的长度自动增长创建空数组:arr=()创建非空数据(元素以空格分割):arr1=(1 2 3 4 5)读取数组元素值的一般格式: echo ${array_name[index]}根...原创 2019-12-16 21:06:21 · 137 阅读 · 0 评论 -
周末小题15道
1.每分钟清空/tmp/内容crontab -ecrontab -lcrontab -r*/1 * * * * /bin/rm -rf /tmp/2.每天早上6.30清空/tmp/的内容30 6 * * * /bin/rm -rf /tmp/*3.每个星期三的下午6点和8点的第5到15分钟之间备份/home/jinghang文件夹下的数据到 /opt/software5-15 18...原创 2019-12-16 17:54:12 · 670 阅读 · 0 评论 -
Linux简单50题
判断题1.Linux是单用户、多任务的操作系统( B )A.正确B.错误2.使用shutdown -k 5 表示5分钟后关闭计算机( B )A.正确B.错误3.Linux 内核版本又分为 稳定版 和 开发版,两种版本是相互关联( A )A.正确B.错误4.Windowns server的服务器市场占有率比Linux的更大(B )A.正确B.错误5.Windowns...原创 2019-12-14 17:08:48 · 2861 阅读 · 0 评论 -
12-14总结
Shell概述Shell是一个命令行解释器,它接收应用程序/用户命令,然后调用操作系统内核。Shell还是一个功能强大的编程语言,易编写、易调试、灵活性强。Shell解析器1.Linux提供的shell解析器有:[jinghang@wcy ~]$ cat /etc/shells/bin/sh/bin/bash/sbin/nologin/bin/dash/bin/tcsh/b...原创 2019-12-14 16:18:18 · 84 阅读 · 0 评论 -
12-12总结
一、安装XShell 5出现的问题:会话连接虚拟机失败问题点:配置linux系统ip和电脑VMnet8 ip时,将两个IP写的一模一样,IP重复了。解决方法:xxx.xxx.x.x修改最后一个x,倒数第二个x相同,即 ip处于同一网段。二、常用基本命令总结及练习帮助命令 man(获得帮助信息) man[命令或配置文件] help(获得shell内置命令的帮助信...原创 2019-12-12 22:52:16 · 106 阅读 · 0 评论 -
12-13 总结
常用基本命令帮助命令man 获得帮助信息man [命令或配置文件] (功能描述:获得帮助信息)help 获得shell内置命令的帮助信息help 命令 (功能描述:获得shell内置命令的帮助信息)常用快捷键ctrl + c :停止进程ctrl+l :清屏;彻底清屏是:resetctrl + q :退出善于用tab键 :提示(更重要的是可以防止敲错)上下键 :...原创 2019-12-13 21:58:14 · 217 阅读 · 0 评论