weixin_52189442-CSDN博客

原创大数据面试题

一、自我介绍各位面试官好，我是xxx，我来面试咱们公司的大数据开发岗位，上一家公司是北京转转科技有限责任公司，在其数据部门担任大数据开发工程师，主要负责项目架构的总体设计、技术调研、需求沟通、集群搭建、平台集群监控、代码开发以及平台的相关调优等。二、为什么要离职工作没有学习发展的空间，自己想在面试工作的相关产业中多加学习，或是前一份工作与自己的生涯规划不合等等，回答的答案最好是积极正面的。或者说，我希望能获得一份更好的工作，如果机会来临，我会抓住。三、java模块面试题...

2022-09-05 12:29:12 1341

原创 Kafka

什么是消息中间件/消息队列？消息队列（Message Queue）一般大家习惯简称为MQ。主要特点为异步处理,也就是说消息的发送者和接收者不需要同时与消息队列交互。消息会保存在队列中，直到接收者取回它。消息队列是消息中间件的一种实现方式。典型的消息中间件包含 3 部分：producer（发布者）broker（消息中间件）consumer（消费者）使用消息中间件的优点：解耦：消息写入中间件，需要消息的系统自己从消息队列中订阅异步：将消息写入消息队列，非必要的业务逻辑以异步的方式运行，加快响

2021-10-21 09:00:45 1141

原创 Redis

Nosql数据库NoSql就是Not Only sql。Nosql是非关系型数据库，它是关系型数据库的良好补充，而不能替代关系型数据库。NoSql是为了解决高并发、高可扩展、高可用以及高写入而产生的数据库解决方案。RedisRedis是用C语言开发的高性能的键值对存储的Nosql数据库。redis是一个内存nosql数据库redis中也是存储key-value形式的数据redis中的key-value相比hbase等数据库来说，redis的value比较强大，它的value可以不仅仅是一个by

2021-10-20 09:08:49 434

原创 ClickHouse引擎详解与视图

ClickHouse引擎详解一、引擎详解1、Log系列引擎（1）TinyLog引擎（2）StripeLog引擎（3）Log引擎（4）三种Log系列引擎对比2、MergeTree系列引擎（一）MergeTree引擎（1）创建表（2）导入数据（3）合并数据（4）数据存储原理（二）ReplacingMergeTree引擎（1）无版本参数（2）有版本参数（3）总结（三） CollapsingMergeTree引擎（四）VersionedCollapsingMergeTree引擎（五）SummingMergeTree

2021-10-20 09:05:51 1472

原创 ClickHouse基本语法

ClickHouse基本语法一、基本语法1、DDL基础（1）建表指定引擎（2）复制表结构建表（2）查看建表语句（3）查看表结构（4）修改表结构（5）移动表（6）查看数据库下的表（7）设置表属性2、DML基础（1）插入数据（2）更新删除数据3、分区表操作二、查询语法1、with（1）定义变量（2）调用函数（3）子查询2、from 表函数（1）from mysql（2）from hdfs（3）from remote（4）from file（5）from numbers3、array join一、基本语法1、

2021-10-20 09:05:00 5823

原创 ClickHouse基础

ClickHouse基础一、clickhouse-简介1、ClickHouse优点2、ClickHouse缺点3、应用场景4 核心概念（1）数据分片（2）列式存储（3）向量化（4）表（5）分区（6）副本（7）引擎必须指定引擎二、ClickHouse部署1、单节点部署2、CK目录介绍（1）/etc/clickhouse-server（2）/var/lib/clickhouse（3）/var/log/clickhouse-server（4）/usr/bin 默认添加进系统环境变量中3、CK服务启

2021-10-20 09:03:53 1721 1

原创 Scala的函数式编程和akka

方法跟函数是有区别的函数和方法都可以封装运算逻辑定义方法用def关键字函数本质就是引用类型，就相当于在内存中new出来的一个Function实例使用java实现函数将函数抽象为接口，作为参数传入方法中。具体的实现在调用方法时由用户定义public interface FilterFunction { Boolean apply(Integer in);}public interface MapFunction { Integer invoke(Integer in);}pub

2021-10-20 09:00:58 144

原创 Scala的面向对象与高级语法

一、面向对象1、类和对象详解（1）类组成结构构造函数、成员变量、成员方法（函数）、局部变量、代码块、内部类（2）构造器scala有两类构造器：主构造器和辅助构造器主构造器跟在类名后面，如 class Student2(val name: String, var age: Int) 。类名后面不写括号或者括号里没参数，则是个空参主构造器辅助构造器是一个特殊的方法，定义在类中 def this(name:String,age:Int,gender:String)在辅助构造器中第一行必须调用其他

2021-10-20 09:00:01 636

原创 Scala基础

scala基础一、scala基本语法1、变量（1）数据类型（2）变量定义（3）变量取值（4）数据类型转换2、object类与class类的区别3、Scala的样例类二、流程控制1、if else2、块表达式3、for循环（1）语法格式（2）嵌套循环（3）守卫模式和推导式4、while与do while（1）break的实现三、方法与函数1、函数（1）函数定义（2）特殊参数的函数（3）函数细节2、方法（1）方法定义（2）方法的调用（3）嵌套方法一、scala基本语法1、变量（1）数据类型scala中

2021-10-20 08:59:18 712

原创 Hive调优

Hive调优一、查看执行计划（Explain）二、Fetch 抓取三、本地模式四、表的优化1、小表Join大表（MapJOIN）2、大表 join 大表（1）空key过滤（2）空key转换（3）SMB(Sort Merge Bucket join)分桶join3、group by4、Count(Distinct) 去重统计5、笛卡尔积6、行列过滤7、分区、分桶五、合理设置 Map 及 Reduce 数1、复杂文件增加 Map 数2、小文件进行合并3、合理设置 Reduce 数六、并行执行七、严格模式八、JV

2021-10-20 08:58:07 263

原创 Hive函数与文件格式

Hive函数与文件格式一、Hive函数1、查看所有函数2、查看函数语法3、NVL函数：空字段赋值4、if函数5、case函数6、 substr 、substring截取字符串7、行转列（1）concat拼接（2）concat_ws拼接（3）collect_set(col)和collect_list(col)（4）行转列案例7、列转行（1）explode(col)炸裂函数（2）lateral view 侧窗口函数，维护了炸裂前后的关系（3）列转行案例8、窗口函数（1）over()（2）lag()与lea

2021-10-20 08:57:49 225

原创 Hive-HQL语法详解

一、DDL 数据定义1、创建数据库CREATE DATABASE [IF NOT EXISTS] database_name[COMMENT database_comment][LOCATION hdfs_path][WITH DBPROPERTIES (property_name=property_value, ...)];[IF NOT EXISTS]：是否不存在，是的话创建。避免要创建的数据库已经存在错误[COMMENT database_comment]：表注释[LOCATION

2021-10-20 08:57:23 2995

原创 Hive基础

Hive基础一、Hive基本概念1、什么是Hive（1）Hive简介（1）Hive本质：将HQL转换为MapReduce程序2、Hive优缺点（1）优点（2）缺点3、Hive架构原理4、Hive 和数据库比较（1）查询语言（2）数据存储位置（3）数据更新（4）索引（5）执行（6）执行延迟（7）可扩展性（8）数据规模二、Hive安装部署1、安装好mysql并开启远程连接权限2、上传解压3、配置（1）在$HIVE_HOME/conf 目录下修改hive-env.sh.template为 hive-env.sh

2021-10-19 17:36:51 317

原创 zookeeper基础

zookeeper基础一、zookeeper入门1、概述2、Zookeeper特点3、Zookeeper数据结构4、Zookeeper应用场景二、zookeeper选举机制三、zookeeper安装部署1、上传安装包并解压2、在安装目录下创建zkData文件夹3、配置zoo.cfg文件4、在zkData中创建一个myid文件，并添加与 server 对应的编号5、分发给集群，并修改每个服务器下的myid6、集群操作四、zookeeper客户端命令行操作1、客户端启动连接2、基本命令3、节点类型4、事件监听

2021-10-19 17:35:24 484

原创 Hbase的JavaAPI

Hbase的JavaAPI一、java操作Hbase步骤二、添加依赖三、获取连接四、新增、删除命名空间五、新增表五、修改表六、删除表七、DML操作1、增加一行或多行数据2、删除一行或多行或一个单元格或多个单元格3、获取一行或多行数据或一行的列族或单元格4、获取整张表数据5、利用缓存批量写入6、使用importTsv工具上传数据一、java操作Hbase步骤java操作Hbase步骤：1、添加依赖2、获取HbaseConfiguration对象3、设置zookeeper地址4、获取连接对象5、

2021-10-19 17:34:36 966

原创 Hbase基础

一、Hbase概念1、Hbase定义Hbase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库2、Hbase逻辑结构在HDFS上存储时，每个命名空间为一个文件夹，里面有多个表，每个表为一个文件夹，表里数据过长时，会横向切分为多个Region（区），每个Region为一个文件夹。在Regoin文件夹中，以列族为单位将数据纵向切分，分为一个个Store，每个Store为一个文件夹，Store下存储着一个个数据文件（为什么是一个个，是因为同一Store下的数据可能是分多次写入）。通过命名空间

2021-10-19 17:34:19 1334

原创 Hadoop高可用

Hadoop高可用一、单namenode架构局限性二、单点故障问题三、HA高可用机制（1）HA机制简介（2）NFS与QJM（3）failover故障切换（4）脑裂及解决参考博客 https://blog.csdn.net/lb812913059/article/details/79718413一、单namenode架构局限性NameSpace（命名空间的限制）由于Namenode在内存中存储所有的元数据（metadata）。NN在管理大规模的命名空间时，单个Namenode所能存储的对象（文件+

2021-10-19 17:33:12 649

原创 Yarn基础

一、Yarn原理Yarn是一个资源调度平台，负责为运算程序提供服务器运算资源。其上可运行各类分布式运算程序。相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。1、Yarn基础架构YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。其中NodeManager中包含ApplicationMaster、containerYARN 也是典型的 Master-Slave 架构，

2021-10-19 17:32:54 295

原创 MapReduce

一、MapReduce定义MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个Hadoop集群上。二、MapReduce优缺点1、优点MapReduce易于编程它简单的实现一些接口，就可以完成一个分布式程序，这个分布式程序可以分布到大量廉价的PC机器上运行。也就是说你写一个分布式程序，跟写一个简单的串行程序是一模一样的。就是因为这

2021-10-19 17:31:55 1219

原创 HDFS实战

HDFS实战一、HDFS安装步骤1、上传安装包到linux12、解压3、解压后的目录4、配置（1）在 hadoop-env.sh 中配置java环境变量（2）修改hdfs-site.xml5、分发到集群的其他节点6、在linux1上初始化namenode7、单节点启动8、页面访问9、日志10、一键启停（1）配置从节点的主机名到workers文件中（2）修改一键启停的命令脚本11、添加系统环境变量二、HDFS的Shell操作（开发重点）1、基本命令2、默认操作本地文件系统3、操作分布式文件系统4、修改默认操作

2021-10-19 17:31:17 407

原创 Hadoop-HDFS基础

Hadoop学习一、Hadoop简介1、Hadoop是什么2、Hadoop的特点3、Hadoop的组成二、HDFS1、HDFS简介2、HDFS优缺点3、HDFS组成架构4、HDFS的读写流程（一） HDFS写数据流程1、剖析文件写入2、网络拓扑-节点距离计算3、机架感知（副本存储节点选择）（二） HDFS读数据流程（三）hdfs 数据流单位 block、packet与chunk5、NN和2NN工作机制（NameNode与Secondary NameNode）6、HDFS文件块大小7、Fsimage和Edit

2021-10-19 17:30:56 1095

原创 log4j2配置详解

log4j2配置详解一、关于配置文件的名称以及在项目中的存放位置二、缺省默认配置文件三、配置详细介绍1.Configuration根节点2.Appenders节点（1）Console子节点（2）File子节点（3）RollingFile子节点（4）Async子节点（5）其他非常用输出源（6）PatternLayout3.Loggers节点（1）Root子节点（2）Logger子节点4.Properties子节点5.配置过滤器< Filters >6.AsyncLogger7.关于日志level

2021-10-19 17:29:54 981

原创 Shell基础

shell介绍一、深入理解Shell1、shell简介2、Shell 会话（环境、上下文）3、Shell 脚本执行的方式4、Shell环境中的系统变量二、shell脚本入门1.一、深入理解Shell1、shell简介shell是命令解释器(command interpreter)，是Unix操作系统的用户接口，程序从用户接口得到输入信息，shell将用户程序及其输入翻译成操作系统内核（kernel）能够识别的指令，并且操作系统内核执行完将返回的输出通过shell再呈现给用户，下图所示用户、she

2021-08-30 23:02:08 186

原创 git基础命令

git基础命令1、设置用户名和邮箱2、git克隆远程仓库3、git查看上次提交之后是否有对文件进行再次修改4、git添加、提交、上传、拉取代码5、提交时忽略文件6、查看提交记录7、查看远程仓库8、免密设置9、Git 工作区、暂存区和版本库10、git回退版本（撤销提交）（一）还没有push，只是在本地commit（二）commit push 代码已经更新到远程仓库11、git分支1、设置用户名和邮箱git config --global user.name "名称" #名称git config --

2021-08-30 22:01:34 67

原创 Linux基础(2)

Linux基础（2）一、网络管理1.Centos 7服务管理命令2.Centos 6服务管理命令3.主机名和域名映射（1）在windows系统上修改域名映射（2）在linux上修改域名映射（3）修改linux主机名4.netstat：检测主机的网络配置和状况二、系统命令1、su：切换用户2、sync：将数据由内存同步到硬盘中3、reboot：重启4、halt：关机5、shutdown：定时关机6、du：用于查看文件或目录的大小（磁盘使用空间）7、df：显示目前在 Linux 系统上的文件系统磁盘使用情况统计

2021-08-27 22:19:04 1527

原创 Linux基础(1)

Linux基础一、Linux目录结构二、Linux基础命令1. cd：切换目录2. pwd：显示当前工作目录3. ls：显示目录下的文件4. mkdir：创建新目录(创建新文件夹)5. touch：创建空文件或更新已存在文件的时间6. echo：将内容打印在控制台显示7. cp：复制文件或目录8. mv：移动文件或目录、文件或目录改名9. rm：删除文件或目录10. ln：产生链接文件（即快捷方式）, 方便操作文件11. cat：显示文件内容12. more：分页显示文件内容13. less：分页显示文件内

2021-08-26 22:31:07 307

原创 Log4j.properties配置详解

参考博客 https://www.cnblogs.com/zhangguangxiang/p/12007924.htmlLog4j.properties配置详解log4j简介1.Loggers2.Appenders3.Layouts配置详解1.配置根Logger2.配置日志信息输出目的地（appender）3.配置日志信息的输出格式（Layout）log4j简介log4j主要有三个重要的组件：Loggers(记录器)：日志类别和级别；Appenders(输出源)：日志要输出的地方；Layout

2021-08-25 15:42:00 125

原创 JDBC学习笔记

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Mar

2021-08-24 21:28:23 60

weixin_52189442的博客