pengda555-CSDN博客

原创数据库三大范式

第一范式（1NF）：要求数据库表的每一列都是不可分割的原子数据项。第二范式（2NF）：在1NF的基础上，非码属性必须完全依赖于候选码（在1NF基础上消除非主属性对主码的部分函数依赖）第二范式需要确保数据库表中的每一列都和主键相关，而不能只与主键的某一部分相关（主要针对联合主键而言）。第三范式（3NF）：在2NF基础上，任何非主属性不依赖于其它非主属性（在2NF基础上消除传递依赖）第三范式需要确保数据表中的每一列数据都和主键直接相关，而不能间接相关。...

2021-11-30 19:53:22 384

原创数据倾斜原因及解决方法

一、数据倾斜产生的原因key分布不均匀；业务数据激增；建表时考虑不周。二、数据倾斜的解决方法

2021-11-30 16:49:16 353

原创 sql的优化

（1）、创建索引时，尽量避免全表扫描（2）、避免在索引上使用计算（3）、尽量使用参数化sql（4）、尽量将多条SQL语句压缩到一句sql中（5）、用where字句替换Having字句（6）、连接多个表时，使用表的别名（7）、尽量避免使用游标等等...

2021-11-30 16:19:35 549

原创 hive sql的优化

优化的根本思想：尽早尽量过滤数据，减少每个阶段的数据量减少job数解决数据倾斜问题尽早尽量过滤数据，减少每个阶段的数据量1.列裁剪：例如某表有a,b,c,d,e五个字段，但是我们只需要a和b，那么请用select a,b from table 而不是select * from table2.分区裁剪：在查询的过程中减少不必要的分区，即尽量指定分区3.利用hive的优化机制减少job数：不论是外关联outer join还是内关联inner join，如果join的

2021-11-30 16:18:16 324

原创大数据实时部分面试题

1、flume的组件有哪些？source组件，channel组件，sink组件2、sql怎么优化（1）、创建索引时，尽量避免全表扫描（2）、避免在索引上使用计算（3）、尽量使用参数化sql（4）、尽量将多条SQL语句压缩到一句sql中（5）、用where字句替换Having字句（6）、连接多个表时，使用表的别名（7）、尽量避免使用游标等等3、宽窄依赖窄依赖：父RDD的一个分区只能被子RDD的一个分区所依赖宽依赖：父RDD的一个分区会被子RDD的多个分区所依赖.

2021-11-26 20:04:50 376

原创十四、Flink高频面试题

1简单介绍一下 FlinkFlink 是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。并且 Flink 提供了数据分布、容错机制以及资源管理等核心功能。Flink提供了诸多高抽象层的API以便用户编写分布式任务：DataSet API，对静态数据进行批处理操作，将静态数据抽象成分布式的数据集，用户可以方便地使用Flink提供的各种操作符对分布式数据集进行处理，支持Java、Scala和Python。DataStream API...

2021-11-24 16:27:51 184

原创十三、数据倾斜

公司一：总用户量1000万，5台64G内存的服务器。公司二：总用户量10亿，1000台64G内存的服务器。1.公司一的数据分析师在做join的时候发生了数据倾斜，会导致有几百万用户的相关数据集中到了一台服务器上，几百万的用户数据，说大也不大，正常字段量的数据的话64G还是能轻松处理掉的。2.公司二的数据分析师在做join的时候也发生了数据倾斜，可能会有1个亿的用户相关数据集中到了一台机器上了（相信我，这很常见）。这时候一台机器就很难...

2021-11-24 16:10:41 135

原创十二、Spark Streaming高频面试题

1 Spark Streaming第一次运行不丢失数据kafka参数 auto.offset.reset 参数设置成earliest 从最初始偏移量开始消费数据2 Spark Streaming精准一次消费1、手动维护偏移量2、处理完业务数据后，再进行提交偏移量操作极端情况下，如在提交偏移量时断网或停电会造成spark程序第二次启动时重复消费问题，所以在涉及到金额或精确性非常高的场景会使用事物保证精准一次消费3 Spar...

2021-11-23 21:53:05 1137

原创十一、Spark Core & SQL高频面试题

1 Spark有几种部署方式？请分别简要论述1）Local：运行在一台机器上，通常是练手或者测试环境。2）Standalone：构建一个基于Mster+Slaves的资源调度集群，Spark任务提交给Master运行。是Spark自身的一个调度系统。3）Yarn：Spark客户端直接连接Yarn，不需要额外构建Spark集群。有yarn-client和yarn-cluster两种模式，主要区别在于：Driver程序的运行节点。4...

2021-11-22 16:32:42 353

原创十、Scala高频面试题

1、开发环境要求掌握必要的Scala开发环境搭建技能。2变量和数据类型掌握var和val的区别掌握数值类型（Byte、Short、Int、Long、Float、Double、Char）之间的转换关系3流程控制掌握if-else、for、while等必要的流程控制结构，掌握如何实现break、continue的功能。4函数式编程掌握高阶函数、匿名函数、函数柯里化、函数参数以及函数至简原则。...

2021-11-21 20:41:37 847

原创九、Hbase高频面试题

1、HBase存储结构2、RowKey设计原则1）rowkey长度原则2）rowkey散列原则3）rowkey唯一原则3、RowKey如何设计1）生成随机数、hash、散列值2）字符串反转4、HBase的特点是什么1）大：一个表可以有数十亿行，上百万列；2）无模式：每行都有一个可排序的主键和任意多的列，列可以根据需要动态的增加，同一张表中不同的行可以有截然不同...

2021-11-21 15:56:19 686

原创 8、Azkaban高频面试题

1、每天集群运行多少指标?每天跑100多个指标，有活动时跑200个左右。2、任务挂了怎么办？1）运行成功或者失败都会发邮件、发钉钉、集成自动打电话（项目中遇到的问题）2）最主要的解决方案就是重新跑。3）报警网站睿象云-用人工智能点亮传统运维 ...

2021-11-21 15:45:59 800

原创七、Sqoop高频面试题

1、Sqoop参数/opt/module/sqoop/bin/sqoop import \--connect \--username \--password \--target-dir \--delete-target-dir \--num-mappers \--fields-terminated-by \--query ...

2021-11-21 15:29:56 2927

原创六、Hive高频面试题

1、Hive的架构Hive元数据默认存储在derby数据库，不支持多客户端访问，所以将元数据存储在MySQl，支持多客户端访问。2、Hive和数据库比较Hive和数据库除了拥有类似的查询语言，再无类似之处。1）数据存储位置Hive存储在HDFS。数据库将数据保存在块设备或者本地文件系统中。2）数据更新Hive中不建议对数据的改写。而数据库中的数据通常是需要经常进行修改...

2021-11-19 16:57:16 221

原创五、Kafka高频面试题

1、Kafka架构生产者、Broker、消费者、ZK；注意：Zookeeper中保存Broker id和消费者offsets等信息，但是没有生产者信息。2、Kafka的机器数量Kafka机器数量=2*（峰值生产速度* 副本数/100）+13、副本数设定一般我们设置成2个或3个，很多企业设置为2个。副本的优势：提高可靠性；副本劣势：增加了网络IO传输4、Kafka压测...

2021-11-19 15:37:05 173

原创四、Flume高频面试题

1、Flume组成，Put事务，Take事务1）taildir source （1）断点续传、多目录（2）哪个Flume版本产生的？Apache1.7、CDH1.6（3）没有断点续传功能时怎么做的？自定义（4）taildir挂了怎么办？不会丢数：断点续传...

2021-11-18 19:47:33 314

原创三、Zookeeper高频面试题

1、选举机制半数机制：2n+1，安装奇数台10台服务器：3台20台服务器：5台100台服务器：11台台数多，好处：提高可靠性；坏处：影响通信延时2、常用命令ls、get、create、delete3、Paxos算法（扩展）注意：暂时先不用看。如果后期准备面今日头条，需要认真准备，其他公司几乎都不问。Paxos算法一种基于消息传递且具有高度容错特性的一致性算法。分布式系统中的节点通信存在两种模型：共享内存（Shared...

2021-11-18 19:20:16 1322

原创二、hadoop高频面试题

1、Hadoop常用端口号 hadoop2.x Hadoop3.x 访问HDFS端口 50070 9870 访问MR执行情况端口 8088 8088 历史服务器 19888 19888 客户端访问集群端口 ...

2021-11-18 16:31:46 125

原创一、Linux&Shell高频面试题

1、Linux常用高级命令序号命令命令解释 1 top 查看内存 2 df -h 查看磁盘存储情况 3 iotop 查看磁盘IO读写 4 iotop -o 直接查看比较高的磁盘读写程序 5 netstat -tunlp | grep 端口号查看端口占用情况 6 uptime 查看报告系统运行时长及平均负载 7 ps -aux 查看...

2021-11-18 09:46:23 221

weixin_48774808的博客