荩辞-CSDN博客

原创 scala代码整理- sparkStream消费kafka数据代码

pom-xml 配置 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.12</artifactId> </dependency> <dependency> <groupId>org

2021-04-07 18:05:30 488

原创 scala代码整理- java.util.Properties 读取配置文件

import java.io.InputStreamReaderimport java.util.Propertiesobject PropertiesUtil { /** * 读取配置文件返回配置对象 * @param propertieName config.properties 配置文件名 * @return properties: Properties对象 */ def load(propertieName:String): Properties ={ ..

2021-04-07 17:57:17 466

原创通过maven把解压后的文件夹加入到工程里module里

没标蓝色按照图下顺序点刷新过一会

2021-03-31 19:20:24 196

原创 zeppelin 更换notebook 默认的interpreter

如上图点击齿轮然后拖动下面的解析器到第一个即为default

2021-03-22 20:46:54 200

原创 Hbase读流程详解

关键组件 -- 读缓存block cache(磁盘读的数据) memstore hstore总结定位操作和写流程中的一致关键字 zk meta-region-server meta表所在位置 meta表结构根据table和row-key所在范围定位region读操作：内存磁盘一起都读读完后要合并merge 比较时间戳读缓存里存的是block 块大小 64K 索引合并的时候磁盘有3个过滤时间rowkey和布隆过滤器此文件是否需要的扩展因为...

2021-03-05 19:43:17 147

原创 hbase row-key设计

总结笔试：关键是三个原则散列性一定要和提前分区联系散列的方式（hash值打散分区号+“_”+）唯一性 ->长度原则（70-100位）要满足数十亿数据设计row-key要规划好预分区散列最好的方式是轮询缺点是不好找拿数据的时候不能用stoprow 到 startrow所以经常用的数据而且要一起拿的尽量放在一个分区考虑数据的集中性和业务相关散列的方式随机数row-key => 类似于分...

2021-03-05 17:44:40 182 1

原创 Hbase写数据流程详解

1. 先说总结的话：客户端client 通过zookeeper 获知meta表所在的节点，又通过table和rowkey在meta表中找到要进行操作的region的节点进行发送请求，请求先追加写入wal日志中，然后数据写入到对应的MEMstore中并在哪里进行排序之后regionserver会返回ack进行核对。详解：meta表的地址在 zookeeper的根目录下的 base 下的 meta-region-server中人工查看的话是乱码然后是节点名称和 hbase机器的.

2021-03-04 15:33:27 327 1

原创 sparkSQL重点

1、SparkSQL是干嘛的？为什么会有SparkSQL?对标hive 简化开发和学习成本2、SparkSQL底层有什么编程抽象？DataFrame 和DataSet3、hive on spark 和 spark on hive区别？我们学的SparkSQL是什么？语法不一样谁负责SQL的解析优化sparkSQL是 spark on hive 玩的spark4、DF、DS、RDD三者之间的区别和联系？只关心数据 =》关心数据...

2021-03-01 21:27:47 132

原创大数据重点

一、Linux 1、常用高级命令列出5个 ps -ef top df -h io top xargs tail uptime netstat cd ls mkdir 2、查看磁盘使用情况、查看进程、查看端口号 df -h top ps netstat二、Shell 1、常用工具（只需要知道名称） awk、sed 、cut sort 京东遍历文件夹，读取文件，读取哪...

2021-02-24 17:35:25 1023

原创大数据高频面试题——手写HQL

目录8.3手写HQL8.3.1 手写HQL 第1题8.3.2 手写HQL 第2题8.3.3 手写HQL 第3题8.3.4 手写HQL 第4题8.3.5 手写HQL 第5题8.3.6 手写HQL 第6题8.3.7 手写HQL 第7题8.3.8 手写SQL 第8题8.3.9 手写HQL 第9题8.3.10 手写HQL 第10题8.3.11 手写HQL 第11题8.3手写HQL8.3.1 手写HQL 第1题表结构：uid,subject_i...

2021-02-23 21:22:57 890

原创大数据面试详解-scala

1.10Scala1.10.1开发环境要求掌握必要的scala开发环境搭建技能。3步：给项目增加scala支持1.10.2变量和数据类型掌握var和val的区别掌握数值类型（Byte、Short、Int、Long、Float、Double、Char）之间的转换关系1.10.3流程控制掌握if-else、for、while等必要的流程控制结构，掌握如何实现break、continue的功能。if-els...

2021-02-23 21:22:19 130

原创大数据面试 - 其他

目录2.4框架版本选型2.5服务器选型2.6 集群规模第4章生产经验—业务4.1 电商常识4.1.1 SKU和SPU4.1.2 订单表跟订单详情表区别？4.2 埋点行为数据基本格式(基本字段)4.2.1 页面4.2.2事件4.2.3曝光4.2.4启动4.2.5错误4.2.6 埋点数据日志格式4.3 电商业务流程4.4维度表和事实表（重点）4.4.1维度表4.4.2 事实表4.5 同步策略（重点）4.6...

2021-02-23 21:18:54 273

原创大数据面试总结 - scala & sqoop

1.7 Sqoop1.7.1 Sqoop参数/opt/module/sqoop/bin/sqoop import \--connect \--username \--password \--target-dir \--delete-target-dir \--num-mappers \--fields-terminated-by \--query "$2" ' and $CONDITIONS;'1.7.2 Sqoop导入导出Null存储一致性问题Hiv..

2021-02-23 21:11:05 1623 2

原创大数据高频面试题——hadoop详解

1.2 Hadoop1.2.1 Hadoop常用端口号1.2.2 Hadoop配置文件以及简单的Hadoop集群搭建（1）配置文件：Hadoop2.x core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml slavesHadoop3.x core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml workers（2）简单的集群搭建过程：JDK安装配置SSH免密登录

2021-02-23 20:56:36 422

原创大数据技术高频面试题——kafka

1.5Kafka1.5.1 Kafka架构生产者、Broker、消费者、ZK；注意：Zookeeper中保存Broker id和消费者offsets等信息，但是没有生产者信息。1.5.2 Kafka的机器数量Kafka机器数量=2*（峰值生产速度*副本数/100）+11.5.3 副本数设定一般我们设置成2个或3个，很多企业设置为2个。副本的优势：提高可靠性；副本劣势：增加了网络IO传输1.5.4 Kafka压测Kafka官方自带压力测试脚本...

2021-02-23 20:39:51 324

原创大数据技术高频面试题——hive

1.6 Hive1.6.1 Hive的架构1.6.2 Hive和数据库比较Hive和数据库除了拥有类似的查询语言，再无类似之处。1）数据存储位置Hive存储在HDFS。数据库将数据保存在块设备或者本地文件系统中。2）数据更新Hive中不建议对数据的改写。而数据库中的数据通常是需要经常进行修改的， 3）执行延迟Hive执行延迟较高。数据库的执行延迟较低。当然，这个是有条件的，即数据规模较小，当数据规模大到超过数据库的处理能力的时候，Hive的并行计算显然能体现...

2021-02-23 15:08:30 193

原创大数据技术高频面试题——数据倾斜 1_不含spark

1.13数据倾斜公司一：总用户量1000万，5台64G内存的服务器。公司二：总用户量10亿，1000台64G内存的服务器。1.公司一的数据分析师在做join的时候发生了数据倾斜，会导致有几百万用户的相关数据集中到了一台服务器上，几百万的用户数据，说大也不大，正常字段量的数据的话64G还是能轻松处理掉的。2.公司二的数据分析师在做join的时候也发生了数据倾斜，可能会有1个亿的用户相关数据集中到了一台机器上了（相信我，这很常见）。这时候一台机器就很难搞定了，最后会很难算出结果。1.13..

2021-02-23 11:12:27 373

原创大数据高频面试题——linux&shell-详解

1.1 Linux&Shell1.1.1 Linux常用高级命令序号命令命令解释1 top 查看内存2 df -h 查看磁盘存储情况3 iotop 查看磁盘IO读写(yum install iotop安装）4 iotop -o 直接查看比较高的磁盘读写程序5 netstat -tunlp | grep 端口号查看端口占用情况6 uptime 查看报告系统运行时长及平均负载7 ps -aux 查看进程1.1.2 Shell常用工具及写过的脚本1）awk、sed、cut、so

2021-02-20 16:31:30 246

原创 2-19号学习笔记

Spark 和 scala 相关数仓项目和采集项目有关大数据 3件事采集存储计算和分析采存算hadoop 历史 1和 2区别面试hadoop2 支持高可用常驻进程container 是 yarn-childAM在yarnchild！为什么spark有standalong 面试 9:17Spark历史面试container 容器机制可用使得其他程序也能使用通过调用的方式 apimapreduce阶段有3次落盘过程中迭代计算还有落盘过程中间状

2021-02-19 19:59:58 91

原创 mysql_在avg函数中加入is not null,来判断空值比例

需求详情见leetcode习题link在avg函数中加入 is not null一种比较好的方案:取最小的日期,为表a1 然后与原表左连接问题转换为 a2.player_id非空占比一般的做法是2个count相除以好的做法是巧妙使用avg函数, 在加入关于is not null的判断 , 字段值为null的话为0, 字段值不为null的话返回 1 然后对所有参加计算的数为分母求比例.避免了2个count相除. 代码如下select round(avg(a2.event

2021-02-04 17:40:21 924

原创 hadoop官网学习之hadoop是什么

目录：0- 如何进入指定版本的官方文档为什么选择hadoop3.1.30- 如何进入指定版本的官方文档hadoop.apache，Hadoop的官网比较大神，进入官网点documentation 版本只有4个，如图1，而如何找到你想看到的版本呢？（latest 是3.3.0，stable是3.2.2 ）比如3.1.3的话,你随便点进去之后，然后修改网址到docs,然后就可以选择了。伸手党： https://hadoop.apache.org/docs/ 直接进入这个网址进行选择。为什么选择ha

2021-01-31 15:51:35 181

原创 (shell 脚本)通过 kill -9 进程名的方式停止某一个进程 (使用grep awk过滤并获取)

通过awk过滤线程名,然后进行后续操作需求需求

2021-01-27 12:37:41 1610 1

原创 Linux虚拟机网络突然连不上网的解决方法

vm15 虚拟机突然连不上网情景办法情景在未进行任何其他非法操作情况下, 突然发现某个虚拟机连不上网,使用 systemctl status network 显示状态为 failed 以及报（Failed to start LSB: Bring up/down networking ）如下图在综合网上各种方案和自己查看日志, 提供某一种解决方案.办法mv /var/lib/NetworkManager /var/lib/NetworkManager.bak道理: 因为每次启动网络,是由N

2021-01-23 21:02:42 1094 4

zlmldylinke的博客