- 博客(23)
- 收藏
- 关注
原创 scala代码整理- sparkStream消费kafka数据代码
pom-xml 配置 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.12</artifactId> </dependency> <dependency> <groupId>org
2021-04-07 18:05:30 488
原创 scala代码整理- java.util.Properties 读取配置文件
import java.io.InputStreamReaderimport java.util.Propertiesobject PropertiesUtil { /** * 读取配置文件返回配置对象 * @param propertieName config.properties 配置文件名 * @return properties: Properties对象 */ def load(propertieName:String): Properties ={ ..
2021-04-07 17:57:17 466
原创 Hbase读流程详解
关键组件 -- 读缓存block cache(磁盘读的数据) memstore hstore总结定位操作和写流程中的一致 关键字 zk meta-region-server meta表所在位置 meta表结构 根据table和row-key所在范围 定位region读操作:内存 磁盘 一起都读 读完后要合并merge 比较时间戳 读缓存里存的是block 块大小 64K 索引合并的时候 磁盘有3个过滤 时间rowkey和布隆过滤器 此文件是否需要的扩展因为...
2021-03-05 19:43:17 147
原创 hbase row-key设计
总结笔试:关键是三个原则散列性 一定要和提前分区联系 散列的方式(hash值打散 分区号+“_”+)唯一性 ->长度原则 (70-100位) 要满足数十亿数据设计row-key要规划好预分区散列最好的方式是轮询 缺点是不好找拿数据的时候 不能用stoprow 到 startrow所以 经常用的数据 而且要一起拿的 尽量放在一个分区考虑数据的集中性 和业务相关散列的方式 随机数row-key => 类似于分...
2021-03-05 17:44:40 182 1
原创 Hbase写数据流程详解
1. 先说总结的话: 客户端client 通过zookeeper 获知meta表所在的节点,又通过table和rowkey在meta表中找到 要进行操作的region的节点 进行发送请求,请求先追加写入wal日志中,然后数据写入到对应的MEMstore中 并在哪里进行排序之后regionserver会返回ack进行核对。详解:meta表的地址 在 zookeeper的 根目录下的 base 下的 meta-region-server中 人工查看的话 是乱码 然后是节点名称和 hbase机器的.
2021-03-04 15:33:27 327 1
原创 sparkSQL重点
1、SparkSQL是干嘛的?为什么会有SparkSQL?对标hive 简化开发 和学习成本2、SparkSQL底层有什么编程抽象?DataFrame 和DataSet3、hive on spark 和 spark on hive区别?我们学的SparkSQL是什么?语法不一样 谁负责SQL的解析优化sparkSQL是 spark on hive 玩的spark4、DF、DS、RDD三者之间的区别和联系?只关心数据 =》 关心数据...
2021-03-01 21:27:47 132
原创 大数据重点
一、Linux 1、常用高级命令列出5个 ps -ef top df -h io top xargs tail uptime netstat cd ls mkdir 2、查看磁盘使用情况、查看进程、查看端口号 df -h top ps netstat二、Shell 1、常用工具 (只需要知道名称) awk、sed 、cut sort 京东 遍历文件夹,读取文件,读取哪...
2021-02-24 17:35:25 1023
原创 大数据高频面试题——手写HQL
目录8.3手写HQL8.3.1 手写HQL 第1题8.3.2 手写HQL 第2题8.3.3 手写HQL 第3题8.3.4 手写HQL 第4题8.3.5 手写HQL 第5题8.3.6 手写HQL 第6题8.3.7 手写HQL 第7题8.3.8 手写SQL 第8题8.3.9 手写HQL 第9题8.3.10 手写HQL 第10题8.3.11 手写HQL 第11题8.3手写HQL8.3.1 手写HQL 第1题表结构:uid,subject_i...
2021-02-23 21:22:57 890
原创 大数据面试详解-scala
1.10Scala1.10.1开发环境要求掌握必要的scala开发环境搭建技能。3步:给项目增加scala支持1.10.2变量和数据类型掌握var和val的区别掌握数值类型(Byte、Short、Int、Long、Float、Double、Char)之间的转换关系1.10.3流程控制掌握if-else、for、while等必要的流程控制结构,掌握如何实现break、continue的功能。if-els...
2021-02-23 21:22:19 130
原创 大数据面试 - 其他
目录2.4框架版本选型2.5服务器选型2.6 集群规模第4章生产经验—业务4.1 电商常识4.1.1 SKU和SPU4.1.2 订单表跟订单详情表区别?4.2 埋点行为数据基本格式(基本字段)4.2.1 页面4.2.2事件4.2.3曝光4.2.4启动4.2.5错误4.2.6 埋点数据日志格式4.3 电商业务流程4.4维度表和事实表(重点)4.4.1维度表4.4.2 事实表4.5 同步策略(重点)4.6...
2021-02-23 21:18:54 273
原创 大数据面试总结 - scala & sqoop
1.7 Sqoop1.7.1 Sqoop参数/opt/module/sqoop/bin/sqoop import \--connect \--username \--password \--target-dir \--delete-target-dir \--num-mappers \--fields-terminated-by \--query "$2" ' and $CONDITIONS;'1.7.2 Sqoop导入导出Null存储一致性问题Hiv..
2021-02-23 21:11:05 1623 2
原创 大数据高频面试题——hadoop详解
1.2 Hadoop1.2.1 Hadoop常用端口号1.2.2 Hadoop配置文件以及简单的Hadoop集群搭建(1)配置文件:Hadoop2.x core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml slavesHadoop3.x core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml workers(2)简单的集群搭建过程:JDK安装配置SSH免密登录
2021-02-23 20:56:36 422
原创 大数据技术高频面试题——kafka
1.5Kafka1.5.1 Kafka架构生产者、Broker、消费者、ZK;注意:Zookeeper中保存Broker id和消费者offsets等信息,但是没有生产者信息。1.5.2 Kafka的机器数量Kafka机器数量=2*(峰值生产速度*副本数/100)+11.5.3 副本数设定一般我们设置成2个或3个,很多企业设置为2个。副本的优势:提高可靠性;副本劣势:增加了网络IO传输1.5.4 Kafka压测Kafka官方自带压力测试脚本...
2021-02-23 20:39:51 324
原创 大数据技术高频面试题——hive
1.6 Hive1.6.1 Hive的架构1.6.2 Hive和数据库比较Hive和数据库除了拥有类似的查询语言,再无类似之处。1)数据存储位置Hive存储在HDFS。数据库将数据保存在块设备或者本地文件系统中。2)数据更新Hive中不建议对数据的改写。而数据库中的数据通常是需要经常进行修改的, 3)执行延迟Hive执行延迟较高。数据库的执行延迟较低。当然,这个是有条件的,即数据规模较小,当数据规模大到超过数据库的处理能力的时候,Hive的并行计算显然能体现...
2021-02-23 15:08:30 193
原创 大数据技术高频面试题——数据倾斜 1_不含spark
1.13数据倾斜公司一:总用户量1000万,5台64G内存的服务器。公司二:总用户量10亿,1000台64G内存的服务器。1.公司一的数据分析师在做join的时候发生了数据倾斜,会导致有几百万用户的相关数据集中到了一台服务器上,几百万的用户数据,说大也不大,正常字段量的数据的话64G还是能轻松处理掉的。2.公司二的数据分析师在做join的时候也发生了数据倾斜,可能会有1个亿的用户相关数据集中到了一台机器上了(相信我,这很常见)。这时候一台机器就很难搞定了,最后会很难算出结果。1.13..
2021-02-23 11:12:27 373
原创 大数据高频面试题——linux&shell-详解
1.1 Linux&Shell1.1.1 Linux常用高级命令序号 命令 命令解释1 top 查看内存2 df -h 查看磁盘存储情况3 iotop 查看磁盘IO读写(yum install iotop安装)4 iotop -o 直接查看比较高的磁盘读写程序5 netstat -tunlp | grep 端口号 查看端口占用情况6 uptime 查看报告系统运行时长及平均负载7 ps -aux 查看进程1.1.2 Shell常用工具及写过的脚本1)awk、sed、cut、so
2021-02-20 16:31:30 246
原创 2-19号学习笔记
Spark 和 scala 相关数仓项目 和 采集项目有关大数据 3件事 采集 存储 计算和分析采存算hadoop 历史 1和 2区别面试hadoop2 支持高可用常驻进程container 是 yarn-childAM在yarnchild!为什么spark有standalong 面试 9:17Spark历史面试container 容器机制 可用使得 其他程序也能使用 通过调用的方式 apimapreduce阶段 有3次落盘过程中 迭代计算 还有落盘过程中间状
2021-02-19 19:59:58 91
原创 mysql_在avg函数中加入is not null,来判断空值比例
需求详情见leetcode习题link在avg函数中加入 is not null一种比较好的方案:取最小的日期,为表a1 然后与 原表左连接问题转换为 a2.player_id非空占比一般的做法是2个count相除以好的做法是 巧妙使用avg函数, 在加入关于is not null的判断 , 字段值为null的话为0, 字段值不为null的话 返回 1 然后对所有参加计算的数为分母求比例.避免了2个count相除. 代码如下select round(avg(a2.event
2021-02-04 17:40:21 924
原创 hadoop官网学习之hadoop是什么
目录:0- 如何进入指定版本的官方文档为什么选择hadoop3.1.30- 如何进入指定版本的官方文档hadoop.apache,Hadoop的官网比较大神,进入官网点documentation 版本只有4个,如图1,而如何找到你想看到的版本呢?(latest 是3.3.0,stable是3.2.2 )比如3.1.3的话,你随便点进去之后,然后修改网址到docs,然后就可以选择了。伸手党: https://hadoop.apache.org/docs/ 直接进入这个网址进行选择。为什么选择ha
2021-01-31 15:51:35 181
原创 (shell 脚本)通过 kill -9 进程名 的方式停止某一个进程 (使用grep awk过滤并获取)
通过awk过滤线程名,然后进行后续操作需求需求
2021-01-27 12:37:41 1610 1
原创 Linux虚拟机网络突然连不上网的解决方法
vm15 虚拟机突然连不上网情景办法情景在未进行任何其他非法操作情况下, 突然发现某个虚拟机连不上网,使用 systemctl status network 显示状态为 failed 以及 报 (Failed to start LSB: Bring up/down networking )如下图在综合网上各种方案和自己查看日志, 提供某一种解决方案.办法mv /var/lib/NetworkManager /var/lib/NetworkManager.bak道理: 因为每次启动网络,是由N
2021-01-23 21:02:42 1094 4
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人