大数据
文章平均质量分 62
大数据技术栈
侯侯侯先生
代码界的胡歌
展开
-
ClickHouse使用阿里云服务相关
clickhouse常见问题原创 2023-08-03 10:52:52 · 413 阅读 · 0 评论 -
Kudu、ClickHouse、Doris、Druid、Hbase
计算层主要使用 Flink、Spark、Presto 以及 ClickHouse 自带的计算能力等四种计算引擎,Flink 计算引擎主要用于实时数据同步、 流式 ETL、关键系统秒级实时指标计算场景,Spark SQL 主要用于复杂多维分析的准实时指标计算需求场景,Presto 和 ClickHouse 主要满足多维自助分析、对查询响应时间要求不太高的场景。都属于列式存储的数据库,架构上,Hbase使用HDFS存储,Kudu使用自己的方式进行存储,性能更好。数据分布式存储(本地化);Kudu和Hbase。原创 2023-07-17 16:17:41 · 2916 阅读 · 0 评论 -
集群,分布式,微服务区别和联系
转载地址Flume NG: 分布式、高可用的数据收集系统。(任务运行架构)Kafka:是一个分布式的,可划分的,冗余备份的持久性的日志服务。它主要用于处理活跃的流式数据。(任务运行架构)Redis:非关系型数据库,可部署集群模式。注意集群和分布式区别。(是一个数据库)...原创 2022-05-12 18:02:30 · 436 阅读 · 0 评论 -
Flume基础
目录原创 2022-05-12 15:39:44 · 263 阅读 · 0 评论 -
CDH6.3.2环境搭建
目录参考文章配置hostname,映射文件hosts关闭防火墙,并禁止开机自启设置无密钥登陆时间同步安装JDK 1.8安装mysql5.7 linux的通用版本 generic配置CM参考文章cm和cdh的关系http://www.fblinux.com/?p=1492hadoop发行版本介绍https://www.jianshu.com/p/fc3010c02391配置hostname,映射文件hosts为每台服务器配置名称vim /etc/hostname添加名称将所有服务器的名称原创 2022-03-11 10:38:33 · 5191 阅读 · 2 评论 -
scala基础入门
目录scala 入门scala和java的关系scala环境安装scala idea环境安装scala 关联源码实现scala中object关键字和class关键字scala 变量和数据类型scala变量标识符命令规范字符串输出数据类型类型的转换泛型Unit类型、Null类型和Nothing类型数值和String类型的转换运算符算术运算符关系运算符逻辑运算符赋值运算符位运算符运算符本质流程控制if -- elseswitchforwhile 和 do ... while循环中断==函数式编程==scala原创 2022-01-14 10:28:51 · 1320 阅读 · 0 评论 -
Hadoop的生产调优手册和源码解析
HDFS的生产调优HDFS的核心参数HDFS的集群测压HDFS多目录HDFS集群的扩容和缩容HDFS的存储优化HDFS的故障排除HDFS的集群迁移MapReduce生产经验1.MaopReduce跑慢的原因计算机的性能IO操作优化MapReduce常用调优参数MapReduce数据倾斜问题Yarn的生产经验常用参数调优容量调度器的使用公平调度器的使用综合调优hadoop的小文件优化方法...原创 2022-01-04 10:35:45 · 760 阅读 · 0 评论 -
sql中trim以及正则表达式regexp_replace函数用法and hive常用函数
trim()函数去掉字符串字头和字尾的空白regexp_replace()函数,使用正则表达式regexp_replace(t.company_name,'[`~!#$^*+=,?!@¥%…‘;”“’。,?]',"")regexp_replace('需要进行替换的字段' , '需要替换的关键字(可以使用正则)','替换的内容')将t.company_name字符串中的内容进行正则匹配,将匹配到的结果转化为" " 。translate()函数的用法translate(x,from_string原创 2021-12-28 16:39:17 · 2690 阅读 · 0 评论 -
Hive之重写分区表数据overwrite
hive之insert into 和 insert overwrite与数据分区insert into 在表中追加数据。insert overwrite 先删除表中数据,再重新写入。hive向分区表中插入数据静态插入数据:要求插入数据时指定与建表时相同的分区字段INSERT OVERWRITE TABLE student_a PARTITION (month=‘09’) SELECT * from student_source;动静混合分区插入:要求指定部分分区字段的值INSER原创 2021-11-22 15:43:39 · 9835 阅读 · 0 评论 -
Hive的开窗函数
目录转载地址转载地址https://blog.csdn.net/wangpei1949/article/details/81437574转载 2021-11-08 10:23:29 · 206 阅读 · 0 评论 -
Yarn的总结
目录Yarn的架构Yarn工作机制调度器提交某队列命令FIFO先进先出容量调度器公平调度器Yarn生产环境核心参数Yarn 的 Tool 接口案例Yarn的架构Yarn工作机制(1)MR 程序提交到客户端所在的节点。(2)YarnRunner 向 ResourceManager 申请一个 Application。(3)RM 将该应用程序的资源路径返回给 YarnRunner。(4)该程序将运行所需资源提交到 HDFS 上。(5)程序资源提交完毕后,申请运行 mrAppMaster。(6)原创 2021-10-26 18:09:32 · 223 阅读 · 0 评论 -
MapReduce总结
文章目录MapReducede的架构MapReduce的工作流程图编写MapReduce程序MapReduce的压缩MapReducede的架构MapReduce的工作流程图编写MapReduce程序环境配置,需要下载windows版本的hadoop环境,双击winutils.exe黑屏一闪而过就ok。并在环境变量中进行配置。pathH:\work\hadoop\WindowsDep\hadoop-3.1.0\binHADOOP_HOMEH:\work\hadoop\Windows原创 2021-10-25 17:19:45 · 310 阅读 · 0 评论 -
HDFS总结
目录HDFS写流程HDFS读流程2NNHDFS总结HDFS写流程串行写。写得过程中是以packet(64k)为单位进行写。packet = chunk 512byte +chunksum 4byte(校验位)写过程中,首先在缓存区中形成一个个得chunk+chunksum,然后得到packet,再讲packet放在缓冲队列中,在向DataNode输入数据。HDFS读流程不能并发读,只能串行读。2NN命令: sz a.txt 将虚拟机的a.txt存到本地。NameNode , NameN原创 2021-10-12 15:51:13 · 596 阅读 · 0 评论 -
Hadoop集群环境搭建
目录vmware 安装虚拟机配置虚拟机(模板) 主机名,ip地址连接外网,host地址vmware 安装虚拟机安装vmware下载镜像centos7新建虚拟机选择自定义 —>warkstation 15.x —>稍后安装操作系统 —>Linux 版本centos7 64位—> 设置虚拟机名称 —>处理器数量和内核数量2*2(根据自己的电脑配置)—> 内存4g—> 使用nat模式进行网络连接 --> 控制器选择LSI Logic(L)原创 2021-09-25 22:00:40 · 396 阅读 · 0 评论