大数据
文章平均质量分 59
大数据运维中深入的相关技术积累
Joe的运维之路
这个作者很懒,什么都没留下…
展开
-
部署kafka时OS需要做什么?
kafka作为一个突出读写性能的消息队列组件。如何做好性能调优,是我们的一个课题。这里我们探讨在os层面,可以对集群进行哪些优化。原创 2024-07-02 14:49:02 · 931 阅读 · 0 评论 -
kafka的server配置文件解析
【代码】kafka的server配置文件解析。原创 2024-07-02 14:47:58 · 277 阅读 · 0 评论 -
docker-compose部署kafka集群
用于测试、开发环境部署kafka集群,实际上也可以用于生产环境,但是需要调整kafka集群参数、镜像系统参数,以达到kafka运行的最佳环境。本例因为资源有限,在一台服务器上进行集群模拟安装。原创 2024-07-02 14:45:46 · 826 阅读 · 0 评论 -
关于zookeeper是属于ap还是cp的讨论
与朋友讨论zookeeper属于cap理论中的哪一个,在普遍的观点中,zookeper是属于cp模型。核心观点来自于但是朋友提出了不一样的观点,他认为:zookeeper在默认参数情况下无法满足cp模型。原创 2024-07-02 14:44:05 · 329 阅读 · 0 评论 -
行式存储与列式存储的区别
行式存储就是每一行的所有数据存在一个block中,各个block之间连续存储;列式存储就是每一列的所有数据存在一起,不同列之间可以分开存储。MySQL中的infobright存储引擎是列式存储,InnoDB和MyISAM存储引擎是行式存储。列式存储是非关系型数据库中的一种,非关系型数据库的目的在于去掉关系数据库的关系型特性,使得数据之间无关系,使得扩展性高。非关系型数据库一般具有大数据量、高性能的特点,典型的有Key-Value键值存储数据库等。转载 2024-07-02 14:43:19 · 62 阅读 · 0 评论 -
Elasticsearch运维之路---持续更新
Elasticsearch索引原理1.什么是倒排索引倒排索引,是通过分词策略,形成了词和文章的映射关系表,这种词典+映射表有了倒排索引,就能实现 o(1)时间复杂度的效率检索文章了,极大的提高了检索效率。倒排索引的底层实现是基于:FST(Finite State Transducer)数据结构。lucene 从 4+版本后开始大量使用的数据结构是 FSTFST用来快速定位Term的位置优点空间占用小。通过对词典中单词前缀和后缀的重复利用,压缩了存储空间;查原创 2021-01-29 11:34:45 · 177 阅读 · 0 评论 -
kafka是如何删除topic的
源码部分问题: 我们执行delete命令后,看到topic并没有立即被删除,只是打了个deleted的标记。那么kafka是怎么清理这些被打了deleted的topic的。答: 从源码部分,大概知道,流程应该是在一个fileDeleteDelayMs的周期里边,kafka会先删除数据,在情况所有数据都被删除后(logsToBeDeleted.isEmpty),在下一个fileDeleteDelayMs周期,就会调用removedLog.delete()方法把partition删除。达到删除topic的目原创 2021-01-21 23:24:26 · 573 阅读 · 0 评论 -
kafka学习之路(一)
我喜欢带着问题去学习,所以以Q&A的方式来帮助自己理解kafka的原理。定义kafka是一个分布式的发布/订阅模式的消息队列,用于大数据实时处理领域。消息队列特点解耦可恢复性:消息在组件失效恢复后仍然可以继续被处理缓冲性:解决生产、消费速率不一致问题灵活性、削峰:分布式架构可以随时增减资源异步通信Q&Aeq.1问:kafka是如何快速查找数据的?答:两个重要的概念:kafka的数据存储结构以及偏移量。1. kafka的数据落盘形式是每一个partition为.原创 2021-01-21 23:20:14 · 165 阅读 · 2 评论 -
离线安装head插件
1.到github上下载插件插件地址https://github.com/mobz/elasticsearch-head wget https://github.com/mobz/elasticsearch-head/archive/master.zip2.把插件复制到es工作目录plugins下,并解压3.复制插件文件到指定目录先备份 cp -r /head/_site ...原创 2018-09-13 11:45:25 · 1836 阅读 · 0 评论 -
Elasticsearch部署前工作
部署硬件要求1.内存:64GB最佳,<8GB很堪忧2.CPU:2-8核,更多核心数比速率更好3.硬盘:ssd的查询、索引性能远优于机械硬盘。由于自身的高可用特性,我们可以直接使用radi 0而没必要使用radi其他特性。不要使用NAS!!!4.网络:尽量避免跨越多机房,节点间不同的延时会加重分布式集群的问题注:如果你正在使用SSDs,确保你的系统I/O调度程序是配...原创 2018-08-02 14:56:56 · 205 阅读 · 0 评论 -
Elasticsearch学习随笔
前言:本文内容为,我在阅读,学习elasticsearch官方文档时候的随笔。以运维工程师的角度学习elasticsearch。内容比较混乱。详细的内容,请参考官方文档。 1.后台运行elasticsearch工作目录下,./bin/elasticsearch -d 注意:由于安全问题,elasticsearch不允许root用户直接运行。因此需要用其他用户来执行程序(1.cho...原创 2018-08-01 17:26:51 · 222 阅读 · 0 评论 -
centos7平台下安装nvidia驱动
1.下载驱动https://www.nvidia.com/download/2.系统环境检查检查c/c++环境gcc –v 若无安装,则需要安装c/c++环境c:yum install gccc++:yum install gcc-c++ libstdc++-devel3.安装驱动i) `rpm -i nvidia-diag-driver-local-repo-rhe...原创 2018-08-01 17:21:57 · 1790 阅读 · 0 评论