
Hadoop 大数据相关
文章平均质量分 96
Hadoop技术链相关技术总结和经验分享
羌俊恩
工学文艺IT男,10年从事IT及项目管理相关工作,业余喜欢文字,视频剪辑,电气自动化和机械维修
展开
-
Greenplum数据库维护篇之常用操作指导
Greenplum作为一个面向数据仓库应用的开源MPP关系型(OLAP)数据库,具备强大的数据处理能力和出色的并行计算,性能在TB级别数据量的表现非常优秀,是大数据时代下多云大数据分析、BI、AI分析的主流DBMS工具,虽然也曝出“闭源”的风波(GreenPlum的GitHub库2021年1月6日后已停止更新,2023 年Broadcom 完成对 VMware 的收购后已限制了代码访问权限,目前只读),但依然有很多企业还在使用,转型和转向信创(华为的GaussDB(DWS)、阿里云ADB-PG、酷克数据的C原创 2025-05-20 15:48:30 · 891 阅读 · 0 评论 -
关于数据湖和数据仓的一些概念
随着各行业数字化发展的深化,数据资产和数据价值已越来越被深入企业重要发展的战略重心,海量数据已成为多数企业生产实际面临的重要问题,无论存储容量还是成本,可靠性都成为考验企业数据治理的考验。本文来看下海量数据存储的数据湖和数据仓,数据仓库和数据湖,他们都是基于数据进行价值挖掘,只是侧重点不同,下面让我们来认识一下。原创 2025-05-14 19:02:04 · 772 阅读 · 0 评论 -
共享云硬盘并发读写之集群文件系统
注意: GFS2 文件系统配置为集群文件系统时,必须确定该集群中的所有节点都可访问共享存储。clvmd 守护进程在每个集群计算机上运行,并更新 LVM 元数据,让集群的每个计算机上的 LVM 信息都保持一致,用 CLVM 在共享存储上建立的逻辑卷对于访问过该共享存储的计算机都是可视的。RHCS的集群中资源的配置需要修改其主配置文件/etc/cluster/cluster.xml实现,其仅安装在集群中的某一节点上即可,而cman和rgmanager需要分别安装在集群中的每个节点上。在于它们对存储空间的。原创 2024-07-14 04:01:27 · 1173 阅读 · 1 评论 -
kafka三节点集群2.8.0平滑升级到3.4.0过程指导
Apache Kafka作为常用的开源分布式流媒体平台,多用于作为消息队列获取实时数据,构建对数据流的变化进行实时反应的应用程序,已被数千家公司用于高性能数据管道、流分析、数据集成和任务关键型应用程序。原创 2024-02-27 18:38:55 · 4050 阅读 · 1 评论 -
Greenplum高并发数据库概览
GreenPlum DB(GPDB)是一个开源的高并发(MPP:massively parallel processing ) 数据处理平台,可用于海量数据分析,机器学习,AI场景,专为下一代数据仓库和大规模分析处理设计。初识;原创 2023-06-05 22:36:24 · 1072 阅读 · 0 评论 -
Kafka集群多用户访问权限分治和消息共享配置指导
这明显在生产环境,这种认证方式时不符合实际业务场景的。allow.everyone.if.no.acl.found=true #false的话就只能超级用户才能访问资源,true的话其他也可以,如果用户读写一个 Topic,但是没有配置 ACL 权限,客户端会报认证失败错误。现场业务由于多厂商集成,共享数据需要,需对接当前kafka集群,为做到类似租户隔离的功能,需要开启kafka的权限控制和动态用户管理功能,实现不同厂商访问被授权的合法资源,消费者账号只能消费数据,生产者账号只能生产数据。原创 2023-04-24 19:23:25 · 3187 阅读 · 3 评论 -
大数据之实时数据分析之Apache Doris数据库
Apache Doris是一款现代 MPP (Massively Parallel Processing大规模并行处理)的分布式 SQL 分析数据库,所谓分析数据库就是将其数据集分布在许多机器或节点上,以处理大量数据,采用 Apache 2.0认证授权。它的前身是原百度 Palo,由百度在2017年开源,2018年进入 Apache 孵化器。Apache Doris它可以提供亚秒级查询和高效的实时数据分析。凭借其分布式架构,将支持高达 10PB 级别的数据集,并且易于操作。................原创 2022-06-15 13:18:26 · 10227 阅读 · 0 评论 -
大数据流处理之Flink概述
在大数据应用场景里,一般可将数据计算分为离线计算和实时计算,其中离线计算就是我们通常说的批计算处理,代表技术有Hadoop MapReduce、Hive等;实时计算也被称作流计算,代表技术是Storm、Spark Streaming、Flink等。其中,Flink即Apache Flink,它是由Apache软件基金会开发的开源流处理框架,基于Apache许可证2.0开发,其核心是用Java和Scala编写的分布式流数据流引擎。.........原创 2022-06-13 13:37:22 · 4174 阅读 · 3 评论 -
Hadoop之HBase架构原理及集群部署总览
一、概要HBase 是基于GoogleBigTable模型开发的,是一个构建在HDFS上的分布式列存储系统,是一个典型的key/value开源数据库;主要用于海量结构化数据存储;与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和存储能力。从逻辑上讲,HBase将数据按照表、行和列进行存储。适用于需要实时读写、随机访问超大规模数据集的场景中。HBase( Hadoop Database)是Apache的Hadoop项目的子项目,具备高可靠性、高性能、面向列、可原创 2022-02-17 13:31:53 · 2170 阅读 · 0 评论 -
ES 7.0.1安装head和sql插件报错处理
一、问题描述ES集群安装sql插件后,重启ES报错:uncaught exception in thread [main]org.elasticsearch.bootstrap.StartupException: java.lang.IllegalArgumentException:Cannot replace existing handler for [/_sql] for method: POST环境:ES 7.0.1 ;JDK 1.8.*;es-sql:7.0.1二、问题处理1、原因:这原创 2022-02-15 22:46:57 · 2009 阅读 · 0 评论 -
ES集群状态检查报错:master_not_discovered_exception 503错误
一、故障描述在完成ES集群部署,启动后,执行ES集群状态检查发现,集群报错503错误,如下所示:环境:Elasticsearch 7.0.1;JDK版本1.8.0_211二、处理过程1、修改elasticsearch.yml将cluster初始化节点,三个都全写上。修改cluster.initial_master_nodes: [“Namenode”, “Datanode2”]为cluster.initial_master_nodes: [“Namenode”, “Datanode2”,“原创 2022-02-15 17:57:26 · 16428 阅读 · 0 评论 -
数仓(Data Warehouse)相关整理记录
一、概要本文收集整理关于数据仓库相关知识及技术栈,以助于数仓相关工作快速切入。二、相关概念2.1 OLTP与OLAP1)OLTP(on-line transaction processing)联机事务处理OLTP 系统是一个数据块变化非常频繁,SQL 语句提交非常频繁的一个系统,处理数据量少,DML频繁,并行事务处理多,但是一般都很短。OLTP用以表示事务性非常高的系统,一般都是高可用的在线系统,以小的事务以及小的查询为主,评估其系统的时候,一般看其每秒执行的Transaction以及Execu原创 2021-12-29 23:29:10 · 1607 阅读 · 0 评论 -
Hadoop 第一篇:架构及部署过程
一、概述Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,是一个能够对大量数据进行分布式处理的软件框架,以一种可靠、高效、可伸缩的数据处理处理解决方案。以Hadoop分布式文件系统 (HDFS,Hadoop Distributed Filesystem)和MapReduce(Google MapReduce的开源实现)为核心,通过HDFS文件系统和MapReduce算法进行存储资源、内存和程序的有效利用与管理,提供了对用户系统底层细节透明的分布式基础架构。HDFS和MapReduce共同组原创 2021-10-24 18:57:27 · 2502 阅读 · 0 评论 -
大数据学习思路梳理
1、常见组件文件存储: N、Mesos日志收集:Flume、Scribe、Logstash、Kibana消息系统:Kafka、StormMQ、ZeroMQ、RabbitMQ查询分析:Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Flink、Kylin、Druid分布式协调服务:Zookeeper集群管理与监控:Ambari、Ganglia、Nagios、Cloudera Manager数据挖掘、机器学习:Mahout、Spark MLLib数据.原创 2020-11-24 10:16:30 · 367 阅读 · 0 评论 -
数据库之Redis运维手册(私人整理)
1、redis配置文件 #cat 8000.conf daemonize no#[yes/no]默认值no,该参数用于定制redis服务是否以守护模式运行。pidfile /var/run/redis.pid#默认值/var/run/redis.pid,指定redis服务的进程号文件路径,以守护模式运行时需要配置本参数; port 8000#默认值6379,指定redis服务...原创 2019-11-20 22:02:16 · 7269 阅读 · 2 评论 -
ELK日志管理系统图示全过程详解
概要我们常说的ELK日志收集系统,完整的应该称为:ELK Stack是软件集合Elasticsearch、Logstash、Kibana的简称,它们都是开源软件,目前称为:Elastic Stack,其是ELK Stack 在 5.0 版本加入 Beats 套件后的新称呼。新增得FileBeat,它是一个轻量级的日志收集处理工具(Agent),Filebeat占用资源少,适合于在各个服务器上搜集..................原创 2019-09-09 11:33:25 · 10739 阅读 · 1 评论