大数据
yimenglin
这个作者很懒,什么都没留下…
展开
-
大数据平台架构
何谓五横,基本还是根据数据的流向自底向上划分五层,跟传统的数据仓库其实很类似,数据类的系统,概念上还是相通的,分别为数据采集层、数据处理层、数据分析层、数据访问层及应用层。同时,大数据平台架构跟传统数据仓库有一个不同,就是同一层次,为了满足不同的场景,会采用更多的技术组件,体现百花齐放的特点,这是一个难点。具体见下图示例,这张图是比较经典的,也是妥协的结果,跟当前网上很多的大数据架构图都可以作一定的映射。数据采集层:既包括传统的ETL离线采集、也有实时采集、互联网爬虫解析等等。数据处理层:...转载 2020-08-25 14:48:52 · 1797 阅读 · 0 评论 -
kafka的log存储解析——topic的分区partition分段segment以及索引等
转自:http://blog.csdn.net/jewes/article/details/42970799引言Kafka中的Message是以topic为基本单位组织的,不同的topic之间是相互独立的。每个topic又可以分成几个不同的partition(每个topic有几个partition是在创建topic时指定的),每个partition存储一部分Message。借用官方的一张图,可以直观地看到topic和partition的关系。partition是以文件的形式存储在文件系统中,比如,创建转载 2020-08-25 14:23:04 · 1674 阅读 · 0 评论 -
flume和kafka区别
kafka和flume都是日志系统,kafka是分布式消息中间件,自带存储;flume每一部分都是可以定制。kafka更合适做日志缓存,flume数据采集部分做的很好,可以定制很多数据源,减少开发量。kafka 和 flume 都是日志系统,kafka 是分布式消息中间件,自带存储,提供 push 和 pull 存取数据功能。flume 分为 agent(数据采集器),collector(数据简单处理和写入),storage(存储器)三部分,每一部分都是可以定制的。比如 agent 采用 RPC(Thri.转载 2020-08-25 10:56:48 · 1647 阅读 · 0 评论 -
Flume(二)
Flume(二)(Multiple Agent+ Multiple Channel+Custom) </h1> <div class="clear"></div> <div class="postBody"> (Multiple Agent+ Multiple Channel+Custom)Flume(一)文章我们详细介...转载 2020-08-25 10:44:07 · 223 阅读 · 0 评论 -
Flume(一)
Flume的定义Flume是一个分布式的、高可靠的、高可用的将大批量的不同数据源的日志数据收集、聚合、移动到数据中心(HDFS)进行存储的系统。即是日志采集和汇总的工具Logstash、FileBeat是ES栈的日志数据抽取工具,他们和Flume很类似,前者是轻量级、后者是重量级,若项目组使用的是ES栈技术,那完全可以使用Logstash取代Flume。版本 NG: 1.x的版本 (N=NEW)OG:0.9.x的版本,不用管(O=OLD)由于...转载 2020-08-25 10:42:46 · 237 阅读 · 0 评论 -
Kafka史上最详细原理总结下
Kafka史上最详细原理总结分为上下两部分,承上启下Kafka史上最详细原理总结上Kafka史上最详细原理总结下本篇为Kafka史上最详细原理总结下,承接Kafka史上最详细原理总结上3.Partition Replication原则Kafka高效文件存储设计特点Kafka把topic中一个parition大文件分成多个小文件段,通过多个小文件段,就容易定期清除或删除已经消费完文件,减少磁盘占用。通过索引信息可以快速定位message和确定response的最大大小。通过index元数据全转载 2020-08-25 09:58:39 · 755 阅读 · 1 评论 -
Kafka史上最详细原理总结上
Kafka史上最详细原理总结分为上下两部分,承上启下Kafka史上最详细原理总结上Kafka史上最详细原理总结下KafkaKafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎,web/nginx日志、访问日志,消息服务等等,用scala语言编写,转载 2020-08-25 09:56:52 · 683 阅读 · 0 评论 -
ClickHouse学习系列之二【用户权限管理】
背景 最近花了些时间看了下ClickHouse文档,发现它在OLAP方面表现很优异,而且相对也比较轻量和简单,所以准备入门了解下该数据库系统。在安装完之后首先做的应该如何设置用户密码以及权限控制。因为和MySQL、MongoDB等数据库的用户管理完全不一样,为方便自己以后直接查阅,本文对其用户权限管理方面进行梳理说明。 说明 ClickHouse作为一个分析类型(OLAP)的数据...转载 2020-08-25 09:06:31 · 1934 阅读 · 0 评论 -
Clickhouse安装及使用
一、简介Yandex在2016年6月15日开源了一个数据分析的数据库,名字叫做ClickHouse,这对保守俄罗斯人来说是个特大事。更让人惊讶的是,这个列式存储数据库的跑分要超过很多流行的商业MPP数据库软件,例如Vertica。如果你没有听过...转载 2020-08-24 15:37:29 · 4773 阅读 · 1 评论 -
MPP大规模并行计算数据库与分布式数据库的区别
最近调研分布式TP数据库。结合公司使用的MPP数据库,一度感觉两者很像,随着分布式的深入研究,结合行内MPP数据库使用过正中遇到的问题,简单的总结一下分布式数据库与MPP数据库的区别。分布式数据库系统与并行数据库系统MPPDB有许多相似点,如都有用网络连接各个数据处理结点的特点。网络中的所有结点构成一个逻辑上的统一整体,用户可以对各个结点上的数据进行透明存取等等。由于分布式数据库系统和并行数...转载 2019-11-01 10:24:48 · 1559 阅读 · 0 评论 -
clickhouse for centos7安装和使用初探
<p>clickhouse介绍:战斗民族开发的 olap 数据库,属于NoSQL,适用于渠道漏斗分析、app 点击行为路径分析等业务场景安装:按照官方文档推荐,用yum方式安装最方便#yum install yum-utils -y# rpm --import h...转载 2020-03-17 11:44:25 · 566 阅读 · 0 评论 -
通俗理解YARN运行原理
导语:工作中常常和Spark on YARN, Hadoop on YARN打交道,经常在各种日志中摸爬滚打,为提升效率,总结一下YARN的知识点,希望能形成一个比较系统的方法论。本文由三问三答一例组成。1、为什么要使用YARN?为了提升集群的利用率、资源统一管理, 使用YARN为上层应用提供统一的资源管理和调度的平台。2、YARN的优势? 资源的统一管理和调度: 集群中所有节点的资源(内存、CPU、磁盘、网络等)转载 2020-08-21 09:55:26 · 1057 阅读 · 0 评论 -
yarn工作原理
基本架构概念解析1. ResourceManager ResourceManager是master上的进程,负责整个分布式系统的资源管理和调度。他会处理来自client端的请求(包括提交作业/杀死作业);启动/监控Application Master;监控NodeManager的情况,比如可能挂掉的NodeManager。2. NodeManager ...转载 2020-08-21 09:42:00 · 434 阅读 · 0 评论 -
MapReduce中map阶段和reduce阶段以及shuffle过程内部工作机制记录
mapTask工作原理:我们在写job任务时,指定一个FileInputFormat,设置一个路径,FileInputFormat类继承InputFormat(一个抽象接口),里面提供了一个抽象方法getSplits(),FileInputFormat中重写该方法的逻辑,对文件进行切分成多个split,然后通过RecordReader(默认使用lineRecordReader)按行进行读取文件内容并交给map去执行自...转载 2020-08-20 10:26:23 · 1658 阅读 · 0 评论 -
了解MapReduce之Partition分区的概念与执行过程(附例子)
Partition1.用户需求 在执行MR程序时我们可能想要将不同的数据放到不同的文件中。2.概念 partition是在map阶段完成后...转载 2020-08-20 09:30:25 · 1167 阅读 · 0 评论 -
名字节点(NameNode)基本功能介绍
功能图下图为名字节点基本功能图,可能会有遗漏,在以后的源码研读中会更新: 基本功能介绍NameNodeHttpServer:提供Http服务 NameNodeRpcServer:RPC机制实现,名字节点与其他节点之间远程调用的实现(名字...转载 2020-08-20 08:26:49 · 2626 阅读 · 0 评论 -
greenplum一次节点迁移
版本信息:OS:CentOS release 6.5 (Final)GP:greenplum4.3.81. 场景:其中一台服务器的所有节点信息需要迁移到新的服务器上,原始节点信息如下: dbid | content | role | preferred_role | mode | status | port | hostname | address | repli...转载 2019-11-18 10:27:46 · 503 阅读 · 0 评论 -
Greenplum如何开启、同步、删除Standby恢复原始Master
在Master失效时,同步程序会停止,Standby可以被在本机被激活,激活Standby时,同步日志被用来恢复Master最后一次事务成功提交时的状态。在激活Standby时还可以指定一个新的Standby。 1. 激活Standby 现有环境原始primary master:mdw ,standby m...转载 2020-03-12 10:33:36 · 1047 阅读 · 0 评论 -
Deepgreen/Greenplum删除节点步骤
Greenplum和Deepgreen官方都没有给出删除节点的方法和建议,但实际上,我们可以对节点进行删除。由于不确定性,删除节点极有可能导致其他的问题,所以还行做好备份,谨慎而为。下面是具体的步骤:1.查看数据库当前状态(12个实例)[gpadmin@sdw1 ~]$ gpstate20170816:12:53:25:097578 gpstate:sdw1:gpadmin-[INFO]:...转载 2019-11-12 11:52:42 · 738 阅读 · 0 评论 -
greenplum为master和segment添加mirror
greenplum为master添加mirror 本文章是在已存在的 greenplum 系统添加standby master 节点, 如果gp系统没安装,请先安装gp系统 文档请参考greenplum 安装指导启用master 镜像这个可以在greenplum 系统初始化的时候使用gpinitsystem添加 , 本文介绍的主要是 对已经存在的greenplum 系统添加standb...转载 2019-11-08 16:46:01 · 836 阅读 · 0 评论 -
Greenplum -- 最全分区表操作
一、Greenplum 分区原理分区表意思是将一个大表在物理上分割成几块,GPDB中的分区表和PostgreSQL中实现原理一样,都是用过表继承、约束来实现。但是与PostgreSQL也有所不同,在PostgreSQL中,一个父表,多个子表来实现分区表,需要手动向子表插入数据,如果向父表插入数据,则直接会被...转载 2019-11-05 10:36:25 · 6118 阅读 · 0 评论 -
Greenplum获取表结构
最近在折腾greenplum,遇到一个蛋疼的问题,那就是获取表结构,也就是建表语句。大家都知道在MySQL里面是非常easy的,show create table table_name 就搞定了,在gpdb里面就没这么容易,在查询大量资料以后终于找到了方法。那就是自己定义一个函数去获取,函数中可以嵌套python代码,非常的方便。但是资料中的代码有大量错误,在经过几番调试以后终于可以使...转载 2019-11-05 10:00:19 · 2667 阅读 · 1 评论 -
python连接Greenplum数据库
阅读目录配置greenplum客户端认证使用Psycopg2访问数据库安装Psycopg2 Psycopg2 连接PostgreSQL数据库接口Connection类方法说明Cursor类方法说明psycopg2.pool模块说明Psycopg2中可用的异常错误类Psycopg2使用举例简单的增加,查询记录批量插入,查询使用连接池,执行高性能的批量插入与查询执行高性能的批量更新与查询&...转载 2019-11-04 13:45:23 · 2256 阅读 · 1 评论 -
CentOS7 安装GreenPlum详细步骤
GreenPlum安装详细步骤1、环境准备1、CentOS7.22、greenplum-db-4.3.9.1-build-1-rhel5-x86_64.bin此文件为GreenPlum(以下简称为gp)的安装文件,由于此文件需从国外官网下载比较费劲,所以一并附在压缩包中。3、以下步骤若未说明均在root用户下进行操作2、配置系统信息1.gp集群介绍本次gp集群安装使用了4台机器,...转载 2019-10-31 14:29:01 · 1959 阅读 · 2 评论 -
Greenplum扩容节点步骤
文章目录概述gpexpand命令纵向拓展原Greenplum集群状态生成参数文件利用参数文件执行拓展命令查看新添加的状态数据重分布横向拓展生成配置文件执行扩容命令重分布表概述greenplum扩容segment可以分为2类:单机上的seg增加,我们称之为“纵向扩展”单机不变,通过增加机器,我们称之为“横向扩展”下面详细介绍下这两种扩容方式的具体步骤和方法gpexpand命令首先我...转载 2019-10-30 13:49:44 · 2621 阅读 · 0 评论 -
Greenplum中定义数据库对象之创建与管理序列、索引以及视图
创建与管理序列 序列常用于在新增记录时自动生成唯一标识符,序列的管理包括创建序列、使用序列、修改序列以及删除序列。创建序列 使用CREATESEQUENCE命令来创建并初始化一个给定名称...转载 2019-10-25 14:45:15 · 927 阅读 · 0 评论 -
实时查询引擎 - 构建于HDFS之上的Greenplum: HAWQ
1. HAWQ 是什么 如果你知道Greenplum是什么,那么你就能很简单的明白HAWQ是什么。Greenplum是一个关系型的分布式MPP数据库,同样运行于X86架构的基础之上,具有查询、加载效率高,支持TB/PB级大数据量的OLAP应用, Greenplum的所有数据都存储于系统本地文件系统中。而HAWQ的最大改变就是将本地文件系统存储更换为了HDFS,成功的搭上了大数据库的班车。不过...转载 2019-10-24 14:29:14 · 727 阅读 · 0 评论 -
在CentOS7.x版本上搭建Greenplum5.1.0数据库详细步骤讲解
Greenplum是一个关系型数据库集群,它是由数个独立的数据库服务组成的逻辑数据库。Greenplum使用的是Shared-Nothing架构,这个就能由很多歌数据节点(segment)和控制管理节点(Master Host)组成,其中每个物...转载 2019-10-24 14:04:56 · 556 阅读 · 0 评论 -
Greenplum性能调试记录
前言: 以目前的使用体验的话,Greenplum(以下简称GP)的实时性确实比较高,从存储层到计算层,数据吞吐效率比类Hadoop生态圈的sql工具要好得多。伴随性能的提升,同时加深的是gp对硬件的要求。 就目前的GP集群的硬件配置情况来说: &n...转载 2019-10-24 14:02:48 · 647 阅读 · 0 评论 -
探索Greenplum的实践,了解新一代大数据处理利器
作者:李树桓 个推数据研发工程师 前言:近年来,互联网的快速发展积累了海量大数据,而在这些大数据的处理上,不同技术栈所具备的性能也有所不同,如何快速有效地处理这些庞大的数据仓,成为很多运营者为之苦恼的问题!随着Greenplum的异军突起,以往大数据仓库所面临的很多问题都得到了有效解决...转载 2019-10-24 14:01:34 · 249 阅读 · 1 评论 -
greenplum数据库的使用
三、 Greenplum数据库的基本使用1. 启动和停止su gpadmingpstart ...转载 2019-10-22 15:39:50 · 1937 阅读 · 0 评论 -
文档数据库mongodb与列式数据库hbase详细比较
文档数据库mongodb与列式数据库hbase详细比较 mongodb和Hbase的共同点是都属于NOSQL数据库,不属于传统的关系数据库。 mongodb和Hbase的区别有以下几点: 1. MongoDB是文档型数据库,整个数据都存在磁盘中。MongoDB基于文档存储,也有数据关联, 单条记录 的结构可以很复杂,索引也可以设置很多列;还有个二进...转载 2019-10-21 14:51:42 · 2376 阅读 · 0 评论 -
GreenPlum 浅谈
GreenPlum 浅谈 ...转载 2019-10-21 09:36:59 · 1094 阅读 · 0 评论 -
使用Python写spark 示例
个人GitHub地址: https://github.com/LinMingQiang为什么要使用Python来写SparkPython写spark我认为唯一的理由就是:你要做数据挖掘,AI相关的工作。因为很多做数挖的他们的基础语言都是python,他们如果重新学scala比较耗时,而且,python他的强大类库是他的优势,很多算法库只有python有。Win本地编写代码调试编辑器:...转载 2019-10-18 17:35:32 · 370 阅读 · 0 评论 -
WIN7下运行hadoop程序报:Failed to locate the winutils binary in the hadoop binary path
之前在mac上调试hadoop程序(mac之前配置过hadoop环境)一直都是正常的。因为工作需要,需要在windows上先调试该程序,然后再转到linux下。程序运行的过程中,报Failed to locate the winutils binary in the hadoop binary path java.io.IOException: C...转载 2019-10-18 16:54:26 · 133 阅读 · 0 评论 -
大数据常见错误解决方案
1、用./bin/spark-shell启动spark时遇到异常:java.net.BindException: Can't assign requested address: Service 'sparkDriver' failed after 16 retries!解决方法:add export SPARK_LOCAL_IP="127.0.0.1" to spark-env.sh...转载 2019-10-18 13:51:30 · 2219 阅读 · 0 评论 -
Spark中Standalone的两种提交模式(Standalone-client模式与Standalone-cluster模式)
Spark中Standalone有两种提交模式,一个是Standalone-client模式,一个是Standalone-cluster模式。1.Standalone-client提交任务方式提交命令./spark-submit --master spark://node01:7077 --class org.apache.spark.examples.SparkPi ../lib...转载 2019-10-18 09:42:08 · 172 阅读 · 0 评论 -
Spark学习之路(一):Spark基于Standalone模式完全分布式搭建集群
Spark完全分布式搭建一、Spark集群的部署方式1.Standalone模式2.Spark On YARN模式3.Spark On Mesos模式二、基于Standalone模式部署集群1.下载并解压Spark安装包2.配置环境变量3.置Spark的配置文件4. 启动集群三、测试集群四、总结一、Spark集群的部署方式1.Standalone模式与MapReduce1.0框架类似,S...转载 2019-10-17 09:23:12 · 296 阅读 · 0 评论 -
GreenPlum集群搭建安装超详细步骤
目录一,安装说明1.1环境说明1.2集群介绍二,安装环境准备2.1 修改各节点名称2.1.1 修改主节点hosts2.1.2 复制到子节点2.1.3 依次修改各个节点/etc/sysconfig/network文件2.2 修改系统内核/etc/...转载 2019-10-17 09:10:10 · 1166 阅读 · 0 评论 -
PySpark︱DataFrame操作指南:增/删/改/查/合并/统计与数据处理
笔者最近需要使用pyspark进行数据整理,于是乎给自己整理一份使用指南。pyspark.dataframe跟pandas的差别还是挺大的。文章目录1、-------- 查 ----------- 1.1 行元素查询操作 ---**像SQL那样打印列表前20元素****以树的形式打印概要****获取头几行到本地:****查询总行数:**取别名**查询某列为...转载 2019-10-15 17:32:20 · 959 阅读 · 0 评论