排序:
默认
按更新时间
按访问量

CDH大数据平台优化---hdfs优化

        hdfs作为大数据底层的分布式文件系统,在大数据生态圈中起着很重要的作用,hdfs文件系统的性能直接影响着大数据平台性能。故对hdfs做有效的优化显得尤其重要。现对hdfs优化总结如下: core-default.xml hadoop.common.configuratio...

2018-10-17 10:42:35

阅读数:61

评论数:0

MirrorMaker使用(基于CM)

1. 进入Kafka组件,选择“实例”,点击添加角色实例 2. 对应Kafka MirrorMaker项,点击“选择主机” 3. 选择部署MirrorMaker 角色的主机,点击“确定” 4. 点击“继续” 5. 配置源kafka集群和目的kafka集群的bootstrap...

2018-10-16 19:09:04

阅读数:21

评论数:0

CDH大数据平台优化---操作系统优化

在安装cdh大数据平台之前,为了得到更高的效率,需要从操作系统层面做一些简单的优化。优化主要有以下几点: 1.Disable the tuned Service systemctl stop tuned systemctl disable tuned 2.Disabling Trans...

2018-10-16 17:22:58

阅读数:18

评论数:0

云计算,架构,数据分析师,Hadoop,Spark,Storm,Kafka,人工智能,机器学习,深度学习,项目实战视频教程

38套大数据,云计算,架构,数据分析师,Hadoop,Spark,Storm,Kafka,人工智能,机器学习,深度学习,项目实战视频教程视频课程包含:38套大数据和人工智能高级课包含:大数据,云计算,架构,数据挖掘实战,实时推荐系统实战,电视收视率项目实战,实时流统计项目实战,离线电商分析项目实战...

2018-06-12 14:52:12

阅读数:222

评论数:0

confluent

最开始接触confluent是通过这篇博客,How to Build a Scalable ETL Pipeline with Kafka Connect,对于做大数据的,数据的ETL(抽取,转换,装载)是必不可少的。例如,要把传统的关系型数据库中的数据导入到HDFS里,或者导入到Hive中,进一...

2018-05-28 09:27:08

阅读数:480

评论数:0

Pentaho

PentahoThe Pentaho products consist of Business Analytics (BA) and Data Integration (DI) components. Which components you use depend on your workflow...

2018-03-06 14:53:00

阅读数:99

评论数:0

slider简介

背景       YARN是HADOOP2中的通用资源管理平台,但是基于YARN开发应用,需要用户自己编写AM来处理资源申请、容错等,难度和复杂性比较大,因此YARN上运行良好的计算框架只有MapReduce、Spark、Tez等少数几个,而不像其宣传的那样能让各种计算框架运行的...

2017-12-22 14:05:07

阅读数:92

评论数:0

大数据平台下多租户架构研究

多租户技术(multi-tenancy technology)是一种软件架构技术,它是在探讨与实现如何于多用户的环境下共用相同的系统或程序组件,并且仍可确保各用户间数据的隔离性。在大数据环境下实现多租户涉及如下关键技术: 1. 资源池 Hadoop资源池(pool),或者作业池。 每个...

2017-12-22 10:46:32

阅读数:579

评论数:0

大数据技术概览

Pivotal兑现了其年初对于开源其大数据核心产品GemFire,HAWQ,Greemplum DB的承诺 。这个消息也让Pivotal在国内技术社区风风光光的火了一把,程序猿们可以看到真正的企业级数据仓库是如何设计和实现的。 与此同时,开源社区中也存在很多类似的优秀大数据相...

2017-12-21 15:51:20

阅读数:140

评论数:0

五种大数据处理架构

大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了大规模扩展。 本文将介绍大数据系统一个最基本的组件:处理框架。处理框架负责对系统中的数据进行...

2017-12-14 14:12:21

阅读数:23063

评论数:0

大数据集群部署

大数据集群部署前考虑的几个问题: 数据量 存储能力 计算能力 内存处理 主要组件 hdfs yarn(ha最重要) 最小集群从6台起步,选择两台为nn和rs服务节点 存储能力计算:   数据量*3/3*4 slave 节点硬件选择:  中配: maste...

2017-11-12 22:54:11

阅读数:198

评论数:0

Phoenix configuration

Phoenix Configuration hoenix provides many different knobs and dials to configure and tune the system to run more optimally on your cluster. The c...

2017-11-09 18:03:41

阅读数:254

评论数:0

Phoenix Tuning Guide

Phoenix Tuning Guide The most important factor in performance is the design of your schema, especially as it affects the underlying HBase row keys...

2017-11-09 17:59:24

阅读数:110

评论数:0

hadoop入门介绍

common hdfs    namenode    datanode    secondarynamenode yarn    resourcemanager     nodemanager    applicationmaster mapreduce     map   ...

2017-10-15 20:18:38

阅读数:104

评论数:0

hadoop入门之hosts-hostname-ip修改

开机进入文本模式

2017-10-15 19:47:34

阅读数:373

评论数:0

hadoop相关认证

前言:      关于Hadoop课程及认证证书的事,想着整理一下,可能觉得有用的。      首先我所知道的在做Hadoop认证的有两家,Hortonworks跟Cloudera。因为工作的原因接触Cloudera比较多,所以就只能讲讲Cloudera的认证了。 主要认证       我...

2017-10-13 16:48:29

阅读数:1981

评论数:0

linux网络配置

service networkmanager  stop ip地址:ifconfig -a 网关地址: netstat -rn dns 地址:cat /etc/resolv.conf 修改networks

2017-10-12 21:23:41

阅读数:50

评论数:0

linux的环境变量

linux的环境变量文件主要有 1。 /etc/profile   全局环境变量 每个用户第一次登陆时设置       ~/.bash_profile   用户环境变量,每一个用户第一次登陆时设置      ~/.profile. 2. ~/.bashrc.  用户级环境变量,用户登陆,打...

2017-10-12 21:08:49

阅读数:61

评论数:0

CDH基本概念

本文作为入手CDH的基础篇,主要介绍CDH的基本概念; cluster :集群。运行相互独立的服务主机的集群,在同一个集群中,所有服务必须要有同样的CDH版本。 services:服务。集群中提高某种特定能力的抽象实体,比如hdfs,hbase,yarn等。 role:角色。服务中扮演特定功...

2017-10-10 13:50:12

阅读数:95

评论数:0

phoenix使用总结

前言:      HBase作为kv数据库,在大数据应用中扮演着越来越重要的角色,但是HBase给出的原生态API(Table,scan,put,get)的晦涩和关联查询的缺失,导致一些业务能力的不足。phoenix为HBase提供了sql访问接口,接下来我们将总结一下具体项目中phoenix整...

2017-10-09 17:21:56

阅读数:318

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭