大数据技术 - MapReduce的Shuffle及调优

大数据技术 - MapReduce的Shuffle及调优 https://www.cnblogs.com/duma/p/10704544.html 本章内容我们学习一下 MapReduce 中的 Shuffle 过程,Shuffle 发生在 map 输出到 reduce 输入的过程,它的中文解...

2019-04-16 21:43:21

阅读数 57

评论数 0

大数据技术之_04_Hadoop学习_01_HDFS_HDFS概述+HDFS的Shell操作(开发重点)+HDFS客户端操作(开发重点)+HDFS的数据流(面试重点)+NameNode和Seconda

    https://www.cnblogs.com/chenmingjun/p/10353274.html 第1章 HDFS概述 1.1 HDFS产出背景及定义 1.2 HDFS优缺点 1.3 HDFS组成架构 1.4 HDFS文件块大小(面试重点) 第2章 HDF...

2019-02-06 12:55:43

阅读数 330

评论数 0

【大数据安全】基于Kerberos的大数据安全验证方案

https://www.cnblogs.com/mantoudev/p/9877433.html 1.背景 互联网从来就不是一个安全的地方。很多时候我们过分依赖防火墙来解决安全的问题,不幸的是,防火墙是假设“坏人”是来自外部的,而真正具有破坏性的攻击事件都是往往都是来自于内部的。 近几年,在...

2018-11-04 15:07:35

阅读数 343

评论数 0

Hive 官方手册翻译 -- Hive DDL(数据定义语言)

https://www.cnblogs.com/fanzhenyong/p/9746796.html Hive 官方手册翻译 -- Hive DDL(数据定义语言) 目录 一、概述 二、关键词,非保留关键字和保留关键字 三、创建/删除/修改/使用数据库 3.1、 创建数据库 3...

2018-10-07 22:13:47

阅读数 193

评论数 0

金融数据分析与挖掘具体实现方法 -1

https://www.cnblogs.com/wf-skylark/p/9551967.html 有人让我写一下关于数据挖掘在金融方面的应用,再加上现在金融对数据方面的要求不断提高,准备用两篇随笔来做个入门总结。 首先,在看这篇随笔以前稍微补充一点金融方面的知识,因为我不是金融专业的,以下补...

2018-08-29 23:17:31

阅读数 177

评论数 0

HBase性能调优总结

https://www.cnblogs.com/frankdeng/p/9529044.html 一. HBase的通用优化 1 高可用      在 HBase 中 Hmaster 负责监控 RegionServer 的生命周期,均衡 RegionServer 的负载,如果 Hmaster...

2018-08-25 23:17:07

阅读数 701

评论数 0

Raft协议的理解与分析

http://tech.dianwoda.com/2018/08/24/raftfen-bu-shi-zhi-xing-xie-yi/?utm_source=tuicool&utm_medium=referral  Paxos是最早的分布式一致性算法,虽然出来了很多年,但...

2018-08-25 11:51:34

阅读数 211

评论数 0

hive优化分享

https://www.cnblogs.com/SunHuaJ/p/9244899.html 简述hive构建在hadoop基础上,利用分布式存储,通过mr引擎实现对大数据的计算。MR会频繁地读写磁盘而且MR任务的启动成本很高。对于hive优化显得尤为重要。而优化的核心就是更好地利用hadoop的...

2018-06-29 23:31:12

阅读数 110

评论数 0

追源索骥:透过源码看懂Flink核心框架的执行流程

https://www.cnblogs.com/bethunebtj/p/9168274.html写在最前:因为这篇博客太长,所以我把它转成了带书签的pdf格式,看起来更方便一点。想要的童鞋可以到我的公众号“老白讲互联网”后台留言flink即可获取。追源索骥:透过源码看懂Flink核心框架的执行流...

2018-06-11 23:34:17

阅读数 1950

评论数 2

甘恒通:腾讯信鸽海量移动推送服务构建

https://www.cnblogs.com/qcloud1001/p/9120523.html欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~作者:甘恒通,2011年加入腾讯TEG数据平台部,主要负责大数据平台、推送平台后台的研发和优化工作,对构造高可用、高性能的分布式大数据处理和推...

2018-06-05 22:18:27

阅读数 415

评论数 0

Apache 流框架 Flink,Spark Streaming,Storm对比分析(一)

https://www.cnblogs.com/163yun/p/9007769.html   1.Flink架构及特性分析 Flink是个相当早的项目,开始于2008年,但只在最近才得到注意。Flink是原生的流处理系统,提供high level的API。Flink也提供 AP...

2018-05-08 21:32:42

阅读数 370

评论数 0

ClickHouse 使用

转自:https://www.zouyesheng.com/clickhouse.html 简介与安装 访问接口 查询语言 3.1. CREATE TABLE 3.1.1. 默认值 3.1.2. 物化列 3.1.3. 表达式列 3.2. SELECT 引擎 ...

2018-05-07 01:07:00

阅读数 7726

评论数 1

Apache Kylin VS Baidu Palo

https://blog.bcmeng.com/post/apache-kylin-vs-baidu-palo.html 作者: 康凯森 日期: 2018-04-17 分类: OLAP 1 系统架构 1.1 What is Kylin1.2 What is P...

2018-05-06 15:51:39

阅读数 1348

评论数 0

理解HDFS

https://www.cnblogs.com/wxshi/p/8662417.html 综述 当数据集的大小超过一台独立的物理计算机的存储能力时,就有必要对它进行分区并存储到若干台单独的计算机上。HDFS是hadoop的主要分布式存储系统,一个HDFS集群主要包括NameNode...

2018-03-28 22:49:36

阅读数 156

评论数 0

内存数据库之Apache Ingite

http://blog.csdn.net/haliluya123a/article/details/77619714 内存数据库技术选型 本文中,我们继续深入研究Apache Ignite,同时分享一些我们.Net的编码实践。 首先,Apache Ignite是一个内...

2018-03-11 21:31:22

阅读数 621

评论数 0

Apache Ignite剖析

1.概述   Apache Ignite和Apache Arrow很类似,属于大数据范畴中的内存分布式管理系统。在《Apache Arrow 内存数据》中介绍了Arrow的相关内容,它统一了大数据领域各个生态系统的数据格式,避免了序列化和反序列化所带来的资源开销(能够节省80%左右的CP...

2018-03-11 21:18:09

阅读数 485

评论数 0

Hive 编程之DDL、DML、UDF、Select总结

 https://www.cnblogs.com/yangp/p/8541345.html一、Hive命令行  所有的hive命令都可以通过hive命令行去执行,hive命令行中仍有许多选项。使用$hive -H查看:  -e 选项后面可以直接接一个hql语句,不用进入到hive命令行用户接口再输...

2018-03-11 20:59:11

阅读数 717

评论数 0

KUDU安装

http://blog.csdn.net/u014728303/article/details/52537753 Kudu是一个比较新的大数据组建,在国内大规模应用的公司并不多,kudu的安装文档也只找到官网上的一份,自己在按照官网的步骤进行安装的过程中也遇到了一些问题,现记录一下完整的...

2018-01-29 12:16:10

阅读数 174

评论数 0

kafka和storm集群的环境安装

https://www.cnblogs.com/xuwujing/p/8361629.html 前言 storm和kafka集群安装是没有必然联系的,我将这两个写在一起,是因为他们都是由zookeeper进行管理的,也都依赖于JDK的环境,为了不重复再写一遍配置,所以我...

2018-01-27 15:05:39

阅读数 228

评论数 0

大数据学习系列之九---- Hive整合Spark和HBase以及相关测试

https://www.cnblogs.com/xuwujing/p/8322022.html 前言 在之前的大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建 中介绍了集群的环境搭建,但是在使用hive进行数据查询的...

2018-01-22 00:00:48

阅读数 785

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭