- 博客(5)
- 收藏
- 关注
转载 奇虎360scribe日志采集系统
日志收集是大数据的基石。许多公司的业务平台每天都会产生大量的日志数据。收集业务日志数据,供离线和在线的分析系统使用,正是日志收集系统的要做的事情。高可用性,高可靠性和可扩展性是日志收集系统所具有的基本特征。 一、Scribe简介 目前在互联网公司比较常见日志收集系统有 Flume和 Scribe。 Scribe是Facebook开源
2017-09-28 14:46:29 1502
转载 hadoop之yarn的资源分配详解
在学习Hadoop YARN—Hadoop 2.0新引入的通用资源管理系统过程中,总会遇到Container这一概念,由于中文资料的缺乏,很多人对Container这一概念仍非常的模糊。它与Linux Container是什么关系,它是否能像Linux Container那样为任务提供一个隔离环境?它代表计算资源,还是仅仅是一个任务处理进程?本文将尝试介绍Container这一概念。
2017-09-27 13:07:24 1555
转载 Hive优化
1.概述 本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍。2.介绍 首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数据倾斜是个问题。jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map
2017-09-25 17:59:41 531
原创 二分查找的应用
最近公司有程序员大赛,题目大概是这样的:有数值类型 123, 每次去除末尾的一个字符 123 12 1 , 然后累加 123+12+1=136 程序输入 136,求是否存在这样一个数(如:123)每次去除末尾一个字符累加等于136,并求这个数的最小值,没有该数 返回 -1一开始我的程序是这样写的: public static long ge
2017-09-22 09:29:05 443
转载 Hadoop中YARN和Container的概念详解
转载自http://dongxicheng.org/mapreduce-nextgen/understand-yarn-container-concept/在学习Hadoop YARN—Hadoop 2.0新引入的通用资源管理系统过程中,总会遇到Container这一概念,由于中文资料的缺乏,很多人对Container这一概念仍非常的模糊。它与Linux Container是什么关系,它
2017-09-15 16:47:27 1237
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人