- 博客(9)
- 资源 (1)
- 收藏
- 关注
转载 应对Hadoop集群数据疯长,这里祭出了4个治理对策!
作者介绍汪涉洋,来自美国视频网站hulu的工程师,毕业于北京理工大学计算机专业,目前从事大数据基础架构方面的工作,个人知乎专栏“大数据SRE的总结”:http://dwz.cn/7ygSgc。一、背景在目前规模比较大的互联网公司中,总数据量能达到10PB甚至几十PB数据量的公司,我认为中国已经有超过了20家了。而在这些公司中,也有很多家公司的日数据增长达到100TB+了。所以我们每天都要观察集群的...
2018-03-09 11:19:37 454
原创 python中的lamdba表达式
lamdba为一个表达式,函数体比def简单。它的主体是一个表达式,而不是一个代码块,仅仅能在lamdba表达式中封装有限的逻辑进去。 举例如下:>>> f = lambda x:x*x>>> print f(3)9定义一个lambda表达式,求三个数的和>>> f1 = lambda x,y,z:x+y+z&...
2018-02-28 22:18:09 698
原创 python中的reduce方法
Reduce函数接受的参数与map()类似,一个函数,一个列表,但行为与map不一样,reduce()传入的函数f必须接受两个参数,reduce()对列表中的每个元素反复调用函数f,并返回最终的结果值。 例如,编写一个函数,接受x和y,返回x和y的和:>>> def f(x,y):... return x+y... >>> reduce(...
2018-02-28 22:06:37 1659 1
原创 python中的map方法
map函数接受两个参数,一个是函数,一个是序列,map对items中的每个元素依次执行function,并把结果作为新的list返回 语法: map(function_to_apply, list_of_inputs) 返回一个列表中数字的平方,通常我们会这么做items = [1,2,3,4,5]squared = []for i in items: squared.a...
2018-02-28 22:03:45 3505
原创 列表和元组
最基本的数据结构是序列(sequence),序列中的每个元素被分配一个序号—-即元素的位置,也称索引。python包含6中内建的序列,最常用的有两种:列表和元组,列表和元组的区别在于,列表可以修改,元组则不能。 通用序列操作 所有的序列类型都可以进行某些特定的操作。这些操作包括:索引(indexing),分片(sliceing),加(adding),乘(multipying)以及检查某个元素是否
2017-02-08 14:19:48 252
原创 python基础知识
C:\Users\Administrator>python Python 2.6.1 (r261:67517, Dec 4 2008, 16:51:00) [MSC v.1500 32 bit (Intel)] on win32 Type “help”, “copyright”, “credits” or “license” for more information.>>> 1
2017-02-08 14:13:56 382
原创 CDH-5.3.2 rpm方式安装
硬件配置 1.在开始之前做好数据盘和系统盘的raid,开机进入raid设置界面,将系统盘做成raid1,12个数据盘做成raid10并从中分出两个4T的空间,接着就是安装操作系统,这里我使用的是redhat6.8最小化安装并且在安装主节点的时候顺便把http服务安装上后面将它作为其他节点的http服务器获取yum源。 2.创建数据节点存储目录并将前面创建的两个4T存储分区格式化mkdir -p
2017-02-08 14:03:02 2045
转载 Hive必备手册,这8点你一定用得到!
Apache Hive是Hadoop的一个数据仓库系统,促进了数据的综述(将结构化的数据文件映射为一张数据库表)、即席查询以及存储在Hadoop兼容系统中的大型数据集分析。本文主要介绍了Hive概念及一些实例。 Hive基本概念 Apache Hive在MapReduce上提供了一个SQL引擎层,是Facebook开发并开源的一个Apache项目。Apache Hive支持HiveQL语言,是S
2017-01-06 11:18:36 2176
转载 Hadoop 面试,有它就够了
Hadoop 面试,有它就够了统计网导读本文介绍了google推广的一个编程模型MapReduce,以及下一代mapreduce框架,简称MRv2。从各个方面对比了传统的MR框架和新一代的区别,以及它们的优缺点。一起来看看吧~1简介Apache Hadoop 是一个开源软件框架,可安装在一个商用机器集群中,使机器可彼此通信并协同工作,以高
2016-10-10 10:24:16 502
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人