- 博客(29)
- 资源 (10)
- 收藏
- 关注
转载 Spark对MapReduce的改进总结
下面总结Spark对MapReduce的改进:MapReduce抽象层次低,需要手工编写代码完成;Spark基于RDD抽象,使数据处理逻辑的代码非常简短。 MapReduce只提供了map和reduce两个操作,表达力欠缺;Spark提供了很多转换和动作,很多关系数据库中常见的操作如JOIN、GROUP BY已经在RDD中实现。 MapReduce中,只有map和reduce两个阶段,复杂...
2018-10-31 13:13:40 1183
转载 MapReduce基本处理步骤如下:
MapReduce可以理解为把一堆杂乱无章的数据按照某种特征归并起来,然后处理并得到最后的结果。基本处理步骤如下:把输入文件按照一定的标准分片,每个分片对应一个map任务。一般情况下,MapReduce和HDFS运行在同一组计算机上,也就是说,每台计算机同时承担存储和计算任务,因此分片通常不涉及计算机之间的数据复制。 按照一定的规则把分片中的内容解析成键值对。通常选择一种预定义的规则即可。...
2018-10-31 12:01:37 615
转载 大数据计算框架
https://cloud.tencent.com/developer/article/10304761. 前言计算机的基本工作就是处理数据,包括磁盘文件中的数据,通过网络传输的数据流或数据包,数据库中的结构化数据等。随着互联网、物联网等技术得到越来越广泛的应用,数据规模不断增加,TB、PB量级成为常态,对数据的处理已无法由单台计算机完成,而只能由多台机器共同承担计算任务。而在分布式环境中...
2018-10-31 11:36:08 8053
转载 Storm配置项详解
http://xstarcd.github.io/wiki/Cloud/storm_config_detail.htmlStorm配置项详解目录参考: Storm配置项详解: http://www.alidata.org/archives/2118|Storm配置项详解 Setting up a Storm cluster: http://storm.apache.org/doc...
2018-10-30 16:23:34 237
转载 firewalld 与 iptables
firewalld 与 iptableshttps://www.jianshu.com/p/70f7efe3a227不同Linux内核版本的防火墙软件在设置 Linux 防火墙规则时,可以先用 uname -r 查看一下 Linux 内核版本。 Firewalld从Cent7以后,iptables服务的启动脚本已被忽略。请使用firewalld来取代iptables服务...
2018-10-25 14:14:11 369
转载 ps -ef和ps aux的区别
https://blog.csdn.net/ljfrocky/article/details/50187165 第一点 -ef是System V展示风格,而aux是BSD风格。 BSD风格 字段含义: USER:用户名称 PID:进程号 %CPU:进程占用CPU的百分比 %MEM:进程占用物理内存的百分比 VSZ:进程占用的...
2018-10-25 13:55:08 270
转载 关闭 iptables 和 firewalld
https://blog.csdn.net/bbwangj/article/details/74502967?utm_source=blogxgwz0iptables防火墙1、基本操作# 查看防火墙状态service iptables status # 停止防火墙service iptables stop # 启动防火墙service iptables star...
2018-10-25 13:23:47 618
转载 Kafka其实就是个“篮子”
http://orchome.com/kafka/index发布 & 订阅 处理 存储数据流,如消息传递系统 高效并实时 数据流安全地在分布式集群中复制存储 ...
2018-10-23 15:20:45 246
转载 Storm集成Kafka应用的开发
https://www.cnblogs.com/freeweb/p/5292961.htmlStorm集成Kafka应用的开发 我们知道storm的作用主要是进行流式计算,对于源源不断的均匀数据流流入处理是非常有效的,而现实生活中大部分场景并不是均匀的数据流,而是时而多时而少的数据流入,这种情况下显然用批量处理是不合适的,如果使用storm做实时计算的话可能因为数据拥堵而导致服务器挂掉,...
2018-10-23 14:30:57 124
转载 使用 Gogs 搭建自己的 Git 服务器
https://www.jianshu.com/p/c9ca7c16bd1f前言因为有些仓库上传到Github并不是非常合适,所以就搭建了一个自己的私人仓库。在安装Gogs前,我也尝试了Gitlab,效果很不错环境Centos7.1安装配置Gogs所需的环境安装nginxsudo apt-get install nginx安装gitsudo apt...
2018-10-23 11:06:11 370
转载 大数据的五大关键技术
https://www.douban.com/group/topic/109858772/大数据技术,就是从各种类型的数据中快速获得有价值信息的技术。大数据领域已经涌现出了大量新的技术,它们成为大数据采集、存储、处理和展现的有力武器。一、大数据接入1、大数据接入已有数据接入、实时数据接入、文件数据接入、消息记录数据接入、文字数据接入、图片数据接入、视屏数据接入2、大数据接入技术Kaf...
2018-10-22 20:55:49 4720
转载 Storm:最火的流式处理框架
https://www.cnblogs.com/langtianya/p/5199529.html伴随着信息科技日新月异的发展,信息呈现出爆发式的膨胀,人们获取信息的途径也更加多样、更加便捷,同时对于信息的时效性要求也越来越高。举个搜索场景中的例子,当一个卖家发布了一条宝贝信息时,他希望的当然是这个宝贝马上就可以被卖家搜索出来、点击、购买啦,相反,如果这个宝贝要等到第二天或者更久才可以被搜出来...
2018-10-22 20:01:13 164
转载 Zookeeper介绍及安装部署
https://www.cnblogs.com/zhaojiankai/p/7126181.htmlZookeeper介绍及安装部署本节内容:Zookeeper介绍 Zookeeper特点 Zookeeper应用场景 用到了Zookeeper的一些系统 Zookeeper集群安装部署 一、Zookeeper介绍是一个针对大型分布式系统的可靠协调系统; 提供的功能包括...
2018-10-22 18:58:16 142
转载 kafka和storm集群的环境安装
http://www.panchengming.com/2018/01/26/pancm70/kafka和storm集群的环境安装发表于 2018-01-26 | 分类于 kafka 前言storm和kafka集群安装是没有必然联系的,我将这两个写在一起,是因为他们都是由zookeeper进行管理的,也都依赖于JDK的环境,为了不重复再写一遍配置,所以我将这两个写在一起。若只需一...
2018-10-22 18:54:04 123
转载 Storm 入门的Demo教程
https://www.cnblogs.com/xuwujing/p/8584684.htmlStorm介绍Storm是Twitter开源的分布式实时大数据处理框架,最早开源于github,从0.9.1版本之后,归于Apache社区,被业界称为实时版Hadoop。随着越来越多的场景对Hadoop的MapReduce高延迟无法容忍,比如网站统计、推荐系统、预警系统、金融系统(高频交易、股票)...
2018-10-22 16:39:21 117
转载 ceph性能测试工具总结
https://blog.csdn.net/Motred_/article/details/52268225性能测试工具1.1 磁盘性能测试dd1.2 网络测试1.2.1 iperf工具简介iperf是一个网络性能测试工具。Iperf可以测试TCP和UDP带宽质量。iperf可以测量最大TCP带宽,具有多种参数和UDP特性。 Iperf可以报告带宽,延迟抖动和数据包丢失。利...
2018-10-12 13:42:40 1447
转载 hadoop大数据生态系统
第一批次大数据组件测试:HDFS、Spark、MapReduce 、Hive、Hbase、Zookeeper、Flume、Avro、Pig、Ambari、Sqoop、YARN、Mesos. HDFS -- Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware) 上的分布式文件存储系统。Spark -- S...
2018-10-12 10:04:12 200
原创 大数据测试v 1.0
大数据测试v 1.0 -序:本次测试从 6- 12 到 7-12号整整历时 1个月,除去休息,真正大约 20个工作日,在这20个工作日里面,中途周末加过几次班,满打满算应该20多天,接触并经历了大数据功能测试、一体机性能测试、大数据Hado...
2018-10-12 09:35:03 587
转载 CentOS下搭建Teuthology Ceph自动化测试平台(一)
https://blog.csdn.net/CSND_PAN/article/details/81181046Paddles及数据库部署CentOS下搭建Teuthology Ceph自动化测试平台(一)CentOS下搭建Teuthology Ceph自动化测试平台(二)CentOS下搭建Teuthology Ceph自动化测试平台(三)CentOS下搭建Teuthology Ceph自动...
2018-10-11 14:45:56 283
转载 YARN资源调度
http://dongxicheng.org/mapreduce-nextgen/mesos_vs_yarn/1. 背景随着互联网的高速发展,基于数据密集型应用的计算框架不断出现,从支持离线处理的MapReduce,到支持在线处理的Storm,从迭代式计算框架Spark到流式处理框架S4,…,各种框架诞生于不同的公司或者实验室,它们各有所长,各自解决了某一类应用问题。而在大部分互联网公司中...
2018-10-11 10:21:41 300
转载 Hadoop生态圈:19个让大象飞起来的工具!
https://zhuanlan.zhihu.com/p/22366610Hadoop生态圈:19个让大象飞起来的工具!大圣圈更多知识分享请关注公众号:大圣圈(spesedu)12 人赞了该文章亲爱的同学们!大圣课堂又来了! 讲了这么久的大数据!不知道有没有细心的同学发现!Hadoop这个词语出现的频率hin高hin高! 那么今天俺老孙就来讲...
2018-10-10 16:56:54 3410
转载 hadoop生态圈
https://blog.csdn.net/kisssun0608/article/details/45338655版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u010113156/article/details/45338655根据Hadoop官网的相关介绍和实际使用中的软件集,将Hadoop生态圈的主要软件工具简单介绍下,拓展对整个...
2018-10-10 16:48:05 308
转载 hadoop生态圈
https://blog.csdn.net/cpaqyx/article/details/73694976?locationNum=2&fps=1学习和使用hadoop有一年了,这里主要分享一下对hadoop整体上的理解,分门别类的介绍一下相关组件,最后提供了建议的学习路线,希望对hadoop的初学者有参考作用。 1. Hadoop核心件组有哪些? 广义hadoop指...
2018-10-10 16:39:37 890
转载 hibench是hadoop的基准测试框架
hibench作为一个测试hadoop的基准测试框架,提供了对于hive:(aggregation,scan,join),排序(sort,TeraSort),大数据基本算法(wordcount,pagerank,nutchindex),机器学习算法(kmeans,bayes),集群调度(sleep),吞吐(dfsio),以及新加入5.0版本的流测试:we provide following st...
2018-10-10 14:46:48 2360
转载 pxe无人值守安装linux机器笔记
https://blog.csdn.net/wangyaninglm/article/details/52601733最近做一些集群的测试的工作,做服务器测试最根本就是要安装系统,曾经我们用十几个光驱并行安装光驱的日子过去了,自从有了pxe一两天搭建好一个集群不是梦!当然做多了集群的搭建工作最多的感受就是,其实运维工作谁都能做,关键是效率高不高的问题,pxe装机这个东西就是能极高提升我们效率的...
2018-10-10 11:21:18 154
转载 CDH简介
https://blog.csdn.net/u013061459/article/details/73368798?fps=1&locationNum=61、Apache Hadoop 不足之处 • 版本管理混乱 • 部署过程繁琐、升级过程复杂 • 兼容性差 • 安全性低2、Hadoop 发行版 • Apache Hadoop • Cloudera’s ...
2018-10-10 10:57:32 2979
转载 Cloudera(CDH) 简介和在线安装
https://blog.csdn.net/wh211212/article/details/78743191版权声明:本文为木偶人shaon原创文章,转载请注明原文地址,非常感谢。 https://blog.csdn.net/wh211212/article/details/78743191实验背景笔者需要维护线上的hadoop集群环境,考虑在本地搭建一套类似的hadoop集群...
2018-10-10 10:54:36 266
转载 关于CDH和Cloudera Manager
https://www.cnblogs.com/CaptainLin/p/7089766.html关于CDH和Cloudera ManagerCDH (Cloudera's Distribution, including Apache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,并集成了很多补丁,可直接用于生产环境。...
2018-10-10 10:03:18 652
转载 大数据分析系统Hadoop的13个开源工具
http://www.thebigdata.cn/Hadoop/37184.html大数据分析系统Hadoop的13个开源工具[日期:2018-06-06] 来源:搜狐 作者:佚名 [字体:大 中 小] hadoop是由Apache基金会开发的一个大数据分布式系统基础架构,最早版本是2003年原Yahoo!DougCutting根据Google发布的学术论文研究而来。...
2018-10-09 17:14:32 883
软件测试人员的发展方向都有哪些
2008-11-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人