自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(29)
  • 资源 (10)
  • 收藏
  • 关注

转载 Spark对MapReduce的改进总结

下面总结Spark对MapReduce的改进:MapReduce抽象层次低,需要手工编写代码完成;Spark基于RDD抽象,使数据处理逻辑的代码非常简短。 MapReduce只提供了map和reduce两个操作,表达力欠缺;Spark提供了很多转换和动作,很多关系数据库中常见的操作如JOIN、GROUP BY已经在RDD中实现。 MapReduce中,只有map和reduce两个阶段,复杂...

2018-10-31 13:13:40 1183

转载 MapReduce基本处理步骤如下:

MapReduce可以理解为把一堆杂乱无章的数据按照某种特征归并起来,然后处理并得到最后的结果。基本处理步骤如下:把输入文件按照一定的标准分片,每个分片对应一个map任务。一般情况下,MapReduce和HDFS运行在同一组计算机上,也就是说,每台计算机同时承担存储和计算任务,因此分片通常不涉及计算机之间的数据复制。 按照一定的规则把分片中的内容解析成键值对。通常选择一种预定义的规则即可。...

2018-10-31 12:01:37 615

转载 大数据计算框架

https://cloud.tencent.com/developer/article/10304761. 前言计算机的基本工作就是处理数据,包括磁盘文件中的数据,通过网络传输的数据流或数据包,数据库中的结构化数据等。随着互联网、物联网等技术得到越来越广泛的应用,数据规模不断增加,TB、PB量级成为常态,对数据的处理已无法由单台计算机完成,而只能由多台机器共同承担计算任务。而在分布式环境中...

2018-10-31 11:36:08 8053

转载 Storm配置项详解

http://xstarcd.github.io/wiki/Cloud/storm_config_detail.htmlStorm配置项详解目录参考: Storm配置项详解: http://www.alidata.org/archives/2118|Storm配置项详解 Setting up a Storm cluster: http://storm.apache.org/doc...

2018-10-30 16:23:34 237

转载 firewalld 与 iptables

firewalld 与 iptableshttps://www.jianshu.com/p/70f7efe3a227不同Linux内核版本的防火墙软件在设置 Linux 防火墙规则时,可以先用 uname  -r  查看一下 Linux 内核版本。 Firewalld从Cent7以后,iptables服务的启动脚本已被忽略。请使用firewalld来取代iptables服务...

2018-10-25 14:14:11 369

转载 ps -ef和ps aux的区别

https://blog.csdn.net/ljfrocky/article/details/50187165    第一点    -ef是System V展示风格,而aux是BSD风格。    BSD风格    字段含义:    USER:用户名称    PID:进程号    %CPU:进程占用CPU的百分比    %MEM:进程占用物理内存的百分比    VSZ:进程占用的...

2018-10-25 13:55:08 270

转载 关闭 iptables 和 firewalld

https://blog.csdn.net/bbwangj/article/details/74502967?utm_source=blogxgwz0iptables防火墙1、基本操作# 查看防火墙状态service iptables status  # 停止防火墙service iptables stop  # 启动防火墙service iptables star...

2018-10-25 13:23:47 618

转载 Kafka其实就是个“篮子”

http://orchome.com/kafka/index发布 & 订阅                        处理                     存储数据流,如消息传递系统                     高效并实时                   数据流安全地在分布式集群中复制存储                              ...

2018-10-23 15:20:45 246

转载 Storm集成Kafka应用的开发

https://www.cnblogs.com/freeweb/p/5292961.htmlStorm集成Kafka应用的开发  我们知道storm的作用主要是进行流式计算,对于源源不断的均匀数据流流入处理是非常有效的,而现实生活中大部分场景并不是均匀的数据流,而是时而多时而少的数据流入,这种情况下显然用批量处理是不合适的,如果使用storm做实时计算的话可能因为数据拥堵而导致服务器挂掉,...

2018-10-23 14:30:57 124

转载 使用 Gogs 搭建自己的 Git 服务器

https://www.jianshu.com/p/c9ca7c16bd1f前言因为有些仓库上传到Github并不是非常合适,所以就搭建了一个自己的私人仓库。在安装Gogs前,我也尝试了Gitlab,效果很不错环境Centos7.1安装配置Gogs所需的环境安装nginxsudo apt-get install nginx安装gitsudo apt...

2018-10-23 11:06:11 370

转载 大数据的五大关键技术

https://www.douban.com/group/topic/109858772/大数据技术,就是从各种类型的数据中快速获得有价值信息的技术。大数据领域已经涌现出了大量新的技术,它们成为大数据采集、存储、处理和展现的有力武器。一、大数据接入1、大数据接入已有数据接入、实时数据接入、文件数据接入、消息记录数据接入、文字数据接入、图片数据接入、视屏数据接入2、大数据接入技术Kaf...

2018-10-22 20:55:49 4720

转载 Storm:最火的流式处理框架

https://www.cnblogs.com/langtianya/p/5199529.html伴随着信息科技日新月异的发展,信息呈现出爆发式的膨胀,人们获取信息的途径也更加多样、更加便捷,同时对于信息的时效性要求也越来越高。举个搜索场景中的例子,当一个卖家发布了一条宝贝信息时,他希望的当然是这个宝贝马上就可以被卖家搜索出来、点击、购买啦,相反,如果这个宝贝要等到第二天或者更久才可以被搜出来...

2018-10-22 20:01:13 164

转载 Zookeeper介绍及安装部署

https://www.cnblogs.com/zhaojiankai/p/7126181.htmlZookeeper介绍及安装部署本节内容:Zookeeper介绍 Zookeeper特点 Zookeeper应用场景 用到了Zookeeper的一些系统 Zookeeper集群安装部署 一、Zookeeper介绍是一个针对大型分布式系统的可靠协调系统; 提供的功能包括...

2018-10-22 18:58:16 142

转载 kafka和storm集群的环境安装

http://www.panchengming.com/2018/01/26/pancm70/kafka和storm集群的环境安装发表于 2018-01-26 | 分类于 kafka 前言storm和kafka集群安装是没有必然联系的,我将这两个写在一起,是因为他们都是由zookeeper进行管理的,也都依赖于JDK的环境,为了不重复再写一遍配置,所以我将这两个写在一起。若只需一...

2018-10-22 18:54:04 123

转载 Storm 入门的Demo教程

https://www.cnblogs.com/xuwujing/p/8584684.htmlStorm介绍Storm是Twitter开源的分布式实时大数据处理框架,最早开源于github,从0.9.1版本之后,归于Apache社区,被业界称为实时版Hadoop。随着越来越多的场景对Hadoop的MapReduce高延迟无法容忍,比如网站统计、推荐系统、预警系统、金融系统(高频交易、股票)...

2018-10-22 16:39:21 117

转载 ceph性能测试工具总结

https://blog.csdn.net/Motred_/article/details/52268225性能测试工具1.1    磁盘性能测试dd1.2 网络测试1.2.1 iperf工具简介iperf是一个网络性能测试工具。Iperf可以测试TCP和UDP带宽质量。iperf可以测量最大TCP带宽,具有多种参数和UDP特性。 Iperf可以报告带宽,延迟抖动和数据包丢失。利...

2018-10-12 13:42:40 1447

转载 hadoop大数据生态系统

 第一批次大数据组件测试:HDFS、Spark、MapReduce 、Hive、Hbase、Zookeeper、Flume、Avro、Pig、Ambari、Sqoop、YARN、Mesos. HDFS  -- Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)        上的分布式文件存储系统。Spark  -- S...

2018-10-12 10:04:12 200

原创 大数据测试v 1.0

                                                                          大数据测试v 1.0 -序:本次测试从 6- 12 到 7-12号整整历时 1个月,除去休息,真正大约 20个工作日,在这20个工作日里面,中途周末加过几次班,满打满算应该20多天,接触并经历了大数据功能测试、一体机性能测试、大数据Hado...

2018-10-12 09:35:03 587

转载 CentOS下搭建Teuthology Ceph自动化测试平台(一)

https://blog.csdn.net/CSND_PAN/article/details/81181046Paddles及数据库部署CentOS下搭建Teuthology Ceph自动化测试平台(一)CentOS下搭建Teuthology Ceph自动化测试平台(二)CentOS下搭建Teuthology Ceph自动化测试平台(三)CentOS下搭建Teuthology Ceph自动...

2018-10-11 14:45:56 283

转载 YARN资源调度

http://dongxicheng.org/mapreduce-nextgen/mesos_vs_yarn/1. 背景随着互联网的高速发展,基于数据密集型应用的计算框架不断出现,从支持离线处理的MapReduce,到支持在线处理的Storm,从迭代式计算框架Spark到流式处理框架S4,…,各种框架诞生于不同的公司或者实验室,它们各有所长,各自解决了某一类应用问题。而在大部分互联网公司中...

2018-10-11 10:21:41 300

转载 Hadoop生态圈:19个让大象飞起来的工具!

https://zhuanlan.zhihu.com/p/22366610Hadoop生态圈:19个让大象飞起来的工具!大圣圈更多知识分享请关注公众号:大圣圈(spesedu)12 人赞了该文章亲爱的同学们!大圣课堂又来了! 讲了这么久的大数据!不知道有没有细心的同学发现!Hadoop这个词语出现的频率hin高hin高! 那么今天俺老孙就来讲...

2018-10-10 16:56:54 3410

转载 hadoop生态圈

https://blog.csdn.net/kisssun0608/article/details/45338655版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u010113156/article/details/45338655根据Hadoop官网的相关介绍和实际使用中的软件集,将Hadoop生态圈的主要软件工具简单介绍下,拓展对整个...

2018-10-10 16:48:05 308

转载 hadoop生态圈

https://blog.csdn.net/cpaqyx/article/details/73694976?locationNum=2&fps=1学习和使用hadoop有一年了,这里主要分享一下对hadoop整体上的理解,分门别类的介绍一下相关组件,最后提供了建议的学习路线,希望对hadoop的初学者有参考作用。 1.      Hadoop核心件组有哪些? 广义hadoop指...

2018-10-10 16:39:37 890

转载 hibench是hadoop的基准测试框架

hibench作为一个测试hadoop的基准测试框架,提供了对于hive:(aggregation,scan,join),排序(sort,TeraSort),大数据基本算法(wordcount,pagerank,nutchindex),机器学习算法(kmeans,bayes),集群调度(sleep),吞吐(dfsio),以及新加入5.0版本的流测试:we provide following st...

2018-10-10 14:46:48 2360

转载 pxe无人值守安装linux机器笔记

https://blog.csdn.net/wangyaninglm/article/details/52601733最近做一些集群的测试的工作,做服务器测试最根本就是要安装系统,曾经我们用十几个光驱并行安装光驱的日子过去了,自从有了pxe一两天搭建好一个集群不是梦!当然做多了集群的搭建工作最多的感受就是,其实运维工作谁都能做,关键是效率高不高的问题,pxe装机这个东西就是能极高提升我们效率的...

2018-10-10 11:21:18 154

转载 CDH简介

https://blog.csdn.net/u013061459/article/details/73368798?fps=1&locationNum=61、Apache Hadoop 不足之处  • 版本管理混乱  • 部署过程繁琐、升级过程复杂  • 兼容性差  • 安全性低2、Hadoop 发行版  • Apache Hadoop  • Cloudera’s ...

2018-10-10 10:57:32 2979

转载 Cloudera(CDH) 简介和在线安装

https://blog.csdn.net/wh211212/article/details/78743191版权声明:本文为木偶人shaon原创文章,转载请注明原文地址,非常感谢。 https://blog.csdn.net/wh211212/article/details/78743191实验背景笔者需要维护线上的hadoop集群环境,考虑在本地搭建一套类似的hadoop集群...

2018-10-10 10:54:36 266

转载 关于CDH和Cloudera Manager

https://www.cnblogs.com/CaptainLin/p/7089766.html关于CDH和Cloudera ManagerCDH (Cloudera's Distribution, including Apache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,并集成了很多补丁,可直接用于生产环境。...

2018-10-10 10:03:18 652

转载 大数据分析系统Hadoop的13个开源工具

http://www.thebigdata.cn/Hadoop/37184.html大数据分析系统Hadoop的13个开源工具[日期:2018-06-06] 来源:搜狐  作者:佚名 [字体:大 中 小]   hadoop是由Apache基金会开发的一个大数据分布式系统基础架构,最早版本是2003年原Yahoo!DougCutting根据Google发布的学术论文研究而来。...

2018-10-09 17:14:32 883

Kafka 入门基础篇.pptx

Kafka 入门基础篇.pptx

2021-03-05

统计图工具

统计图制作工具,比较好用的,免资源分分享给大家。

2014-10-23

BillCapturer

BillCapturer.exe

2013-12-24

unicode转码工具,小巧好用

unicode转码工具,小巧好用,LoveString_160

2013-11-19

ab使用手册

ab使用手册

2013-02-06

[Java程序设计入门教程].(.杜邦杰).(扫描版).pdf

[Java程序设计入门教程].(.杜邦杰).(扫描版).pdf

2013-02-04

Apache_Ant_中文手册

Apache_Ant_中文手册Apache_Ant_中文手册Apache_Ant_中文手册Apache_Ant_中文手册

2011-03-04

移动梦网短信业务信令流程规范(V3.0.0)

移动梦网短信业务信令流程规范(V3.0.0)

2010-12-09

软件测试人员的发展方向都有哪些

软件测试人员的发展方向都有哪些软件测试人员的发展方向都有哪些软件测试人员的发展方向都有哪些软件测试人员的发展方向都有哪些软件测试人员的发展方向都有哪些

2008-11-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除