![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
武晓兵
软件质量、项目管理、产品售前;云计算、大数据、人工智能。
展开
-
Hadoop分布式文件系统(HDFS)快速入门
https://blog.csdn.net/weixin_42278880/article/details/102532882天地无穷期,生命则有穷期,去一日便少一日富贵有定数,学问则无定数,求一分便得一分推荐书目电子版下载Hadoop必读书目(精选)本文参考文献包含于上述书籍HDFS知识梳理详细版Hadoop分布式文件系统(HDFS)知识梳理(超详细)HDFS快速入门应...转载 2019-10-16 12:13:58 · 291 阅读 · 0 评论 -
Storm集成Kafka应用的开发
https://www.cnblogs.com/freeweb/p/5292961.htmlStorm集成Kafka应用的开发 我们知道storm的作用主要是进行流式计算,对于源源不断的均匀数据流流入处理是非常有效的,而现实生活中大部分场景并不是均匀的数据流,而是时而多时而少的数据流入,这种情况下显然用批量处理是不合适的,如果使用storm做实时计算的话可能因为数据拥堵而导致服务器挂掉,...转载 2018-10-23 14:30:57 · 118 阅读 · 0 评论 -
Kafka其实就是个“篮子”
http://orchome.com/kafka/index发布 & 订阅 处理 存储数据流,如消息传递系统 高效并实时 数据流安全地在分布式集群中复制存储 ...转载 2018-10-23 15:20:45 · 238 阅读 · 0 评论 -
大数据计算框架
https://cloud.tencent.com/developer/article/10304761. 前言计算机的基本工作就是处理数据,包括磁盘文件中的数据,通过网络传输的数据流或数据包,数据库中的结构化数据等。随着互联网、物联网等技术得到越来越广泛的应用,数据规模不断增加,TB、PB量级成为常态,对数据的处理已无法由单台计算机完成,而只能由多台机器共同承担计算任务。而在分布式环境中...转载 2018-10-31 11:36:08 · 7983 阅读 · 0 评论 -
Spark对MapReduce的改进总结
下面总结Spark对MapReduce的改进:MapReduce抽象层次低,需要手工编写代码完成;Spark基于RDD抽象,使数据处理逻辑的代码非常简短。 MapReduce只提供了map和reduce两个操作,表达力欠缺;Spark提供了很多转换和动作,很多关系数据库中常见的操作如JOIN、GROUP BY已经在RDD中实现。 MapReduce中,只有map和reduce两个阶段,复杂...转载 2018-10-31 13:13:40 · 1130 阅读 · 0 评论 -
Storm配置项详解
http://xstarcd.github.io/wiki/Cloud/storm_config_detail.htmlStorm配置项详解目录参考: Storm配置项详解: http://www.alidata.org/archives/2118|Storm配置项详解 Setting up a Storm cluster: http://storm.apache.org/doc...转载 2018-10-30 16:23:34 · 224 阅读 · 0 评论 -
spark安装配置和代码框架(转)
https://www.cnblogs.com/yangsy0915/p/6232280.html主流大数据技术全体系参数与搭建与后台代码工程框架的编写(百分之70)之前查阅源码啊,性能测试啊调优啊。。基本告一段落,项目也接近尾声,那么整理下spark所有配置参数与优化策略,方便以后开发与配置:Spark安装配置与代码框架 spark-default.conf 配置spa...转载 2018-11-01 10:49:45 · 2431 阅读 · 0 评论 -
大数据框架对比:Hadoop、Storm、Samza、Spark和Flink
https://www.cnblogs.com/reed/p/7730329.html 今天看到一篇讲得比较清晰的框架对比,这几个框架的选择对于初学分布式运算的人来说确实有点迷茫,相信看完这篇文章之后应该能有所收获。 简介大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计...转载 2018-11-01 11:05:38 · 240 阅读 · 0 评论 -
资源管理(大数据):Zookeeper、 Yarn简介、原理
https://blog.csdn.net/wzk646795873/article/details/79583218ZookeeperZookeeper是一个分布式协调服务,一个leader,多个follower组成的集群,就是为用户的分布式应用程序提供协调服务。Zookeeper是为别的分布式程序服务的。Zookeeper所提供的服务涵盖:主从协调、服务器节点动态上下线、统一配...转载 2018-11-01 11:29:32 · 606 阅读 · 0 评论 -
spark与storm的对比
https://www.cnblogs.com/yaohaitao/p/5703288.htmlspark与storm的对比 对比点 Storm Spark Streaming 实时计算模型 纯实时,来一条数据,处理一条数据 准实时,对一个时间段内的数据收集起来,作为一个RDD...转载 2018-11-01 12:01:23 · 138 阅读 · 0 评论 -
大数据资源整理
https://zhuanlan.zhihu.com/p/24231891大数据资源整理林梓假程序媛,真女汉子~大数据最近几年很火,如果你去问读研的小伙伴,搞计算机的,我相信不是搞数据处理就是搞机器学习的,这都属于大数据的范畴。虽然大数据很火,但是网上的资源却比较少,主要是很零碎,不成体系。当然,想要搞大数据,数学知识诸如:高等数学,线性代数,概率论,统计学……是必不可少的...转载 2018-11-06 13:20:06 · 1067 阅读 · 0 评论 -
对象存储、块存储、文件存储的区别和联系
https://www.jianshu.com/p/595240efc22c 存储方式 技术实现 优势 劣势 代表作 块存储 裸盘上划分逻辑卷,逻辑卷格式化成任意文件系统 支持多种文件系统,传输速度快,提供硬件容错机制 无法实现网络共享 FC-SAN,iSCSI 文件存储 在格式化的磁盘上存储文件 提供网络共享 网络...转载 2018-11-06 13:26:47 · 963 阅读 · 0 评论 -
大数据领域的Benchmark介绍
https://blog.csdn.net/u012050154/article/details/50729725一、Benchmark简介Benchmark是一个评价方式,在整个计算机领域有着长期的应用。正如维基百科上的解释“As computer architecture advanced, it became more difficult to compare the perform...转载 2018-11-27 16:21:50 · 587 阅读 · 0 评论 -
Redis性能压测工具 redis-benchmark
https://blog.csdn.net/zlfprogram/article/details/74338685Redis有多快?Redis 自带了一个叫 redis-benchmark 的工具来模拟 N 个客户端同时发出 M 个请求。 (类似于 Apache ab 程序)。你可以使用 redis-benchmark -h 来查看基准参数。 以下参数被支持: ...转载 2018-11-27 16:50:13 · 484 阅读 · 0 评论 -
大数据学习路线(包含全套视频教程)
https://blog.csdn.net/tsyx/article/details/98878663大数据学习路线先看一个学习大数据要涉及到的一些技术,第一点是Java(Java SE,javaweb)在大数据中,有个核心技术是Hadoop, Hadoop主要完成数据的存储与计算,技术包括HDFS和MapReduce, 而要编写HDFS和MapReduce,则需要用到Java语言...转载 2019-09-11 12:29:38 · 759 阅读 · 0 评论 -
使用 Gogs 搭建自己的 Git 服务器
https://www.jianshu.com/p/c9ca7c16bd1f前言因为有些仓库上传到Github并不是非常合适,所以就搭建了一个自己的私人仓库。在安装Gogs前,我也尝试了Gitlab,效果很不错环境Centos7.1安装配置Gogs所需的环境安装nginxsudo apt-get install nginx安装gitsudo apt...转载 2018-10-23 11:06:11 · 357 阅读 · 0 评论 -
大数据的五大关键技术
https://www.douban.com/group/topic/109858772/大数据技术,就是从各种类型的数据中快速获得有价值信息的技术。大数据领域已经涌现出了大量新的技术,它们成为大数据采集、存储、处理和展现的有力武器。一、大数据接入1、大数据接入已有数据接入、实时数据接入、文件数据接入、消息记录数据接入、文字数据接入、图片数据接入、视屏数据接入2、大数据接入技术Kaf...转载 2018-10-22 20:55:49 · 4653 阅读 · 0 评论 -
Storm:最火的流式处理框架
https://www.cnblogs.com/langtianya/p/5199529.html伴随着信息科技日新月异的发展,信息呈现出爆发式的膨胀,人们获取信息的途径也更加多样、更加便捷,同时对于信息的时效性要求也越来越高。举个搜索场景中的例子,当一个卖家发布了一条宝贝信息时,他希望的当然是这个宝贝马上就可以被卖家搜索出来、点击、购买啦,相反,如果这个宝贝要等到第二天或者更久才可以被搜出来...转载 2018-10-22 20:01:13 · 151 阅读 · 0 评论 -
CentOS下搭建Teuthology Ceph自动化测试平台(一)
https://blog.csdn.net/CSND_PAN/article/details/81181046Paddles及数据库部署CentOS下搭建Teuthology Ceph自动化测试平台(一)CentOS下搭建Teuthology Ceph自动化测试平台(二)CentOS下搭建Teuthology Ceph自动化测试平台(三)CentOS下搭建Teuthology Ceph自动...转载 2018-10-11 14:45:56 · 270 阅读 · 0 评论 -
大数据测试v 1.0
大数据测试v 1.0 -序:本次测试从 6- 12 到 7-12号整整历时 1个月,除去休息,真正大约 20个工作日,在这20个工作日里面,中途周末加过几次班,满打满算应该20多天,接触并经历了大数据功能测试、一体机性能测试、大数据Hado...原创 2018-10-12 09:35:03 · 560 阅读 · 0 评论 -
hadoop大数据生态系统
第一批次大数据组件测试:HDFS、Spark、MapReduce 、Hive、Hbase、Zookeeper、Flume、Avro、Pig、Ambari、Sqoop、YARN、Mesos. HDFS -- Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware) 上的分布式文件存储系统。Spark -- S...转载 2018-10-12 10:04:12 · 191 阅读 · 0 评论 -
Spark on K8S
http://spark.apache.org/docs/latest/cluster-overview.html转载 2018-09-22 15:53:29 · 700 阅读 · 0 评论 -
大数据分析系统Hadoop的13个开源工具
http://www.thebigdata.cn/Hadoop/37184.html大数据分析系统Hadoop的13个开源工具[日期:2018-06-06] 来源:搜狐 作者:佚名 [字体:大 中 小] hadoop是由Apache基金会开发的一个大数据分布式系统基础架构,最早版本是2003年原Yahoo!DougCutting根据Google发布的学术论文研究而来。...转载 2018-10-09 17:14:32 · 872 阅读 · 0 评论 -
关于CDH和Cloudera Manager
https://www.cnblogs.com/CaptainLin/p/7089766.html关于CDH和Cloudera ManagerCDH (Cloudera's Distribution, including Apache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,并集成了很多补丁,可直接用于生产环境。...转载 2018-10-10 10:03:18 · 633 阅读 · 0 评论 -
Cloudera(CDH) 简介和在线安装
https://blog.csdn.net/wh211212/article/details/78743191版权声明:本文为木偶人shaon原创文章,转载请注明原文地址,非常感谢。 https://blog.csdn.net/wh211212/article/details/78743191实验背景笔者需要维护线上的hadoop集群环境,考虑在本地搭建一套类似的hadoop集群...转载 2018-10-10 10:54:36 · 249 阅读 · 0 评论 -
CDH简介
https://blog.csdn.net/u013061459/article/details/73368798?fps=1&locationNum=61、Apache Hadoop 不足之处 • 版本管理混乱 • 部署过程繁琐、升级过程复杂 • 兼容性差 • 安全性低2、Hadoop 发行版 • Apache Hadoop • Cloudera’s ...转载 2018-10-10 10:57:32 · 2967 阅读 · 0 评论 -
hadoop生态圈
https://blog.csdn.net/cpaqyx/article/details/73694976?locationNum=2&fps=1学习和使用hadoop有一年了,这里主要分享一下对hadoop整体上的理解,分门别类的介绍一下相关组件,最后提供了建议的学习路线,希望对hadoop的初学者有参考作用。 1. Hadoop核心件组有哪些? 广义hadoop指...转载 2018-10-10 16:39:37 · 884 阅读 · 0 评论 -
hadoop生态圈
https://blog.csdn.net/kisssun0608/article/details/45338655版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u010113156/article/details/45338655根据Hadoop官网的相关介绍和实际使用中的软件集,将Hadoop生态圈的主要软件工具简单介绍下,拓展对整个...转载 2018-10-10 16:48:05 · 299 阅读 · 0 评论 -
Hadoop生态圈:19个让大象飞起来的工具!
https://zhuanlan.zhihu.com/p/22366610Hadoop生态圈:19个让大象飞起来的工具!大圣圈更多知识分享请关注公众号:大圣圈(spesedu)12 人赞了该文章亲爱的同学们!大圣课堂又来了! 讲了这么久的大数据!不知道有没有细心的同学发现!Hadoop这个词语出现的频率hin高hin高! 那么今天俺老孙就来讲...转载 2018-10-10 16:56:54 · 3383 阅读 · 0 评论 -
Storm 入门的Demo教程
https://www.cnblogs.com/xuwujing/p/8584684.htmlStorm介绍Storm是Twitter开源的分布式实时大数据处理框架,最早开源于github,从0.9.1版本之后,归于Apache社区,被业界称为实时版Hadoop。随着越来越多的场景对Hadoop的MapReduce高延迟无法容忍,比如网站统计、推荐系统、预警系统、金融系统(高频交易、股票)...转载 2018-10-22 16:39:21 · 108 阅读 · 0 评论 -
kafka和storm集群的环境安装
http://www.panchengming.com/2018/01/26/pancm70/kafka和storm集群的环境安装发表于 2018-01-26 | 分类于 kafka 前言storm和kafka集群安装是没有必然联系的,我将这两个写在一起,是因为他们都是由zookeeper进行管理的,也都依赖于JDK的环境,为了不重复再写一遍配置,所以我将这两个写在一起。若只需一...转载 2018-10-22 18:54:04 · 118 阅读 · 0 评论 -
Zookeeper介绍及安装部署
https://www.cnblogs.com/zhaojiankai/p/7126181.htmlZookeeper介绍及安装部署本节内容:Zookeeper介绍 Zookeeper特点 Zookeeper应用场景 用到了Zookeeper的一些系统 Zookeeper集群安装部署 一、Zookeeper介绍是一个针对大型分布式系统的可靠协调系统; 提供的功能包括...转载 2018-10-22 18:58:16 · 130 阅读 · 0 评论 -
YARN资源调度
http://dongxicheng.org/mapreduce-nextgen/mesos_vs_yarn/1. 背景随着互联网的高速发展,基于数据密集型应用的计算框架不断出现,从支持离线处理的MapReduce,到支持在线处理的Storm,从迭代式计算框架Spark到流式处理框架S4,…,各种框架诞生于不同的公司或者实验室,它们各有所长,各自解决了某一类应用问题。而在大部分互联网公司中...转载 2018-10-11 10:21:41 · 293 阅读 · 0 评论