大数据
厚积_薄发
梦想还是要有的,万一实现了呢?
Stay hungry, stay foolish. --Steve Jobs
展开
-
推荐阿里云学习网站
非常好用的学习网站,谁用谁知道https://developer.aliyun.com/ebook?spm=a2c6h.12883283.0.0.5f1f4307SovdDphttps://start.aliyun.com/包含计算机、云计算、大数据、机器学习等方向的基础知识,在线部署集群,在线看结果,很方便,赞。原创 2021-06-29 10:41:40 · 436 阅读 · 1 评论 -
Ceph 通俗易懂的解释 Crush 算法
http://www.xuxiaopang.com/2016/11/08/easy-ceph-CRUSH/转载 2019-03-22 16:59:24 · 953 阅读 · 0 评论 -
Ceph 手动部署SSD
转https://github.com/MartinEmrich/kb/blob/master/ceph/Manual-Bluestore.mdAsceph-deployorceph-diskhad some restrictions, and I just want to know as much of the under-the-hood-stuff as possible, I...原创 2019-03-11 21:38:12 · 903 阅读 · 0 评论 -
Apache Commons CLI 开发工具(CommandLineParser、PosixParser)
概念说明Apache Commons CLI 简介 Apache Commons CLI 是 Apache 下面的一个解析命令行输入的工具包,该工具包还提供了自动生成输出帮助文档的功能。 Apache Commons CLI 支持多种输入参数格式,主要支持的格式有以下几种: POSIX(Portable Operating System Interface o...转载 2018-10-09 14:37:58 · 4622 阅读 · 0 评论 -
ceph multisite
参考:multisite介绍:https://www.jianshu.com/p/31a6f8df9a8f配置:https://blog.csdn.net/for_tech/article/details/68927956论文:https://ceph.com/wp-content/uploads/2017/01/Understanding-a-Multi-Site-Ceph-Gateway-In...转载 2018-05-07 21:36:36 · 1165 阅读 · 0 评论 -
安全HDFS客户端初始化方式
转自:https://community.hortonworks.com/articles/56702/a-secure-hdfs-client-example.htmlShort Description:Explaining the creation of a secure HDFS client in JavaArticleIt takes about 3 lines of Java code...转载 2018-03-26 15:32:39 · 1686 阅读 · 0 评论 -
ceph学习笔记和基础知识
ceph源码下载:http://ceph.com/download/主要文档下载连接:http://download.csdn.net/detail/skdkjxy/8149989/*******************/Time:2014-11-6Author:skdkjzz/******************/1、unified中何为radosgw、rbd、ceph-dfs、rados?2、...转载 2018-03-23 10:49:19 · 2063 阅读 · 0 评论 -
ceph scrub
本文主要介绍 ceph scrub 和 ceph deep scrub 基础知识 和 部分源码。ceph 用来保证数据完整性的机制(read verify)。 Ceph 的OSD 定期启动scrub线程来扫描部分对象,通过与其他副本比对来发现是否一致,如果存在不一致,抛出异常提示用户手动解决。具体讲,scrub 以PG 为单位,对于每一个pg,ceph 分析该pg下所有的object, 产生一个类...转载 2018-03-23 10:30:59 · 3474 阅读 · 0 评论 -
ceph相关论文/译文
Ceph 论文原文:Ceph:https://www3.nd.edu/~dthain/courses/cse40771/spring2007/papers/ceph.pdfRADOS:https://ceph.com/wp-content/uploads/2016/08/weil-rados-pdsw07.pdfCRUSH Algorithm:https://ceph.com/wp-content...原创 2018-03-19 11:34:40 · 1328 阅读 · 0 评论 -
Ceph Crush算法详解
Ceph作为最近关注度比较高的统一分布式存储系统,其有别于其他分布式系统就在于它采用Crush(Controlled Replication Under Scalable Hashing)算法使得数据的存储位置都是计算出来的而不是去查询专门的元数据服务器得来的。另外,Crush算法还有效缓解了普通hash算法在处理存储设备增删时带来的数据迁移问题。接下面我会分三篇博文介绍这个重量级的算法,第一篇主...转载 2018-03-05 21:03:23 · 5358 阅读 · 1 评论 -
Ceph简单基础
Ceph基础Ceph是一套高性能,易扩展的,无单点的分布式文件存储系统,基于Sage A. Weil的论文开发,主要提供以下三个存储服务:对象存储(Object Storage),既可以通过使用Ceph的库,利用C, C++, Java, Python, PHP代码,也可以通过Restful网关以对象的形式访问或存储数据,兼容的S3和OpenStack的Swift。块存储(Block Storag...原创 2018-02-28 21:33:12 · 964 阅读 · 0 评论 -
MapReduce理解-深入理解MapReduce
前面的几篇博客主要介绍了Hadoop的存储HDFS,接下来几篇博客主要介绍Hadoop的计算框架MapReduce。本片博客主要讲解MapReduce框架的具体执行流程,以及shuffle过程,当然这方面的技术博客已经特别多而且都写得很优秀,我写本篇博客之前也有过相关阅读,受益匪浅。对一些博客和资料的参考都会才博客下方参考资料中列出。MapReduce理解MapRedeuce,转载 2017-02-15 16:39:41 · 9966 阅读 · 2 评论 -
Apache Beam发布--- apache beam概述
美国时间 2017年1 月 10 日,Apache 软件基金会对外宣布,万众期待的 Apache Beam 在经历了近一年的孵化之后终于毕业。这一顶级 Apache 开源项目终于成熟。这是大数据处理领域的又一大里程碑事件——仅仅在上个月,腾讯宣布将在 2017 年一季度开源其大数据计算平台 Angel 。现在看来,生不逢时的 Angel 可能迎来了它最大的对手。至此,谷歌终于也完成了对其云原创 2017-01-12 10:36:50 · 3977 阅读 · 2 评论 -
大数据框架对比:Hadoop、Storm、Samza、Spark和Flink
简介大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了大规模扩展。在之前的文章中,我们曾经介绍过有关大数据系统的常规概念、处理过程,以及各种专门术语,本文将介绍大数据系统一个最基本的组件:处理框架。处理框架负责对系统中的数据进行计算,例如处理转载 2017-01-12 10:31:54 · 529 阅读 · 0 评论 -
流式处理、实时计算、Add-hoc、离线计算、实时查询等区别
流式处理、实时计算、Add-hoc、离线计算、实时查询 这几个概念在数据处理中经常提高,这里简单的梳理一下他们的区别。流处理、实时计算属于一类的,即计算在数据变化时,都是在数据的计算实时性要求比较高的场景,能够实时的响应结果,一般在秒级,Yahoo的S4,twiter的storm都属于流处理和实时计算一类的。Add-hoc和实时查询都计算在query时,实时查询是响应可能千变万化的转载 2016-11-17 16:15:28 · 5109 阅读 · 0 评论 -
实时计算和流式计算的区别
实时计算,强调的是实时。比如小明要查看他去年一年的消费总额度,那么当小明点下统计按钮的时候,服务器集群就在噼里啪啦的赶紧计算了,必须在小明能够忍耐的时间范围内得出结果。这种计算的背后实现,一般都是冗余 + 各种高性能部件在做支撑,算法也对实时性做了优化,但实时计算并没有强调用那种算法,只要能保证高实时性的就行。实时计算与离线计算的最大区别,就是离线计算是人无法忍耐的时间进行计算,因此人不需要等待,转载 2016-11-17 16:14:54 · 15776 阅读 · 0 评论 -
hadoop、storm和spark的区别、比较
一、hadoop、Storm该选哪一个?为了区别hadoop和Storm,该部分将回答如下问题:1.hadoop、Storm各是什么运算2.Storm为什么被称之为流式计算系统3.hadoop适合什么场景,什么情况下使用hadoop4.什么是吞吐量首先整体认识:Hadoop是磁盘级计算,进行计算时,数据在磁盘上,需要读写磁盘;Storm是内存级计算,数据直接通过转载 2016-11-16 23:29:51 · 587 阅读 · 0 评论 -
storm详细介绍
storm简介场景伴随着信息科技日新月异的发展,信息呈现出爆发式的膨胀,人们获取信息的途径也更加多样、更加便捷,同时对于信息的时效性要求也越来越高。举个搜索场景中的例子,当一个卖家发布了一条宝贝信息时,他希望的当然是这个宝贝马上就可以被卖家搜索出来、点击、购买啦,相反,如果这个宝贝要等到第二天或者更久才可以被搜出来,估计这个大哥就要骂娘了。再举一个推荐的例子,如果用户昨转载 2016-11-16 23:25:14 · 627 阅读 · 0 评论 -
【Hadoop】HDFS的运行原理
简介HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统(中文,英文)。HDFS有很多特点: ① 保存多个副本,且提供容错机制,副本丢失或宕机自动恢复。默认存3份。 ② 运行在廉价的机器上。转载 2016-11-04 23:59:39 · 388 阅读 · 0 评论