笔记
weixin_51987103
这个作者很懒,什么都没留下…
展开
-
2020-11-24
Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。HDFS有着高容错性(fault-tolerent)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以实现流的形式访问(streaming access)文件系统中的数据。HDFS开始原创 2020-11-24 12:24:55 · 64 阅读 · 0 评论 -
2020-11-12
大数据生态系统 MapReduce属于Hadoop生态体系之一,Spark属于BDAS生态体系之一。 目前Hadoop有两种版本:Apache和CDH版本 1.Hadoop是一个由Apache基金会所开发的分布式系统基础架构,是由Lucene–Doug Cutting开创的开源软件,用java书写代码,实现与Google类似的全文搜索功能,它提供了全文检索引擎的架构,包括完整的查询引擎和索引引擎. 2.主要解决,海量数据的存储和海量数据的分析计算问题。 3.广义上来说,HADOOP通常是指一个更广泛的概念—原创 2020-11-12 08:46:42 · 71 阅读 · 1 评论 -
2020-10-28
今天第一次上大数据课,让我收获很多,知道了大数据的原理。大数据是巨量数据的集合,它来源于海量用户的一次次的行为数据,是一个数据集合。 认识到了 1.Velocity 速度 速率 更快的处理数据 2.value 价值 (价值密度低 ,过滤出有价值的信息) 3 .variety 类型 数据的结构(有结构的数据,半结构数据,无结构数据) 4.volume 体积 最后,认识了一些容量单位,以前只知道最小单位是bit(位) 1B=8bit 1KB=1024B KB(千字节),MB(兆字节),GB(吉字节),TB原创 2020-10-28 20:12:29 · 85 阅读 · 0 评论