大数据学习
一颗仙橙的程序员之旅
C,java,大数据实践、大数据导论、大数据技术原理与应用,Mysql,JSP,Hadoop集群程序设计与开发,数据库应用开发,Web前端,JavaScript,计算机应用,网页设计,SQLServer,Linux,软件测试,软件工程与UML,易语言,Python,Unity3D,PS...
展开
-
这篇文章能让你对于高性能Spark的理解更上一层楼
引言:摘抄自《中国新通信》: 近年来,大数据成为工业界与学术界关注的热点,因为随着存储设备容量的快速增长、CUP外理能力的大幅提开,网络带宽的不断增加。也为大数据时代提共了强有力的技术支撑。从web1.0到web2.0,每个用户都成为一个自媒体,一个互联网内容的提供者,这样数据产生方式的变革更是推动着大数据时代的到来。”什么是大数据呢?大数据是由结构化与非结构化数据组成的,其中10%为结构化数...原创 2020-03-22 02:01:30 · 572 阅读 · 0 评论 -
深入浅出大数据核心技术与应用之HBase
HBase隶属于hadoop生态系统,它参考了谷歌的BigTable建模,实现的编程语言为 Java, 建立在HDFS之上,提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。它仅能通过主键(row key)和主键的range来检索数据,主要用来存储非结构化和半结构化的松散数据。与hadoop一样,HBase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和存储能力。HBas...原创 2020-03-21 15:32:18 · 1235 阅读 · 0 评论 -
大数据Hive其实一点都不难,从入坑到放弃?不存在的
Hive首先,我们来介绍一下什么是Hive。有些人不仅会想,Hive不就是写SQL的吗。没错,Hive和SQL的语法结构很像,其实,二者没有多大区别,甚至可以这样讲,Hive就是写SQL。但是,问题就来了–它真正的就是SQL了吗?它和SQL数据库有什么区别?和其他的关传统的系型数据库又有什么区别和关系呢?一系类问题,别急,我们慢慢来分析。1、Hive 由 Facebook 实现并开源2、是基...原创 2020-03-22 00:27:00 · 1873 阅读 · 0 评论 -
什么是MapReduce之Shuffle?看了这篇文章,我想你就清楚了
前言:(引用)腾讯分布式数据仓库(Tencent distributed Data Warehouse, 简称TDW)基于开源软件Hadoop和Hive进行构建,并且根据公司数据量大、计算复杂等特定情况进行了大量优化和改造,目前单集群最大规模达到5600台,每日作业数达到100多万,已经成为公司最大的离线数据处理平台。为了满足用户更加多样的计算需求,TDW也在向实时化方向发展,为用户提供更加高效...原创 2020-03-21 17:56:00 · 798 阅读 · 0 评论 -
如何理解MapReduce计算器,这篇文章能给你答案
MapReduce计数器是什么?计数器是用来记录job的执行进度和状态的。它的作用可以理解为日志。我们可以在程序的某个位置插入计数器,记录数据或者进度的变化情况。MapReduce计数器能做什么?MapReduce 计数器(Counter)为我们提供一个窗口,用于观察 MapReduce Job 运行期的各种细节数据。对MapReduce性能调优很有帮助,MapReduce性能优化的评估大部...原创 2020-03-21 16:19:15 · 348 阅读 · 0 评论