
大数据
文章平均质量分 93
你所不知道的大数据另一面!
大数据梦想家
专注与研究大数据基础,理论,架构与原型实现。
个人原创公众号「 大数据梦想家 」,每日更新大数据干货,欢迎上车!
一天的生活就是一生的缩影。在最美的年华,做最好的自己!!!
展开
-
ETL常用的三种工具介绍及对比 Datastage,Informatica 和 Kettle
常用 ETL 工具对比转载 2022-10-14 14:12:34 · 3901 阅读 · 2 评论 -
大数据开发面试之26个Spark高频考点
Spark高频考点,你都会了吗?原创 2022-05-14 01:00:28 · 1434 阅读 · 0 评论 -
简单介绍 Hadoop三大核心组件 的 架构思想和原理
大数据 Hadoop 核心组件的架构思想和设计 ...原创 2021-09-24 01:21:09 · 4799 阅读 · 2 评论 -
Kylin(麒麟)如何通过BI工具展示?
Kylin(麒麟)如何通过BI工具展示?原创 2021-04-01 14:59:26 · 1714 阅读 · 0 评论 -
第一个“国产“Apache顶级项目——Kylin,了解一下!
前言 说到Apache顶级开源项目,大家首先会想到什么??? 不熟悉Apache软件基金会的朋友也不用担心,大家可以去Apache官网,下拉到最下边的页面,查看Apache有哪些开源项目。 相信各位朋友在项目清单中肯定会看原创 2021-03-29 12:05:07 · 9235 阅读 · 68 评论 -
从 0 到 1 学习 Presto,这一篇就够了
前言 Presto 作为现在在企业中流行使用的即席查询框架,已经在不同的领域得到了越来越多的应用。本期内容,我就从一个初学者的角度,带着大家从 0 到 1 学习 Presto,希望大家能够有所收获!Presto简介1. Presto概念 Presto是 Facebook 推出的一个开源的分布式SQL查询引擎,原创 2021-03-14 14:09:09 · 14649 阅读 · 60 评论 -
干货 | HDFS是怎么做文件管理和容错的?
在 HDFS 中,NameNode 作为整个集群的管理中心,保存着整个 HDFS 中的元数据信息,而真正保存数据的是 DataNode。那么, Hadoop HDFS 是如何管理这些文件的呢?本期内容就来为大家解答:HDFS 文件管理1、HDFS 的块分布 HDFS 会将数据文件切分成一个个小的数据块进行存储,同时原创 2021-03-08 00:50:11 · 2545 阅读 · 53 评论 -
前方高能 | HDFS 的架构,你吃透了吗?
前言 HDFS是Hadoop中存储数据的基石,存储着所有的数据,具有高可靠性,高容错性,高可扩展性,高吞吐量等特征,能够部署在大规模廉价的集群上,极大地降低了部署成本。有意思的是,其良好的架构特征使其能够存储海量的数据。本篇文章,我们就来系统学习一下,Hadoop HDFS的架构!HDFS架构 HDFS采用 Mas原创 2021-03-03 01:53:10 · 2461 阅读 · 4 评论 -
硬核 | Sqoop入门指南
前言 我们在日常开发中需要经常接触到关系型数据库,如MySQL,Oracle等等,用它们来将处理后的数据进行存储。为了能够在Hadoop上分析这些数据,我们需要一些“工具”,将关系型数据库中的结构化数据存储到HDFS上。本篇文章,菌哥将介绍的一个操作最简单,同时也是在工作中使用频率极高的开源组件——Sqoop,希望您能在耐心看完之后,有所收获!Sqoop简介 &原创 2021-01-27 00:41:03 · 2133 阅读 · 35 评论 -
超硬核 | 一文带你入门用户画像
前言 之前开发过一个画像项目,并为大家介绍了项目过程中标签开发的细节,但是后来考虑到对于没有画像开发经验,尤其是零基础的大数据小白而言不是很友好,理解起来也不是很容易。正好最近在看赵宏田老师的《用户画像方法论与解决方案》,所以,我又专门开了一个专题,打算重新为大家讲解关于用户画像的知识。感兴趣的小伙伴记得关注加星标,每天第一时间收获技术干货!1. 用户画像是什么? &nb原创 2021-01-20 14:02:42 · 3833 阅读 · 55 评论 -
干货 | 五千字长文带你快速入门FlinkSQL
前言 最近几天因为工作比较忙,已经几天没有及时更新文章了,在这里先给小伙伴们说声抱歉…临近周末,再忙再累,我也要开始发力了。接下来的几天,菌哥将为大家带来关于FlinkSQL的教程,之后还会更新一些大数据实时数仓的内容,和一些热门的组件使用!希望小伙伴们能点个关注,第一时间关注技术干货!FlinkSQL出现的背景 F原创 2021-01-19 22:24:42 · 1948 阅读 · 1 评论 -
干货 | HDFS常用的40个命令,你都知道吗?
前言 众所周知,Hadoop 提供了命令行接口,对HDFS中的文件进行管理操作,如读取文件、新建目录、移动文件、复制文件、删除目录、上传文件、下载文件、列出目录等。本期文章,菌哥在拜读了冰河大佬的《海量数据处理与大数据技术实战》之后,为大家详细介绍 Hadoop 的命令行接口!希望大家看完之后,能够有所收获|ू・ω・` ) &原创 2021-01-19 14:02:22 · 3208 阅读 · 73 评论 -
相约2021,回首2020 | 我在CSDN的年度总结
时光荏苒,转眼间2020已成为过去式,2021年的大门已向我们敞开。在新年尹始,作为一个在一年多左右的时间里,在CSDN平台持续输出了三百多篇原创博客的忠实用户,有太多所遇,所思,所学与所悟想在这里跟大家聊聊。同时这也是我写博客一年半载以来,第一次静下心来做一次年度总结,希望您能在看完之后,也能从我的故事中收获一些有益的内容!一、机缘巧合,我与CSDN结下了友谊  原创 2021-01-10 15:23:41 · 6742 阅读 · 183 评论 -
推荐10本大数据领域必读的经典好书(火速收藏)
本文已收录github:https://github.com/BigDataScholar/TheKingOfBigData,里面有大数据高频考点,Java一线大厂面试题资源,上百本免费电子书籍,作者亲绘大数据生态圈思维导图…持续更新,欢迎star! 写博客也已经快一年了,从去年的1024到现在金秋10月已纷至沓来。回顾这一年所发布的原创文章,基本都是与大数据主流或者周边的技术为主。本篇博客,就为大家介绍几篇.原创 2020-10-03 12:28:48 · 24497 阅读 · 56 评论 -
Hadoop常见组件启动方式汇总(持续更新....)
接触过大数据领域的朋友都知道,Hadoop生态系统十分的庞大,许多组件启动的方式也是不尽相同,今天博主抽空整理了一下大数据生态圈中常见组件的启动方式,也算是为自己巩固了一下基础吧~ 在开始之前,博主先把所有的...原创 2020-03-14 19:49:32 · 8387 阅读 · 16 评论 -
第一次做大数据毕设?不知道Springboot如何配置Hive?这篇博客或许能帮到你!
最近刚完成了一份关于大数据的毕设项目,其中使用到的框架就包括Springboot。因为做的是一个离线的数据分析,所以在组件的选用上面也是选择了Hive(如果是做实时的可能就要用到Spark或者HBase了…)。本篇博客,为大家带来的就是关于如何在Springboot项目中配置Hive做一个说明。更改...原创 2020-02-12 20:40:25 · 7514 阅读 · 2 评论 -
全网最不靠谱的大数据思维导图,带你提前了解Hadoop生态系统,解锁新手福利!!!
在之前的博客《全网最全Python学习路线图+14张思维导图,让python初学者不走弯路!》发布出去之后,也算是小小地"火"了一吧。最直观的表现就在于原来两百出头的粉丝数到现在翻了一倍(入驻CSDN不到2个月)。 &...原创 2020-01-04 22:13:01 · 3221 阅读 · 23 评论 -
一个优秀的大数据开发工程师的日常是怎么样的?
大数据开发工程师,看起来很高端。但很多时候都是脱离不了开发的层面,基本上大部分人都是api的调用者。除了少部分人是为了大数据开发的底层服务。 那么,作为优秀的大数据开发工程师是怎么样的体验呢,可以先聊聊技术方...转载 2020-01-01 12:01:35 · 3602 阅读 · 0 评论 -
大数据技术原理与应用之【流计算】习题
1.试述流数据的概念流数据,即数据以大量、快速、时变的流形式持续到达。2.试述流数据的特点流数据具有如下特征:数据快速持续到达,潜在大小也许是无穷无尽的数据来源众多,格式复杂数据量大,但是不十分关注存储,一旦经过处理,要么被丢弃,要么被归档存储注重数据的整体价值,不过分关注个别数据数据顺序颠倒,或者不完整,系统无法控制将要处理的新到达的数据元素的顺序4.试述流计算的需求对于...原创 2019-12-29 22:56:44 · 5915 阅读 · 0 评论 -
大数据技术原理与应用之【大数据处理架构Hadoop】习题
1.试述hadoop和谷歌的mapreduce、gfs等技术之间的关系答:Hadoop的核心是分布式文件系统HDFS和MapReduce,HDFS是谷歌文件系统GFS的开源实现,MapReduces是针对谷歌MapReduce的开源实现。2.试述Hadoop具有哪些特性。答:高可靠性,高效性,高可扩展性,高容错性,成本低,运行在Linux平台,支持多种编程语言3.试述Hadoop在各个...原创 2019-12-29 21:24:19 · 6109 阅读 · 0 评论 -
大数据技术原理与应用之【HDFS】习题
1.试述分布式文件系统设计的需求。设计需求含义HDFS的实现情况透明性具备访问透明性、位置透明性、性能、和伸缩透明性只能提供一定程度的访问透明性,完全支持位置透明性、性能和伸缩透明性并发控制客户端对于文件的读写不应该影响其他客户端对同一个文件的读写机制非常简单,任何时候都只允许有一个程序写入某个文件文件复制一个文件可以拥有不同位置的多个副本HDFS采...原创 2019-12-29 18:56:15 · 6869 阅读 · 0 评论 -
大数据技术原理与应用之【云数据库】习题
1.试述云数据库的概念。答:云数据库是部署和虚拟化在云计算环境中的数据库。云数据库是在云计算的大背景下发展起来的一种新兴的共享基础架构的方法,它极大地增强了数据库的存储能力,消除了人员、硬件、软件的重复配置,让软、硬件升级变得更加容易,同时,也虚拟化了许多后端功能。云数据库具有高可扩展性、高可用性、采用多租形式和支持资源有效分发等特点。2.与传统的软件使用方式相比,云计算这种模式具有哪些明显的...原创 2019-12-29 00:48:55 · 8454 阅读 · 0 评论 -
大数据学习体系说明
大数据需要学习什么?很多人问过我这个问题。总是没有一个合适的契机去好好总结这些内容,大数据是近五年兴起的行业,发展迅速,很多技术经过这些年的迭代也变得比较成熟了,同时新的东西也不断涌现,想要保持自己竞争力的唯一办法就是不断学习。干货走起,闲话不多说,以下就是小编整理的大数据学习思路附上学习路线图第一阶段:linux系统本阶段为大数据学习入门基础课程,帮大家进入大数据领取打好Linux基础,...转载 2019-12-22 22:07:43 · 3874 阅读 · 0 评论 -
大数据技术原理与应用之【NoSQL数据库】习题
1.如何准确理解NoSQL的含义? NoSQL是一种不同于关系数据库的数据库管理系统设计方式,是对非关系型数据库的一类统称,它采用的数据模型并非传统关系数据库的关系模型,而是类似键/值、列族、文档等非关系模型。2.试述关系数据库在哪些方面无法满族Web2.0应用的需求。关系数据库已经无法满足Web2...原创 2019-12-21 11:26:02 · 10014 阅读 · 1 评论 -
大数据技术原理与应用之【Spark】习题
1.Spark是基于内存计算的大数据计算平台,试述Spark的主要特点。答:Spark具有如下4个主要特点:①运行速度快;②容易使用;③通用性;④运行模式多样。 2.Spark的出现是为了解决Hadoop MapReduce的不足,试列举Hadoop MapReduce的几个缺陷,并说明Spark...原创 2019-12-15 19:15:06 · 13890 阅读 · 2 评论 -
大数据技术原理与应用之【HBase】习题
1.试述在Hadoop体系架构中HBase与其他组成部分的相互关系答: HBase利用Hadoop MapReduce来处理HBase中的海量数据,实现高性能计算;利用Zookeeper作为协同服务,实现稳定服务和失败恢复;使用HDFS作为高可靠的底层存储,利用廉价集群提供海量数据存储能力; Sqoop为HBase的底层数据导入功能,Pig和Hive为HBase提供了高层语言支持,HBase是B...原创 2019-12-14 22:35:39 · 16116 阅读 · 0 评论 -
想要学好大数据需掌握这十二大技术!
大数据是对海量数据进行存储、计算、统计、分析处理的一系列处理手段,处理的数据量通常是TB级,甚至是PB或EB级的数据,这是传统数据处理手段所无法完成的,其涉及的技术有分布式计算、高并发处理、高可用处理、集群、实时性计算等,汇集了当前IT领域热门流行的IT技术。 &nb...转载 2019-12-11 23:02:55 · 4844 阅读 · 0 评论 -
图解MySQL的join关键字(7大分类,一目了然)
SQL Join 连接子句用于在两个或更多在数据库中的表的记录组合。JOIN是通过使用从两个表字段共同的值组合连接起来。MySQL官方只提供了三种join方式,内连接、左连接和右连接,不支持其他的连接关键字。但是可以通过一定的语法将达到其他的连接的效果。 ...原创 2019-11-22 18:01:27 · 4901 阅读 · 18 评论 -
Hive基本操作(持续更新ing)
本篇博客,小菌分享的是关于Hive的基本操作!数据库的基本操作创建数据库 create database [ if not exists ] myhive ;说明:hive的表存放位置模式是由hive-site.xml当中的一个属性指定的<name>hive.metas...原创 2019-11-20 17:25:48 · 4431 阅读 · 0 评论 -
Hive基本概念入门与安装部署,使用(简单清晰,一目了然!)
在经过几天MapReduce的学习之后,我们总算是来到了Hive阶段。本篇博客小菌将为大家带来Hadoop组件之——Hive的介绍! 首先在开始之前,再让我们通过一张熟悉的图片来回顾一下Hadoop生态系...原创 2019-11-19 21:11:19 · 4279 阅读 · 0 评论 -
Hadoop详解(你想知道的这里都有!)
已经出过HDFS和MapReduce系列博客的小菌突发奇想,想拿一篇博客好好介绍一下它们的"老大哥"——Hadoop。为什么这么说,相信看完下面的内容你就知道了!文章目录Hadoop的简介Hadoop的发展简史Hadoop的特性Hadoop的应用现状Apache Hadoop版本演变Hadoop各种版...原创 2019-11-17 18:13:02 · 4931 阅读 · 3 评论 -
MapReduce的jobHistory介绍
我们可以通过Hadoop jar的命令来实现我们的程序jar包的运行,关于运行的日志,我们一般都需要通过启动一个服务来进行查看,就是我们的JobHistoryServer,我们可以启动一个进程,专门用于查看我们的任务提交的日志。JobHistoryServer会记录已运行完的MapReduce信息到...原创 2019-11-03 22:26:15 · 2211 阅读 · 0 评论 -
HDFS文件系统介绍(1)
在Hadoop(CDH)分布式环境搭建(简单易懂,绝对有效!)这篇博客中,小菌在最后为大家带来了HDFS的初体验。一些大数据专业的粉丝私信小菌希望能再详细讲讲HDFS的相关内容。于是本次分享,小菌将为大家带来HSFS的文件系统介绍。  ...原创 2019-11-03 21:21:43 · 3108 阅读 · 3 评论 -
Hadoop(CDH)分布式环境搭建(简单易懂,绝对有效!)
这篇博客,小菌分享的是大数据集群的安装部署,超级有效,希望能够帮助到大家! 在部署之前,我们需要做一些准备工作。准备好三台虚拟机,ip分别为192.168.100.100,192.168.100.110,1...原创 2019-11-01 00:23:28 · 8002 阅读 · 15 评论 -
大数据技术为什么快?
在之前的博客《什么是大数据?看这一篇就足够了!》中,小菌为大家较为详细的介绍了一些关于大数据的知识。其中提到了大数据的四个特点,即海量化,多样化,快速化和高价值。本篇博客,小菌决定就以快速化这个提点展开,为大家科普下大数据技术为什么快?文章目录拓展性纵向扩展横向扩展分布式资源集中(计算与存储)集中式计...原创 2019-10-31 18:02:31 · 1854 阅读 · 6 评论 -
Linux之集群部署(超简单!)
这篇文章小菌来为大家分享如何在linux环境下进行大数据集群的部署。文章目录 一.新增linux系统1.克隆虚拟机2.更改系统的mac地址3.更改网卡信息4.重启系统生效 二.3台机器关闭防火墙 三.3台机器关闭selinux 四.3台机器更改主机名 五.3台机器给ip地址起别名 六.SCP远程文件拷...原创 2019-10-27 19:04:50 · 3235 阅读 · 15 评论 -
大数据基础知识科普(2)
上一篇《大数据基础知识科普(1)》为大家讲解了关于服务器,存储磁盘以及RAID的内容。这一篇将沿着之前的脚步,为大家带来更多学习大数据必须要掌握的知识! 目录什么是集群?什么是计算机网络?什么是交换机?什么...原创 2019-10-26 01:29:54 · 1151 阅读 · 0 评论 -
什么是大数据?看这一篇就足够了!
近几年,"大数据"这个词以烈火燎原之势,在互联网领域迅速的扎根生长。尤其是"大数据"时代的到来,刺激了各大行业发展,也增加了很多相关岗位。许多人了解情况之后,毅然决定学习大数据技术,进入相关行业,而有的人还在观望,不知道未来大数据前景怎么样?今日博主有幸在1024"程序员节"上,为大家(更多是入门级的选...原创 2019-10-24 23:07:59 · 2962 阅读 · 13 评论