自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 资源 (4)
  • 收藏
  • 关注

原创 数据湖架构浅谈

数据湖架构浅谈一、大数据技术和工具归类:部分术语翻译:Administration: 管理平台(此处应指大数据管理平台)Data Security: 数据安全Data Governance: 数据管控Data Computing: 数据计算Data Collection: 数据采集Data Storage: 数据存储BI/DATA Visualization: 商务智能可视化/数据可视化二、数据湖的概念:1.数据湖是一个大型数仓和处理环境。2.数据湖是一种用于分析不同类型数据源的企

2020-06-12 12:07:35 5113

原创 正则表达式贪婪模式、懒惰模式与独占模式浅析

正则表达式贪婪模式、懒惰模式与独占模式浅析一、正则表达式引擎:      正则表达式的执行,是由正则表达式引擎编译执行的,正则表达式引擎分为DFA(Deterministic finite automaton,确定型有穷自动机)和NFA(Non-deterministic finite automaton,非确定型有穷自动机)两类,确定型即在没有正则表达式时就可以确定的按照文本顺序直接确定匹配的顺序,非确定型的文本匹配顺序则与所编写的正则表达式

2020-05-24 08:48:47 2113

原创 Spark分布式计算原理

Spark分布式计算原理浅谈

2020-05-20 13:53:44 562

原创 SPARK RDD基础及常用算子浅谈

SPARK RDD基础及常用算子浅谈一、什么是SPARK RDD:      RDD是将数据项拆分为多个分区的集合,存储在集群的工作节点上的内存中,并执行正确的操作。RDD是用于数据转换的接口。RDD指向了存储在HDFS、Cassandra、HBase等、或缓存(内存、内存+磁盘、仅磁盘等),或在故障或缓存收回时重新计算其他RDD分区中的数据。      RDD是弹性分布式数据集(R

2020-05-17 18:04:58 391

原创 Apache Spark基础及架构浅谈

Apache Spark基础及架构浅谈一、什么是Spark?      Apache Spark是一款由加州大学伯克利分校AMP实验室开发的专为大规模数据处理而设计的快速通用的开源计算引擎。Spark不仅具有Hadoop MapReduce的优点,还具有自己独特的优势,例如,Job的中间输出结果可以存在内存中,从而避免了HDFS的读写操作,使其能够在需要迭代MapReduce的场景下,如数据挖掘和机器学习等,具备更强的数据处理能力。...

2020-05-17 09:20:31 256

原创 scala映射和元组浅谈及代码示例分享

scala映射和元组      映射是键/值的对偶集合。Scala有一个通用的叫法–元组–n个对象的聚集,这些对象并不一定是相同类型的。对偶不过是一个n=2的元组。元组在那种需要将两个或更多值聚集在一起的场合特别有用。一、构造映射:a.不可变映射://两种方式都可以val scores = Map("Alice" -> 10, "Bob" -> 3,"Cindy" -> 8)val scores = Map(("Al.

2020-05-14 19:30:57 144

原创 Apache Sqoop基础及数据迁移

Apache Sqoop基础及数据迁移一、什么是Sqoop?      Sqoop是一个用于在Hadoop和关系数据库之间传输数据的工具。将数据从RDBMS导入到HDFS:HDFS、Hive、HBase。从HDFS导出数据到RDBMS。使用MapReduce导入和导出数据,提供并行操作和容错。二、从RDBMS导入数据到HDFS:# connet 后面为你的mysql数据库链接/数据库名# driver 后面为JDBC连接数据库的

2020-05-10 10:55:06 159

原创 Scala基础浅谈

Scala基础浅谈一、什么是Scala?      Scala是一门多范式编程(面向对象编程、函数式编程)语言,设计初衷是实现可伸缩的语言,并集成面向对象编程和函数式编程的各种特性,具有表达能力强,代码精简的优点。二、Scala的特性:(1)面向对象特性:每个值都是对象对象的数据类型和行为由类(Class)和特征(Trait,类似于interface)描述利用特征实现混入式多重继承(2)函数式编程特性:每个函数都是一个值支

2020-05-08 17:42:56 163

原创 Hadoop常见面试题整理及解答

Hadoop常见面试题整理及解答一、基础知识篇:1.把数据仓库从传统关系型数据库转到hadoop有什么优势?答:(1)关系型数据库成本高,且存储空间有限。而Hadoop使用较为廉价的机器存储数据,且Hadoop可以将大量机器构建成一个集群,并在集群中使用HDFS文件系统统一管理数据,极大的提高了数据的存储及处理能力。(2)关系型数据库仅支持标准结构化数据格式,Hadoop不仅支持标准结构...

2020-05-08 11:55:32 1765

原创 MySQL基础浅谈

MySQL基础浅谈

2020-05-03 17:09:43 1167

原创 NoSQL与Apache HBase基础

NoSQL与Apache HBase基础一、NoSQL概念:      NoSQL(not only SQL)即非关系型数据库。NoSQL具有以下几个特点:不遵循传统RDBMS(Relational Database Management System,关系型数据库)模型。数据是非关系的,且不使用SQL作为主要查询语言。解决了...

2020-05-02 17:54:04 285

原创 Hive常用指令---增删改查

Hive的数据库操作语言(HQL)是一种类似SQL的语言,大部分语句与SQL相同,目的是简化Hadoop的Mapreduce程序开发,提升开发效率。

2020-05-01 16:53:27 2937

原创 Hive基础知识总结

Hive基础知识总结      Hive是基于Hadoop的一个数仓工具。用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive可以将多种格式的数据映射为一个或多个数据库表,并通过一系列类似SQL的语句(HQL,HiveQuery Language)来快速实现Hadoop下的MapRe...

2020-04-27 16:21:18 152

原创 Hadoop架构基础知识总结

Hadoop架构基础知识总结一、Hadoop与分布式计算:Hadoop框架遵循分布式计算模型,其将对大数据集的计算分配到一组节点上,每个节点根据数据集的一部分进行计算。...

2020-04-26 17:38:50 1711

原创 Hive--下载及配置完整教程

Hive–下载及配置完整教程一、重写构建Hadoop镜像:此步骤仅提供给那些需要修改Hadoop配置文件,但又不想删除hdfs文件系统中文件的人。请在工程下的Hadoop文件夹中执行本条指令:$ cd hadoop #假设你已经在工程文件夹下,cd进入hadoop目录$ docker build -t netName/hadoop . #netName为你之前定义的网络名,一定不要忘记...

2020-04-13 10:25:21 1280

原创 hdfs常用指令集

hdfs常用指令集HDFS指令主要用于在HDFS软件系统中对文件夹和文件进行操作处理,其大部分指令和Linux shell指令类似,此处仅列举常用HDFS指令。    对于初学者要知道hdfs指令是不能直接在终端中执行的,需要先创建并启动Hadoop集群,然后在集群中测试或运行这些指令,创建Hadoop集群可以参照我之前发的这两篇博客。在Deepin(...

2020-04-10 11:25:51 318

原创 Linux知识总结(三)之常用指令二--监测处理指令

Linux知识总结(三)之常用指令二–监测处理指令

2020-04-08 21:36:46 124

原创 deepin系统下hadoop client的搭建及配置

deepin系统下hadoop client的搭建及配置1.下载hadoop-2.7.x.tar.gz压缩包下载hadoop2 tar包链接2.解压压缩包:进入你下载到的目录对压缩包进行解压(x为你的对应版本号):$ tar -zxvf hadoop-2.7.x.tar.gz3.链接hadoop-2.7.x文件夹(类似于起别名,可选):此处使用符号连接方式,使hadoop-2.7...

2020-04-06 09:50:58 296

原创 Linux知识总结(二)之常用指令一 --文件&目录处理

Linux知识总结(二)之常用指令一1.cd指令集(1)切换目录:cd destination #切换到指定目录例如:cd /usr进入usr目录

2020-04-05 10:41:11 124

原创 Linux知识总结系列(一)之基础概念

Linux知识总结系列(一)1.Linux系统构成:(1)Linux内核;(2)GNU工具;(3)图形化桌面工具;(4)应用软件。2.Linux内核及GNU工具:(1)Linux内核:i.系统内存管理:包括物理内存和虚拟内存(通过交换空间实现);ii.软件程序管理:包括5个运行级:1~5。1仅启动系统进程和控制台进程;3(标准运行级)启动大多数应用;5时启动图形化桌面,可以使用p...

2020-04-04 10:59:04 92

原创 在Deepin(深度)操作系统上使用docker在idea中搭建一个简单的Hadoop集群(二)

本文直接承接上一份博客具体详情不再过多赘述五、idea操作部分5.用上面的新建指令或者直接右键在hadoop文件夹下新建config文件夹,并导入/编写配置文件(配置文件共9个,1-4见上一篇):(5)mapred-env.sh...

2020-04-03 16:54:08 244

原创 在Deepin(深度)操作系统上使用docker在idea中搭建一个简单的Hadoop集群(一)

在Deepin(深度)操作系统上使用docker在idea中搭建一个简单的Hadoop集群**本文将使用详细的描述和代码来展示Deepin系统下,一个包含master(主节点)+两个 slave(工作节点)的简单hadoop(完全分布式集群)的配置方法,以及一些基础的避坑指南**下载我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如...

2020-04-03 10:40:41 384

yarn-env.sh

Hadoop集群搭建配套文件

2020-04-03

mapred-env.sh

Hadoop集群搭建配套配置文件

2020-04-03

hadoop-env.sh

博客配套资源

2020-04-03

log4j.properties

仅提供参考,与项目配套使用

2020-04-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除