叶青舟
码龄5年
关注
提问 私信
  • 博客:21,137
    21,137
    总访问量
  • 22
    原创
  • 1,316,560
    排名
  • 10
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2019-09-11
博客简介:

welson650的博客

查看详细资料
个人成就
  • 获得8次点赞
  • 内容获得0次评论
  • 获得74次收藏
  • 代码片获得246次分享
创作历程
  • 22篇
    2020年
成就勋章
TA的专栏
  • 大数据-hadoop(其他部分待更新)
    9篇
  • 数据湖
    1篇
  • 正则表达式
    1篇
  • spark
    3篇
  • scala
    5篇
  • yarn
    1篇
  • sqoop
    1篇
  • mysql
    2篇
  • hdfs
    2篇
  • Linux
    5篇
  • hbase
    1篇
  • hive
    3篇
兴趣领域 设置
  • 大数据
    hadoopspark
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

数据湖架构浅谈

数据湖架构浅谈一、大数据技术和工具归类:部分术语翻译:Administration: 管理平台(此处应指大数据管理平台)Data Security: 数据安全Data Governance: 数据管控Data Computing: 数据计算Data Collection: 数据采集Data Storage: 数据存储BI/DATA Visualization: 商务智能可视化/数据可视化二、数据湖的概念:1.数据湖是一个大型数仓和处理环境。2.数据湖是一种用于分析不同类型数据源的企
原创
发布博客 2020.06.12 ·
5226 阅读 ·
1 点赞 ·
0 评论 ·
14 收藏

正则表达式贪婪模式、懒惰模式与独占模式浅析

正则表达式贪婪模式、懒惰模式与独占模式浅析一、正则表达式引擎:      正则表达式的执行,是由正则表达式引擎编译执行的,正则表达式引擎分为DFA(Deterministic finite automaton,确定型有穷自动机)和NFA(Non-deterministic finite automaton,非确定型有穷自动机)两类,确定型即在没有正则表达式时就可以确定的按照文本顺序直接确定匹配的顺序,非确定型的文本匹配顺序则与所编写的正则表达式
原创
发布博客 2020.05.24 ·
2218 阅读 ·
4 点赞 ·
0 评论 ·
4 收藏

Spark分布式计算原理

Spark分布式计算原理浅谈
原创
发布博客 2020.05.20 ·
604 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

SPARK RDD基础及常用算子浅谈

SPARK RDD基础及常用算子浅谈一、什么是SPARK RDD:      RDD是将数据项拆分为多个分区的集合,存储在集群的工作节点上的内存中,并执行正确的操作。RDD是用于数据转换的接口。RDD指向了存储在HDFS、Cassandra、HBase等、或缓存(内存、内存+磁盘、仅磁盘等),或在故障或缓存收回时重新计算其他RDD分区中的数据。      RDD是弹性分布式数据集(R
原创
发布博客 2020.05.17 ·
424 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Apache Spark基础及架构浅谈

Apache Spark基础及架构浅谈一、什么是Spark?      Apache Spark是一款由加州大学伯克利分校AMP实验室开发的专为大规模数据处理而设计的快速通用的开源计算引擎。Spark不仅具有Hadoop MapReduce的优点,还具有自己独特的优势,例如,Job的中间输出结果可以存在内存中,从而避免了HDFS的读写操作,使其能够在需要迭代MapReduce的场景下,如数据挖掘和机器学习等,具备更强的数据处理能力。...
原创
发布博客 2020.05.17 ·
290 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

scala映射和元组浅谈及代码示例分享

scala映射和元组      映射是键/值的对偶集合。Scala有一个通用的叫法–元组–n个对象的聚集,这些对象并不一定是相同类型的。对偶不过是一个n=2的元组。元组在那种需要将两个或更多值聚集在一起的场合特别有用。一、构造映射:a.不可变映射://两种方式都可以val scores = Map("Alice" -> 10, "Bob" -> 3,"Cindy" -> 8)val scores = Map(("Al.
原创
发布博客 2020.05.14 ·
183 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Apache Sqoop基础及数据迁移

Apache Sqoop基础及数据迁移一、什么是Sqoop?      Sqoop是一个用于在Hadoop和关系数据库之间传输数据的工具。将数据从RDBMS导入到HDFS:HDFS、Hive、HBase。从HDFS导出数据到RDBMS。使用MapReduce导入和导出数据,提供并行操作和容错。二、从RDBMS导入数据到HDFS:# connet 后面为你的mysql数据库链接/数据库名# driver 后面为JDBC连接数据库的
原创
发布博客 2020.05.10 ·
191 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Scala基础浅谈

Scala基础浅谈一、什么是Scala?      Scala是一门多范式编程(面向对象编程、函数式编程)语言,设计初衷是实现可伸缩的语言,并集成面向对象编程和函数式编程的各种特性,具有表达能力强,代码精简的优点。二、Scala的特性:(1)面向对象特性:每个值都是对象对象的数据类型和行为由类(Class)和特征(Trait,类似于interface)描述利用特征实现混入式多重继承(2)函数式编程特性:每个函数都是一个值支
原创
发布博客 2020.05.08 ·
222 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hadoop常见面试题整理及解答

Hadoop常见面试题整理及解答一、基础知识篇:1.把数据仓库从传统关系型数据库转到hadoop有什么优势?答:(1)关系型数据库成本高,且存储空间有限。而Hadoop使用较为廉价的机器存储数据,且Hadoop可以将大量机器构建成一个集群,并在集群中使用HDFS文件系统统一管理数据,极大的提高了数据的存储及处理能力。(2)关系型数据库仅支持标准结构化数据格式,Hadoop不仅支持标准结构...
原创
发布博客 2020.05.08 ·
1894 阅读 ·
0 点赞 ·
0 评论 ·
27 收藏

MySQL基础浅谈

MySQL基础浅谈
原创
发布博客 2020.05.03 ·
1210 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

NoSQL与Apache HBase基础

NoSQL与Apache HBase基础一、NoSQL概念:      NoSQL(not only SQL)即非关系型数据库。NoSQL具有以下几个特点:不遵循传统RDBMS(Relational Database Management System,关系型数据库)模型。数据是非关系的,且不使用SQL作为主要查询语言。解决了...
原创
发布博客 2020.05.02 ·
324 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive常用指令---增删改查

Hive的数据库操作语言(HQL)是一种类似SQL的语言,大部分语句与SQL相同,目的是简化Hadoop的Mapreduce程序开发,提升开发效率。
原创
发布博客 2020.05.01 ·
3202 阅读 ·
2 点赞 ·
0 评论 ·
19 收藏

Hive基础知识总结

Hive基础知识总结      Hive是基于Hadoop的一个数仓工具。用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive可以将多种格式的数据映射为一个或多个数据库表,并通过一系列类似SQL的语句(HQL,HiveQuery Language)来快速实现Hadoop下的MapRe...
原创
发布博客 2020.04.27 ·
178 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Hadoop架构基础知识总结

Hadoop架构基础知识总结一、Hadoop与分布式计算:Hadoop框架遵循分布式计算模型,其将对大数据集的计算分配到一组节点上,每个节点根据数据集的一部分进行计算。...
原创
发布博客 2020.04.26 ·
1812 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

Hive--下载及配置完整教程

Hive–下载及配置完整教程一、重写构建Hadoop镜像:此步骤仅提供给那些需要修改Hadoop配置文件,但又不想删除hdfs文件系统中文件的人。请在工程下的Hadoop文件夹中执行本条指令:$ cd hadoop #假设你已经在工程文件夹下,cd进入hadoop目录$ docker build -t netName/hadoop . #netName为你之前定义的网络名,一定不要忘记...
原创
发布博客 2020.04.13 ·
1338 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

hdfs常用指令集

hdfs常用指令集HDFS指令主要用于在HDFS软件系统中对文件夹和文件进行操作处理,其大部分指令和Linux shell指令类似,此处仅列举常用HDFS指令。    对于初学者要知道hdfs指令是不能直接在终端中执行的,需要先创建并启动Hadoop集群,然后在集群中测试或运行这些指令,创建Hadoop集群可以参照我之前发的这两篇博客。在Deepin(...
原创
发布博客 2020.04.10 ·
381 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Linux知识总结(三)之常用指令二--监测处理指令

Linux知识总结(三)之常用指令二–监测处理指令
原创
发布博客 2020.04.08 ·
151 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

deepin系统下hadoop client的搭建及配置

deepin系统下hadoop client的搭建及配置1.下载hadoop-2.7.x.tar.gz压缩包下载hadoop2 tar包链接2.解压压缩包:进入你下载到的目录对压缩包进行解压(x为你的对应版本号):$ tar -zxvf hadoop-2.7.x.tar.gz3.链接hadoop-2.7.x文件夹(类似于起别名,可选):此处使用符号连接方式,使hadoop-2.7...
原创
发布博客 2020.04.06 ·
330 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Linux知识总结(二)之常用指令一 --文件&目录处理

Linux知识总结(二)之常用指令一1.cd指令集(1)切换目录:cd destination #切换到指定目录例如:cd /usr进入usr目录
原创
发布博客 2020.04.05 ·
148 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Linux知识总结系列(一)之基础概念

Linux知识总结系列(一)1.Linux系统构成:(1)Linux内核;(2)GNU工具;(3)图形化桌面工具;(4)应用软件。2.Linux内核及GNU工具:(1)Linux内核:i.系统内存管理:包括物理内存和虚拟内存(通过交换空间实现);ii.软件程序管理:包括5个运行级:1~5。1仅启动系统进程和控制台进程;3(标准运行级)启动大多数应用;5时启动图形化桌面,可以使用p...
原创
发布博客 2020.04.04 ·
115 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多