Mr_Wuuuuuuu
码龄14年
关注
提问 私信
  • 博客:34,295
    34,295
    总访问量
  • 16
    原创
  • 1,031,677
    排名
  • 17
    粉丝
  • 0
    铁粉

个人简介:多读书,多看报,少吃零食,多睡觉!

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:上海市
  • 加入CSDN时间: 2011-01-12
博客简介:

Coding Space

博客描述:
不积跬步,无以至千里;不积小流,无以成江海。-- 记录点滴成长过程
查看详细资料
个人成就
  • 获得25次点赞
  • 内容获得9次评论
  • 获得70次收藏
创作历程
  • 3篇
    2020年
  • 14篇
    2019年
成就勋章
TA的专栏
  • Presto
    2篇
  • SpatialHadoop
  • Hive
    7篇
  • HBase
    1篇
  • Kafka
  • Spark
  • Java并发
  • Spring
    1篇
  • Yarn
  • MySQL
  • 异常处理
    4篇
  • 工具
    2篇
  • Maven
    1篇
  • AOP
    1篇
  • Java基础
    1篇
  • 集合
    1篇
  • Storm
    1篇
  • MapReduce
    1篇
兴趣领域 设置
  • Java
    java
  • 大数据
    hadoophivesparkkylin
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Airflow Scheduler源码解读

文章目录1.Scheduler的启动和停止命令1.1 Scheduler启动命令1.2 Scheduler停止命令2.Scheduler程序源码2.1 cli.scheduler(): 接受命令行中的airflow scheduler命令2.2 BaseJob.run(): 向job表中新增SchdulerJob记录并调用子类的处理逻辑2.3 SchdulerJob._execute(): SchdulerJob的具体执行逻辑2.3.1 list_py_file_paths(self.subdir): 找到
原创
发布博客 2020.12.14 ·
2073 阅读 ·
3 点赞 ·
2 评论 ·
10 收藏

Presto数据查询引擎入门分享(PPT+Q&A)

PPT的内容是去年在部门内部做的关于Presto入门分享,主要涉及的内容如下图所示:由于CSDN不支持嵌入iframe,所以具体的内容放在腾讯文档上面了:Presto数据查询引擎入门分享Presto中有很多的基本概念,只有理解好这些基本概念,我们才能更好的理解Presto,下面是我梳理的各种概念的脑图:接下来的部分是关于当时分享后的一些Q&A:1.Presto的task是...
原创
发布博客 2020.03.23 ·
1047 阅读 ·
2 点赞 ·
3 评论 ·
1 收藏

Presto: SQL on Everything(全文翻译)

原论文地址:https://prestosql.io/paper一、引言Presto作为一个分布式查询引擎,于2013年开始就已经在facebook的生产环境中运行。并且如今已经在诸如Uber、Netflix、Airbnb、Bloomberg以及LinkedIn这样的大公司中使用。像Qubole、Treasure Data、Starburst Data等公司也提供了基于Presto的商业版产品...
翻译
发布博客 2020.03.11 ·
2081 阅读 ·
4 点赞 ·
2 评论 ·
6 收藏

MapReuce中对于文本文件的数据分片以及读取分片的源码分析

InputFormat抽象类InputFormat主要用于描述输入数据的格式(这里我们只分析新API,即org.apache.hadoop.mapreduce.lib.input.InputFormat),提供以下两个功能:数据切分:按照某个策略将输入数据切分成若干个split,以便确定MapTask个数以及对应的split;为Mapper提供输入数据:读取给定的split的数据,解析成一...
原创
发布博客 2019.03.31 ·
410 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Storm学习笔记(一)-- 实时流式计算概述

一、实时流式计算概述下面主要通过如下4个问题来阐述什么是实时流式计算:1.什么是实时流式计算?实时计算:响应时间受到时间约束的计算时间约束往往很短,已秒、毫秒为单位软实时 vs. 硬实时流式计算:在不断产⽣的数据流上的计算数据流不断产⽣,没有尽头,计算结果也不断产⽣/更新数据流由基本数据单元组成,计算基于基本数据单元处理实时流式计算:在不断产⽣的数据流上的实时计算...
原创
发布博客 2019.03.26 ·
684 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Java常用的List、Map、Set集合整理

文章目录一、List1.1 ArrayList1.2 LinkedList1.3 Vector二、Map三、Set如下所示的为Java集合的框架图:下面我们主要介绍其中的List、Map以及Set以及各类型常用的类。一、List特性:允许重复元素的存在,数据的插入顺序是有序的。如下demo所示:public class ListDemo { public static voi...
原创
发布博客 2019.03.17 ·
261 阅读 ·
1 点赞 ·
1 评论 ·
1 收藏

Spring AOP 概述

一、适用场景下面先看一个性能监控的代码示例:public class ForumService { private TransactionManager transManager; private PerformanceMonitor pmonitor; private TopicDao topicDao; private ForumDao forumDao;...
原创
发布博客 2019.03.07 ·
140 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

HBase的基本概念和术语

HBase – Hadoop Database,是一个高可靠性(HDFS和ZooKeeper保证)、高性能、面向列、可伸缩(通过增加结点实现)、实时读写的分布式数据库。它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为其分布式协同服务,它主要用来存储非结构化和半结构化的松散数据(列存 NoSQL 数据库) 。...
原创
发布博客 2019.03.04 ·
2342 阅读 ·
3 点赞 ·
0 评论 ·
2 收藏

Hive学习笔记(四)-- Hive参数优化总结

一、通用参数优化1.1 启用数据压缩1.2 Job执行优化1.3 选择合适的引擎1.4 MapReduce参数优化Map阶段优化Reduce阶段优化Shuffle阶段优化二、Join优化2.1 Map Join2.2 Bucket Map Join...
原创
发布博客 2019.02.28 ·
1215 阅读 ·
0 点赞 ·
0 评论 ·
6 收藏

Hive学习笔记(三)-- Hive的运行原理

以下内容是结合小象学院的hive视频整理的学习笔记各个组件:1. Hive CLI:查询处理器2. MetaStore:元数据信息3. YARN:计算平台4. HDFS:数据存储注:很多第三方组件一般只需要获得hive metaStore信息以及HDFS上的数据之后,就可以自己进行计算。处理流程:根据MetaStore中的信息,将sql解析成MR任务,在提交给yarn去执行;...
原创
发布博客 2019.02.27 ·
2964 阅读 ·
5 点赞 ·
0 评论 ·
14 收藏

使用maven-shade-plugin插件解决Phoenix依赖中的Guava版本冲突问题

一、问题描述在自定义查询项目中本来存在Guava 20.0版本的引用,为了使自定义查询支持Phoenix,在自定义查询的pom.xml文件中引入了如下依赖:<dependency> <groupId>org.apache.phoenix</groupId> <artifactId>phoenix-core&lt
原创
发布博客 2019.02.24 ·
2574 阅读 ·
2 点赞 ·
0 评论 ·
6 收藏

通过设置可变参数来完成Jmeter对接口的压测

文章目录一、摘要二、背景三、正文场景1:使用固定的参数来对服务端接口发起请求步骤1:新建线程组步骤2:添加Http请求步骤3:设置接口以及接口参数来段服务端发起请求步骤4:并添加查看结果数查看请求是否发送成功步骤5:查看服务端日志来记录查询时间场景2:使用可变参数来对服务端接口发起请求步骤1:新建一个java工程,并将代码打成可执行的jar包步骤2:新建如场景1中的步骤新建http请求步骤3:添加...
原创
发布博客 2019.02.24 ·
2393 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

删除hive的部分分区后,Presto查询数据失败,但是Hive查询却有数据

文章目录1.异常信息2.原因3.解决方案1.异常信息查询使用presto查询hive表,显示partition location dose not exist: hdfs:\xxxx2.原因对hive数据分区进行了物理删除,但是hive查询时可以屏蔽该错误,但是Presto查询的时候不能屏蔽该错误,而是将该错误抛出。3.解决方案手动删除hive的元数据中的分区信息,如下所示:alt...
原创
发布博客 2019.02.17 ·
4033 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

配置好Hive之后,启动Hive出现org.apache.hadoop.hive.ql.metadata.HiveException: MetaException异常

文章目录1.异常信息2.原因3.解决方案1.异常信息2.原因没有hive的元数据表。3.解决方案1)在配置hive-site.xml的jdbc的url时,在连接中加上createDatabaseIfNotExist=true2)使用该命令创建hive元数据表schematool -initSchema -dbType mysql...
原创
发布博客 2019.02.17 ·
8251 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

配置好Hive之后,启动Hive出现java.sql.SQLException: null异常

文章目录1.异常信息2.原因3.解决方案1.异常信息安装完hive配置好hive-site.xml文件之后报错java.sql.SQLException: null, message from server: “Host ‘master1’ is not allowed to connect to this MySQL server”2.原因因为安装好mysql之后没有给相应的ip配置...
原创
发布博客 2019.02.17 ·
1601 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

Hive学习笔记(二)-- Hive数据定义语言(DDL)

文章目录Hive数据定义语言(DDL)1.创建内部表语句2.创建外部表3.使用不同的文件格式4.行存储与列存储5.如何创建带压缩的ORC表:步骤Hive数据定义语言(DDL)Hive的官方提供的建表语法如下所示:LanguageManual DDLCREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name ...
原创
发布博客 2019.02.15 ·
329 阅读 ·
1 点赞 ·
1 评论 ·
2 收藏

Hive学习笔记(一)-- Hive简介及基本概念

Hive简介Hive是什么hive是一个构建在Hadoop之上的数据仓库和传统的数据仓库一样的点主要用来访问和管理数据同样提供了类sql查询语言和传统的数据仓库不一样的点可以处理超大规模的数据可以扩展和容错性非常强Hive可以做什么传统的数据仓库任务ETL报表生成Ad-hoc(点对点)数据分析大规模数据分析批处理程序Hive典型的应用场景日志分析统计一...
原创
发布博客 2019.02.15 ·
408 阅读 ·
2 点赞 ·
0 评论 ·
2 收藏

Java 8实战

发布资源 2017.10.21 ·
rar

学生综合测评系统C#

发布资源 2014.09.15 ·
zip
加载更多