ゞ c
码龄4年
关注
提问 私信
  • 博客:37,469
    37,469
    总访问量
  • 48
    原创
  • 1,378,517
    排名
  • 13
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:浙江省
  • 目前就职: 浙江淘宝网络有限公司
  • 加入CSDN时间: 2020-08-12
博客简介:

weixin_50034171的博客

查看详细资料
个人成就
  • 获得25次点赞
  • 内容获得6次评论
  • 获得123次收藏
创作历程
  • 11篇
    2021年
  • 38篇
    2020年
成就勋章
TA的专栏
  • Hive
    1篇
  • Spark RDD  DAG
    1篇
  • Spark SQL
    2篇
  • Hadoop
    1篇
兴趣领域 设置
  • 大数据
    hadoophivesparketl
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Hive的数据倾斜

Hive的数据倾斜数据倾斜是什么?顾名思义,就是数据分布不均匀,某个节点数据大量集中,而另外的节点数据量却很少。主要表现一个节点的任务很快就跑完了,而另外一个节点的任务很久迟迟不结束,这就是典型的数据分布不均匀。产生数据倾斜的原因1、key 分布不均匀2、业务数据本身的特性3、建表考虑不周全4、某些HQL语句本身就存在数据倾斜空值产生的数据倾斜以一张表为例(数据已经进入各个节点)[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0SIvrp4d-16146
原创
发布博客 2021.03.02 ·
483 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark Core

文章目录Spark Core第1章 Spark概述1.1 Spark是什么1.2 Spark and Hadoop1.3 Spark or Hadoop1.3.1 Hadoop MapReduce缺点:1.4 Spark 核心模块第2章 Spark 快速上手2.1 WordCount第3章 Spark运行环境3.1 Spark安装3.2 Spark运行模式第4章 Spark运行架构4.1 运行架构4.2 核心组件4.2.1 Driver4.2.2 Executor4.2.3 Master & W
原创
发布博客 2021.01.14 ·
1488 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Java连接Mysql Hive

文章目录Java连接Mysql一、BaseConfig类二、BaseDao类三、Result类Java连Hive一、BaseConfig类二、BaseDao类三、Result类Java连接Mysql一、BaseConfig类import java.sql.Connection;import java.io.FileReader;import java.sql.DriverManager;import java.sql.SQLException;import java.util.Properti
原创
发布博客 2021.01.10 ·
294 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark集成Hive和mysql

文章目录一、Spark集成Hive二、Spark集成mysql一、Spark集成Hive1、将Hive的配置文件拷贝到Spark的配置文件目录下,软拷贝硬拷贝皆可以ln -s /opt/software/hadoop/hive110/conf/hive-site.xml /opt/software/hadoop/spark244//conf/hive-site.xml2、拷贝jar包cp /opt/software/hadoop/hive110/lib/mysql-connector-java-
原创
发布博客 2021.01.10 ·
240 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

SparkSQL(一)RDD && Dataset && DataFrame

一、SQL on Hadoop1.1 SQL是一种传统的用来进行数据分析的标准​ Hive是原始的SQL-on-Hadoop解决方案​ Impala:和Hive一样,提供了一种可以针对已有Hadoop数据编写SQL查询的方法​ Presto:类似于Impala,未被主要供应商支持​ Shark:Spark SQL的前身,设计目标是作为Hive的一个补充​ Phoenix:基于HBase的开源SQL查询引擎1.2 Spark SQL前身Shark的初衷:让Hive运行在Spark之上
原创
发布博客 2021.01.07 ·
492 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Scala中类定义&&构造器

Scala面向对象中有这几个概念:类、抽象类、单例对象、特质、样例类类和Java中类似点:类通过class关键字定义类通过new关键字创建实例类拥有成员变量和方法类的成员默认为public,也支持private、protected,Scala中没有public这个关键字和Java中不一样之处:类中无法定义静态成员变量和方法(Java中有static)类无需明确定义构造方法,通过构造参数列表声明为类的一部分Java中访问修饰符ModifierClass(自己)Package
原创
发布博客 2021.01.02 ·
238 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Scala中类的继承

类的继承Scala使用“extends”关键字实现继承子类重写父类方法必须使用“override”关键字package oopclass XiaoXueSheng extends Student { // 重写Student父类中的study方法 override def study() = { println("小学生不爱学习") } def play() = { println("小学生喜欢打游戏") }}object Test02{ de
原创
发布博客 2021.01.02 ·
399 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Scala中函数&&方法的声明

函数&&方法的声明object Test1 extends App { // 定义一个函数 def square(x:Int) = { println("传入的值是:"+x) val res= x*x println(res) } square(5) // 函数已经被调用,但是函数值没有被打印出来 // 变形 // 返回值类型为Unit的时候 = 可以不写 def printName(x:String) = { prin
原创
发布博客 2021.01.02 ·
525 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Scala中抽象类&&单例对象&&伴生类

抽象类(abstract)抽象类可包含未实现的方法,即抽象方法抽象类无法实例化抽象类使用“abstract”关键字修饰(建议都写上)​ 子类重写父类抽象方法时,“override”关键字可选​ 子类重写父类非抽象方法,“override”关键字必写父类package test// 定义一个抽象类,使用abstract修饰abstract class Shape { def draw() def write() ={ println("写代码") }}子类
原创
发布博客 2021.01.02 ·
178 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

Scala中Trait

特质(trait)Scala中没有接口(interface)的概念特质用于在类之间共享程序接口和字段,类似Java接口特质是字段和方法的集合,可以提供字段和方法实现类和单例对象都可以扩展特质(extends)特质不能被实例化,因此没有构造参数,类似Java接口特质使用“trait”关键字定义实现特质中的方法使用“override”package test02// 特质(类比于接口)// 创建一个Pet特质trait Pet { val name:String def cry(
原创
发布博客 2021.01.02 ·
235 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

scala循环、数据类型

package scala12_30object Test1 extends App { println("----var && val -----") // var val val a = 19 println(a) var b = 10 b =19 println(b) println("------变量的创建-------") // 变量的创建 val a1:Int = 1 val c:String = "chenjun"
原创
发布博客 2021.01.02 ·
139 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Scala函数大全及案例

文章目录一、pandas是什么?二、使用步骤1.引入库2.读入数据总结一、pandas是什么?1、++:合并产生新的数组var a1 = Array.range(1,10)a1.foreach(println)var a2 =Array("a","b","x")println(a1 ++ a2)=>输出:二、使用步骤1.引入库代码如下(示例):import numpy as npimport pandas as pdimport matplotlib.pyplot a
原创
发布博客 2020.12.27 ·
534 阅读 ·
1 点赞 ·
0 评论 ·
7 收藏

Sqoop数据迁移

文章目录一、Sqoop是什么?二、RDBMS => HDFS2.1 从Mysql导入数据到HDFS2.2 通过where语句过滤导入表2.3 使用columns(列)过滤指定列导入表2.4 通过query方式导入数据2.5 使用sqoop增量导入数据(之前导了一部分数据了,了数据发生了变化)2.6 创建Job三、RDBMS => Hive四、RDBMS => Hbase五、HDFS/Hive => RDBMS六、Hive => HDFS七、HDFS => Hive一、S
原创
发布博客 2020.12.23 ·
387 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

HBase架构原理

HBase一、HBase原理1.1 什么是NoSQL1.2 NoSQL和关系型数据库对比二、HBase概述2.1 特点三、HBase架构原理3.1 HBase架构三、数据存储结构四、HBase数据存储结构4.1 Rowkey四、数据读写流程一、HBase原理1.1 什么是NoSQLNoSQL:not only SQL,非关系型数据库NoSQL是一个通用术语指不遵循传统RDBMS模型的数据库数据是非关系的,且不使用SQL作为主要查询语言解决数据库的可伸缩性和可用性问题不针对原子性或一致性问题
原创
发布博客 2020.12.21 ·
291 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Scala(集合)通俗易懂

Scala集合一、Scala集合大分类二、Scala集合-可变/不可变2.1 不可变集合2.2 可变集合三、List常用操作四、List中方法五、Scala 中Set常用操作六、Scala中Map常用操作七、Scala Stream & Vector总结注意:使用dos窗口退出scala模式是:q一、Scala集合大分类此处集合说的是:Collection● Seq:序列,元素按顺序排列 (List)● Set:集合,元素不重复● Map:映射,键值对集合所有的集合都继承自Trav
原创
发布博客 2020.12.20 ·
535 阅读 ·
0 点赞 ·
2 评论 ·
0 收藏

Scala(一)数据类型和使用

ScalaScala简介一、Scala特点1.1 静态类型1.2 强类型1.3 面向对象编程(OOP)二、Scala关键字三、Scala变量和常量四、Scala数据类型4.1 Unit五、Scala字符串插值(拼接)六、函数的定义七、程序控制7.1 条件控制(重点if)7.2 块表达式{}八、for循环8.1 单循环8.2 多重循环九、循环跳转语句十、数据结构十一、数组Scala简介Scala 是一种基于 JVM 的多范式编程语言,这里的范式可以理解为一种编程 风格,比如面向对象编程就是一种范式。常见范
原创
发布博客 2020.12.18 ·
875 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive(五)高级查询&&窗口函数

文章目录前言一、order by1.1 应用order by1.2 按照位置编号二、使用步骤1.引入库2.读入数据总结前言扩展:--设置日志set hive.server2.logging.operation.level=NONE ---无日志set hive.server2.logging.operation.level=EXECUTION --有日志一、order byorder by 从英文里理解就是行的排序方式,默认的为升序。 order by 后面必须列出排序的字段名,可
原创
发布博客 2020.12.15 ·
604 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive函数

Hive函数一、查看hive的函数库二、查看某个具体的函数三、数学函数四、集合函数五、类型转换函数六、日期函数测试题七、条件函数八、字符串函数一、查看hive的函数库show functions;二、查看某个具体的函数desc function extended 函数名;三、数学函数1、log(double base,double a) 简介:底数为base的a的对数,base可以自定义 返回值类型:doubleselect log(10,100);--返回22、pow(double
原创
发布博客 2020.12.14 ·
1308 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

mysql函数大全

文章目录一、数学函数二、字符串函数2.读入数据总结一、数学函数绝对值:abs(v NUMBER)去小数:floor(v DECIMAL)有小数且小数不是0就进1 ceil(v DECIMAL)truncate(v DECIMAL,n,INT):保留精度,和四舍五入没有关系round(v DECIMAL) : 四舍五入round(v DECIMAL,n INT) :保留精度 四舍五入rand():返回0-1的随机数sign(v NUMBER):返回数值的符号,就是判断是正数还
原创
发布博客 2020.12.14 ·
226 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

理解group by

以表1test为例:如果说执行以下语句,很显然结果如下:select name from testgroup by name;对于group by name ,可以这么理解,就是把相同name的数据合并到一行,比如说将(1,a,2)与(2,a,4)合并到一行即一个单元格里这里,我们将生成的结果表当成表2,原始表为表1如果执行select *的话,那么返回的结果应该是虚拟表3,可是id和number中有的单元格里面的内容是多个值的,而关系数据库就是基于关系的,单元格中是不允许有多个值的,
原创
发布博客 2020.12.11 ·
278 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏
加载更多