自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(66)
  • 收藏
  • 关注

原创 SparkSQL、DSL、sparkSQL与rdd相互转换

一、导入环境依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.11</artifactId> <version>2.4.5</version> </dependency> <depe

2022-05-28 10:32:03 1068 1

原创 Spark算子:转化算子、执行算子;累加器、广播变量

transformations转换算子:延迟执行--针对RDD的操作 Action操作算子:触发执行,转换算子是懒执行,需要一个action算子触发执行一、转换算子1、map val conf = new SparkConf() conf.setMaster("local") conf.setAppName("map") val sc = new SparkContext(conf) //用parallelize构建rdd,不用读数据去创建rd.

2022-05-15 16:33:30 649

原创 Scala高级函数使用、集合

1、字符串拼接//java 的方式 val builder = new StringBuilder() builder.append("java") builder.append("scala") builder.append("hadoop") println(builder.toString())//scala的方式 val a = "java" val b = 1000 val c = 3.14 //底层还是St

2022-05-11 16:36:16 592

原创 Scala语言的用法

目录一、Scala与Java语言的关系二、运行环境搭建三、Scala语言具体用法1、输出语法2、变量使用和转换3、方法(函数)4、循环判断5、IO流6、异常,一般函数异常Scala已经抛出,不用在手动抛出。7、连接数据库jdbc8、字符串转换json格式9、类的重载和重写10、case类11、apply()方法一、Scala与Java语言的关系Java和Scala语言本质上是一样的,Scala就是在Java的基础上对Java语言进行

2022-05-10 21:15:56 709

原创 Hbase架构、读写流程、HbaseAPI

hbase架构,读写流程

2022-05-02 15:50:20 1086

原创 Hbase:简介、结构、shell命令

一、简介和启动1、 HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式NoSQL数据库利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为其分布式协同服务主要用来存储非结构化和半结构化的松散数据(列存 NoSQL 数据库)逻辑上,HBase的数据模型同关系型数据库很类似,数据存储在一张表中,有行有列。但从HBase的底层物...

2022-05-01 15:57:28 2629

原创 Hive优化、hive数仓设计

hive调优,hive数仓设计

2022-04-17 21:18:24 2245

原创 hive:自定义函数去处理表数据

hive自定义函数处理表数据

2022-04-14 21:51:55 2583

原创 hive函数中over()用法

函数中的over用法

2022-04-14 21:51:48 497

原创 hive简单数据查询、函数

一、简单数据查询1、whereWHERE + 过滤条件 between/ in / is NULL / IS NOT NULL / > < = ! ... 如果多个存在多个过滤条件 可以用 AND OR 进行条件关联 或者是用NOT 进行条件结果取反2、JOINJOIN 内连接 左外连接 右外连接 自连接 满连接 内连接: 注意:关联时一定要跟上关联条件SELECT T1.age,T2.gen...

2022-04-13 09:14:39 2523

原创 hive分区、数据加载、数据导出、数据类型

一、hive分区1、特点: 分区表与其他表不同点在于,分区字段的值为表目录下的子目录格式 ,为: 分区字段=值2.建表语句create database learn2;CREATE TABLE IF NOT EXISTS learn2.partition_student(id STRING COMMENT "学生ID",name STRING COMMENT "学生姓名",age int COMMENT "年龄",gender STRING COMMENT "性别"...

2022-04-12 20:54:54 2657

原创 Hive概念、架构、启动方式、基本命令

一、概念Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL ,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。数据仓库,英文名称为Data W

2022-04-11 20:07:20 5689

原创 切片、Combiner编程、mapjoin、MapReduce工作流程详解、yarn工作机制

一、切片1、split切分数据最好和block块一致2、虚拟切片(处理多个数据量小的文件)在driver中加入以下代码import org.apache.hadoop.mapreduce.lib.input.CombineTextInputFormat;CombineTextInputFormat.setMaxInputSplitSize(job,4194304); //设置最大切片大小,单位字节job.setInputFormatClass(CombineTextInput

2022-04-10 19:09:58 1037

原创 MapReduce

一、概述MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题.MapReduce是分布式运行的,由两个阶段组成:Map和Reduce,Map阶段是一个独立的程序,有很多个节点同时运行,每个节点处理一部分数据。Reduce阶段是一个独立的程序,有很多个节点同时运行,每个节点处理一部分数据【在这先把reduce理解为一个单独的聚合程序即可】。MapReduce框架都有默认实现,用户只需要覆盖map()和reduce()两个函数,即可实现分布式计算,非常

2022-04-09 19:55:50 557

原创 Zookeeper

zookeeper

2022-04-07 21:13:56 1511

原创 Hdfs

hdfs

2022-04-04 15:00:53 3635

原创 Hadoop

Hadoop是一个适合海量数据的分布式存储和分布式计算的平台。

2022-04-03 20:23:24 769

原创 Python数据爬虫

一、Scrapy Scrapy 是用 Python 实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架。 Scrapy 常应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 通常我们可以很简单的通过Scrapy 框架实现一个爬虫,抓取指定网站的内容或图片。 二、Scrapy架构图(绿线是数据流向) Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler 中间的通讯,信号、数据传递等。 Sch

2022-03-31 19:38:13 2403

原创 Python:pandas

pandas

2022-03-30 09:56:54 1669

原创 Python基础:选择语句、循环结构、数据库操作、文件IO流、函数、面向对象、编译异常

Python

2022-03-27 12:32:55 173

原创 Python基础:注释、变量、数据类型、字符串常见的操作、Python的数据容器、遍历数据容器、其它函数

python

2022-03-24 22:36:41 474

原创 Hadoop安装

Hadoop安装

2022-03-22 19:45:33 3312

原创 redis常见命令,位图bitmap、redis缓存、redis集群搭建

redis常见命令,位图bitmap、redis集群搭建

2022-03-20 21:09:10 311

原创 springboot、mvc框架、面向接口开发、连接池导包

springboot、mvc框架、面向接口开发、连接池导包

2022-03-20 14:55:33 1302

原创 Junit、Json和kv结构的相互转化

Junit、Json和kv结构的相互转化

2022-03-16 21:21:31 1152

原创 MySQL:索引,事务,Java和Linux操作MySQL

MySQL:索引,事务,Java和Linux操作MySQL

2022-03-13 22:07:16 95

原创 MySQL:where和having、表纵向连接、select * from a,b 表横向连接、连表联查、SQL作为表使用

MySQL:where和having、表纵向连接、select * from a,b 表横向连接、连表联查、SQL作为表使用

2022-03-11 20:23:07 1517

原创 mysql:时间、逻辑判断(if、case when)、排序、自定义数据查询、MSQL三大范式、group分组、TopN

mysql:时间、逻辑判断(if、case when)、排序、自定义数据查询、MSQL三大范式、group分组、TopN

2022-03-10 21:53:27 2186

原创 MySQL:alter修改库、表和字段;添加数据;修改数据;筛选数据;查询语句;删除数据;常用函数和操作

alter修改库、表和字段;添加数据;修改数据;筛选数据;查询语句;删除数据;常用函数和操作

2022-03-09 21:46:26 6687

原创 MySQL安装、修改字符集,建表

MySQL:修改字符集,建表

2022-03-07 21:32:14 1481

原创 shell编程:流程控制语句、循环语句、键盘录入read、数组、方法、显示时间、重定向、定时器。

shell编程:if语句;for循环:是不是素数,水仙花,乘法口诀;键盘录入read、数组、方法、显示时间、重定向、定时器。

2022-03-04 20:34:41 356

原创 shell:$0...$n、引号、字符串命令、运算符

shell:$0...$n、引号、字符串命令、运算符

2022-03-03 20:48:46 642

原创 VMware打开Linux,电脑蓝屏解决办法

VMware打开Linux电脑蓝屏解决办法,三步搞定。

2022-03-01 09:16:55 3678 1

原创 Linux概述、目录结构、常用命令

Linux概述、目录结构、常用命令

2022-02-28 22:11:30 248

原创 网络编程:UDP传输和TCP传输

UDP传输和TCP传输

2022-02-23 21:39:26 815

原创 多线程:死锁问题、线程间通信、线程组、线程池、多线程实现方式(三)、使用匿名内部类实现多线程、定时器

多线程:死锁问题、线程间通信、线程组、线程池、多线程实现方式(三)、使用匿名内部类实现多线程、定时器

2022-02-23 16:50:17 267

原创 多线程练习,解决线程安全问题:同步安全机制,Lock锁

多线程练习,解决线程安全问题:同步安全机制,Lock锁

2022-02-21 21:03:22 129

原创 多线程概述,创建线程:继承Thread类、实现Runnable接口

多线程概述,创建线程:继承Thread类、实现Runnable接口

2022-02-20 10:39:30 1123

原创 IO流:操作基本数据类型的流,序列化、Properties集合

IO流,序列化

2022-02-19 21:33:32 500

原创 IO流,字节流和字符流

IO流,字节流和字符流

2022-02-18 21:37:24 307

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除