宇文心亘-CSDN博客

原创 SparkSQL、DSL、sparkSQL与rdd相互转换

一、导入环境依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.11</artifactId> <version>2.4.5</version> </dependency> <depe

2022-05-28 10:32:03 1256

原创 Spark算子：转化算子、执行算子；累加器、广播变量

transformations转换算子：延迟执行--针对RDD的操作 Action操作算子：触发执行，转换算子是懒执行，需要一个action算子触发执行一、转换算子1、map val conf = new SparkConf() conf.setMaster("local") conf.setAppName("map") val sc = new SparkContext(conf) //用parallelize构建rdd，不用读数据去创建rd.

2022-05-15 16:33:30 839

原创 Scala高级函数使用、集合

1、字符串拼接//java 的方式 val builder = new StringBuilder() builder.append("java") builder.append("scala") builder.append("hadoop") println(builder.toString())//scala的方式 val a = "java" val b = 1000 val c = 3.14 //底层还是St

2022-05-11 16:36:16 700

原创 Scala语言的用法

目录一、Scala与Java语言的关系二、运行环境搭建三、Scala语言具体用法1、输出语法2、变量使用和转换3、方法（函数）4、循环判断5、IO流6、异常，一般函数异常Scala已经抛出，不用在手动抛出。7、连接数据库jdbc8、字符串转换json格式9、类的重载和重写10、case类11、apply（）方法一、Scala与Java语言的关系Java和Scala语言本质上是一样的，Scala就是在Java的基础上对Java语言进行

2022-05-10 21:15:56 822

原创 Hbase架构、读写流程、HbaseAPI

hbase架构，读写流程

2022-05-02 15:50:20 1169

原创 Hbase:简介、结构、shell命令

一、简介和启动1、 HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式NoSQL数据库利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为其分布式协同服务主要用来存储非结构化和半结构化的松散数据（列存 NoSQL 数据库）逻辑上，HBase的数据模型同关系型数据库很类似，数据存储在一张表中，有行有列。但从HBase的底层物...

2022-05-01 15:57:28 2775

原创 Hive优化、hive数仓设计

hive调优，hive数仓设计

2022-04-17 21:18:24 2416

原创 hive：自定义函数去处理表数据

hive自定义函数处理表数据

2022-04-14 21:51:55 2775

原创 hive函数中over（）用法

函数中的over用法

2022-04-14 21:51:48 591

原创 hive简单数据查询、函数

一、简单数据查询1、whereWHERE + 过滤条件 between/ in / is NULL / IS NOT NULL / > < = ! ... 如果多个存在多个过滤条件可以用 AND OR 进行条件关联或者是用NOT 进行条件结果取反2、JOINJOIN 内连接左外连接右外连接自连接满连接内连接: 注意：关联时一定要跟上关联条件SELECT T1.age,T2.gen...

2022-04-13 09:14:39 2647

原创 hive分区、数据加载、数据导出、数据类型

一、hive分区1、特点：分区表与其他表不同点在于，分区字段的值为表目录下的子目录格式 ,为: 分区字段=值2.建表语句create database learn2;CREATE TABLE IF NOT EXISTS learn2.partition_student(id STRING COMMENT "学生ID",name STRING COMMENT "学生姓名",age int COMMENT "年龄",gender STRING COMMENT "性别"...

2022-04-12 20:54:54 2860

原创 Hive概念、架构、启动方式、基本命令

一、概念Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL ），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 HQL ，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。数据仓库，英文名称为Data W

2022-04-11 20:07:20 5885

原创切片、Combiner编程、mapjoin、MapReduce工作流程详解、yarn工作机制

一、切片1、split切分数据最好和block块一致2、虚拟切片（处理多个数据量小的文件）在driver中加入以下代码import org.apache.hadoop.mapreduce.lib.input.CombineTextInputFormat;CombineTextInputFormat.setMaxInputSplitSize(job,4194304); //设置最大切片大小，单位字节job.setInputFormatClass(CombineTextInput

2022-04-10 19:09:58 1200

原创 MapReduce

一、概述MapReduce是一种分布式计算模型，由Google提出，主要用于搜索领域，解决海量数据的计算问题.MapReduce是分布式运行的，由两个阶段组成：Map和Reduce，Map阶段是一个独立的程序，有很多个节点同时运行，每个节点处理一部分数据。Reduce阶段是一个独立的程序，有很多个节点同时运行，每个节点处理一部分数据【在这先把reduce理解为一个单独的聚合程序即可】。MapReduce框架都有默认实现，用户只需要覆盖map()和reduce()两个函数，即可实现分布式计算，非常

2022-04-09 19:55:50 644

原创 Zookeeper

zookeeper

2022-04-07 21:13:56 1627

原创 Hdfs

hdfs

2022-04-04 15:00:53 3894

原创 Hadoop

Hadoop是一个适合海量数据的分布式存储和分布式计算的平台。

2022-04-03 20:23:24 840

原创 Python数据爬虫

一、Scrapy Scrapy 是用 Python 实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架。 Scrapy 常应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。通常我们可以很简单的通过Scrapy 框架实现一个爬虫，抓取指定网站的内容或图片。二、Scrapy架构图(绿线是数据流向) Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler 中间的通讯，信号、数据传递等。 Sch

2022-03-31 19:38:13 2553