数加学习_宇文心亘的博客-CSDN博客

数加学习

关注

文章平均质量分 77

关注数：文章数：66 文章阅读量：75088 文章收藏量：157

作者: 宇文心亘

这个作者很懒，什么都没留下…

展开

SparkSQL、DSL、sparkSQL与rdd相互转换

一、导入环境依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.11</artifactId> <version>2.4.5</version> </dependency> <depe

原创 2022-05-28 10:32:03 · 992 阅读 · 1 评论
Spark算子：转化算子、执行算子；累加器、广播变量

transformations转换算子：延迟执行--针对RDD的操作 Action操作算子：触发执行，转换算子是懒执行，需要一个action算子触发执行一、转换算子1、map val conf = new SparkConf() conf.setMaster("local") conf.setAppName("map") val sc = new SparkContext(conf) //用parallelize构建rdd，不用读数据去创建rd.

原创 2022-05-15 16:33:30 · 546 阅读 · 0 评论
Scala高级函数使用、集合

1、字符串拼接//java 的方式 val builder = new StringBuilder() builder.append("java") builder.append("scala") builder.append("hadoop") println(builder.toString())//scala的方式 val a = "java" val b = 1000 val c = 3.14 //底层还是St

原创 2022-05-11 16:36:16 · 428 阅读 · 0 评论
Scala语言的用法

目录一、Scala与Java语言的关系二、运行环境搭建三、Scala语言具体用法1、输出语法2、变量使用和转换3、方法（函数）4、循环判断5、IO流6、异常，一般函数异常Scala已经抛出，不用在手动抛出。7、连接数据库jdbc8、字符串转换json格式9、类的重载和重写10、case类11、apply（）方法一、Scala与Java语言的关系Java和Scala语言本质上是一样的，Scala就是在Java的基础上对Java语言进行

原创 2022-05-10 21:15:56 · 704 阅读 · 0 评论
Hbase架构、读写流程、HbaseAPI

hbase架构，读写流程

原创 2022-05-02 15:50:20 · 1078 阅读 · 0 评论
Hbase:简介、结构、shell命令

一、简介和启动1、 HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式NoSQL数据库利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为其分布式协同服务主要用来存储非结构化和半结构化的松散数据（列存 NoSQL 数据库）逻辑上，HBase的数据模型同关系型数据库很类似，数据存储在一张表中，有行有列。但从HBase的底层物...

原创 2022-05-01 15:57:28 · 2597 阅读 · 0 评论
Hive优化、hive数仓设计

hive调优，hive数仓设计

原创 2022-04-17 21:18:24 · 2217 阅读 · 0 评论
hive：自定义函数去处理表数据

hive自定义函数处理表数据

原创 2022-04-14 21:51:55 · 2549 阅读 · 0 评论
hive函数中over（）用法

函数中的over用法

原创 2022-04-14 21:51:48 · 486 阅读 · 0 评论
hive简单数据查询、函数

一、简单数据查询1、whereWHERE + 过滤条件 between/ in / is NULL / IS NOT NULL / > < = ! ... 如果多个存在多个过滤条件可以用 AND OR 进行条件关联或者是用NOT 进行条件结果取反2、JOINJOIN 内连接左外连接右外连接自连接满连接内连接: 注意：关联时一定要跟上关联条件SELECT T1.age,T2.gen...

原创 2022-04-13 09:14:39 · 2498 阅读 · 0 评论
hive分区、数据加载、数据导出、数据类型

一、hive分区1、特点：分区表与其他表不同点在于，分区字段的值为表目录下的子目录格式 ,为: 分区字段=值2.建表语句create database learn2;CREATE TABLE IF NOT EXISTS learn2.partition_student(id STRING COMMENT "学生ID",name STRING COMMENT "学生姓名",age int COMMENT "年龄",gender STRING COMMENT "性别"...

原创 2022-04-12 20:54:54 · 2622 阅读 · 0 评论
Hive概念、架构、启动方式、基本命令

一、概念Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL ），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 HQL ，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。数据仓库，英文名称为Data W

原创 2022-04-11 20:07:20 · 5676 阅读 · 0 评论
切片、Combiner编程、mapjoin、MapReduce工作流程详解、yarn工作机制

一、切片1、split切分数据最好和block块一致2、虚拟切片（处理多个数据量小的文件）在driver中加入以下代码import org.apache.hadoop.mapreduce.lib.input.CombineTextInputFormat;CombineTextInputFormat.setMaxInputSplitSize(job,4194304); //设置最大切片大小，单位字节job.setInputFormatClass(CombineTextInput

原创 2022-04-10 19:09:58 · 1020 阅读 · 0 评论
MapReduce

一、概述MapReduce是一种分布式计算模型，由Google提出，主要用于搜索领域，解决海量数据的计算问题.MapReduce是分布式运行的，由两个阶段组成：Map和Reduce，Map阶段是一个独立的程序，有很多个节点同时运行，每个节点处理一部分数据。Reduce阶段是一个独立的程序，有很多个节点同时运行，每个节点处理一部分数据【在这先把reduce理解为一个单独的聚合程序即可】。MapReduce框架都有默认实现，用户只需要覆盖map()和reduce()两个函数，即可实现分布式计算，非常

原创 2022-04-09 19:55:50 · 552 阅读 · 0 评论
Zookeeper

zookeeper

原创 2022-04-07 21:13:56 · 1480 阅读 · 0 评论
Hdfs

hdfs

原创 2022-04-04 15:00:53 · 3577 阅读 · 0 评论
Hadoop

Hadoop是一个适合海量数据的分布式存储和分布式计算的平台。

原创 2022-04-03 20:23:24 · 763 阅读 · 0 评论
Python：pandas

pandas

原创 2022-03-30 09:56:54 · 1667 阅读 · 0 评论
Python数据爬虫

一、Scrapy Scrapy 是用 Python 实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架。 Scrapy 常应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。通常我们可以很简单的通过Scrapy 框架实现一个爬虫，抓取指定网站的内容或图片。二、Scrapy架构图(绿线是数据流向) Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler 中间的通讯，信号、数据传递等。 Sch

原创 2022-03-31 19:38:13 · 2374 阅读 · 0 评论
Python基础:选择语句、循环结构、数据库操作、文件IO流、函数、面向对象、编译异常

Python

原创 2022-03-27 12:32:55 · 166 阅读 · 0 评论
Python基础：注释、变量、数据类型、字符串常见的操作、Python的数据容器、遍历数据容器、其它函数

python

原创 2022-03-24 22:36:41 · 464 阅读 · 0 评论
Hadoop安装

Hadoop安装

原创 2022-03-22 19:45:33 · 3299 阅读 · 0 评论
redis常见命令，位图bitmap、redis缓存、redis集群搭建

redis常见命令，位图bitmap、redis集群搭建

原创 2022-03-20 21:09:10 · 286 阅读 · 0 评论
springboot、mvc框架、面向接口开发、连接池导包

springboot、mvc框架、面向接口开发、连接池导包

原创 2022-03-20 14:55:33 · 1299 阅读 · 0 评论
Junit、Json和kv结构的相互转化

Junit、Json和kv结构的相互转化

原创 2022-03-16 21:21:31 · 1110 阅读 · 0 评论
MySQL：索引，事务，Java和Linux操作MySQL

MySQL：索引，事务，Java和Linux操作MySQL

原创 2022-03-13 22:07:16 · 88 阅读 · 0 评论
MySQL：where和having、表纵向连接、select * from a,b 表横向连接、连表联查、SQL作为表使用

MySQL：where和having、表纵向连接、select * from a,b 表横向连接、连表联查、SQL作为表使用

原创 2022-03-11 20:23:07 · 1471 阅读 · 0 评论
mysql：时间、逻辑判断（if、case when）、排序、自定义数据查询、MSQL三大范式、group分组、TopN

mysql：时间、逻辑判断（if、case when）、排序、自定义数据查询、MSQL三大范式、group分组、TopN

原创 2022-03-10 21:53:27 · 2144 阅读 · 0 评论
MySQL：alter修改库、表和字段；添加数据；修改数据；筛选数据；查询语句；删除数据；常用函数和操作

alter修改库、表和字段；添加数据；修改数据；筛选数据；查询语句；删除数据；常用函数和操作

原创 2022-03-09 21:46:26 · 6526 阅读 · 0 评论
MySQL安装、修改字符集，建表

MySQL：修改字符集，建表

原创 2022-03-07 21:32:14 · 1440 阅读 · 0 评论
shell编程：流程控制语句、循环语句、键盘录入read、数组、方法、显示时间、重定向、定时器。

shell编程:if语句；for循环：是不是素数，水仙花，乘法口诀；键盘录入read、数组、方法、显示时间、重定向、定时器。

原创 2022-03-04 20:34:41 · 351 阅读 · 0 评论
shell：$0...$n、引号、字符串命令、运算符

shell：$0...$n、引号、字符串命令、运算符

原创 2022-03-03 20:48:46 · 628 阅读 · 0 评论
VMware打开Linux，电脑蓝屏解决办法

VMware打开Linux电脑蓝屏解决办法，三步搞定。

原创 2022-03-01 09:16:55 · 3640 阅读 · 1 评论
Linux概述、目录结构、常用命令

Linux概述、目录结构、常用命令

原创 2022-02-28 22:11:30 · 215 阅读 · 0 评论
网络编程：UDP传输和TCP传输

UDP传输和TCP传输

原创 2022-02-23 21:39:26 · 784 阅读 · 0 评论
多线程：死锁问题、线程间通信、线程组、线程池、多线程实现方式（三）、使用匿名内部类实现多线程、定时器

多线程：死锁问题、线程间通信、线程组、线程池、多线程实现方式（三）、使用匿名内部类实现多线程、定时器

原创 2022-02-23 16:50:17 · 240 阅读 · 0 评论
多线程练习，解决线程安全问题：同步安全机制，Lock锁

多线程练习，解决线程安全问题：同步安全机制，Lock锁

原创 2022-02-21 21:03:22 · 104 阅读 · 0 评论
多线程概述，创建线程：继承Thread类、实现Runnable接口

多线程概述，创建线程：继承Thread类、实现Runnable接口

原创 2022-02-20 10:39:30 · 1094 阅读 · 0 评论
IO流：操作基本数据类型的流，序列化、Properties集合

IO流，序列化

原创 2022-02-19 21:33:32 · 494 阅读 · 0 评论
IO流，字节流和字符流

IO流，字节流和字符流

原创 2022-02-18 21:37:24 · 285 阅读 · 0 评论

数加学习

作者: 宇文心亘

SparkSQL、DSL、sparkSQL与rdd相互转换

Spark算子：转化算子、执行算子；累加器、广播变量

Scala高级函数使用、集合

Scala语言的用法

Hbase架构、读写流程、HbaseAPI

Hbase:简介、结构、shell命令

Hive优化、hive数仓设计

hive：自定义函数去处理表数据

hive函数中over（）用法

hive简单数据查询、函数

hive分区、数据加载、数据导出、数据类型

Hive概念、架构、启动方式、基本命令

切片、Combiner编程、mapjoin、MapReduce工作流程详解、yarn工作机制

MapReduce

Zookeeper

Hdfs

Hadoop

Python：pandas

Python数据爬虫

Python基础:选择语句、循环结构、数据库操作、文件IO流、函数、面向对象、编译异常

Python基础：注释、变量、数据类型、字符串常见的操作、Python的数据容器、遍历数据容器、其它函数

Hadoop安装

redis常见命令，位图bitmap、redis缓存、redis集群搭建

springboot、mvc框架、面向接口开发、连接池导包

Junit、Json和kv结构的相互转化

MySQL：索引，事务，Java和Linux操作MySQL

MySQL：where和having、表纵向连接、select * from a,b 表横向连接、连表联查、SQL作为表使用

mysql：时间、逻辑判断（if、case when）、排序、自定义数据查询、MSQL三大范式、group分组、TopN

MySQL：alter修改库、表和字段；添加数据；修改数据；筛选数据；查询语句；删除数据；常用函数和操作

MySQL安装、修改字符集，建表

shell编程：流程控制语句、循环语句、键盘录入read、数组、方法、显示时间、重定向、定时器。

shell：$0...$n、引号、字符串命令、运算符

VMware打开Linux，电脑蓝屏解决办法

Linux概述、目录结构、常用命令

网络编程：UDP传输和TCP传输

多线程：死锁问题、线程间通信、线程组、线程池、多线程实现方式（三）、使用匿名内部类实现多线程、定时器

多线程练习，解决线程安全问题：同步安全机制，Lock锁

多线程概述，创建线程：继承Thread类、实现Runnable接口

IO流：操作基本数据类型的流，序列化、Properties集合

IO流，字节流和字符流