![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数加学习
文章平均质量分 77
宇文心亘
这个作者很懒,什么都没留下…
展开
-
SparkSQL、DSL、sparkSQL与rdd相互转换
一、导入环境依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.11</artifactId> <version>2.4.5</version> </dependency> <depe原创 2022-05-28 10:32:03 · 983 阅读 · 1 评论 -
Spark算子:转化算子、执行算子;累加器、广播变量
transformations转换算子:延迟执行--针对RDD的操作 Action操作算子:触发执行,转换算子是懒执行,需要一个action算子触发执行一、转换算子1、map val conf = new SparkConf() conf.setMaster("local") conf.setAppName("map") val sc = new SparkContext(conf) //用parallelize构建rdd,不用读数据去创建rd.原创 2022-05-15 16:33:30 · 541 阅读 · 0 评论 -
Scala高级函数使用、集合
1、字符串拼接//java 的方式 val builder = new StringBuilder() builder.append("java") builder.append("scala") builder.append("hadoop") println(builder.toString())//scala的方式 val a = "java" val b = 1000 val c = 3.14 //底层还是St原创 2022-05-11 16:36:16 · 427 阅读 · 0 评论 -
Scala语言的用法
目录一、Scala与Java语言的关系二、运行环境搭建三、Scala语言具体用法1、输出语法2、变量使用和转换3、方法(函数)4、循环判断5、IO流6、异常,一般函数异常Scala已经抛出,不用在手动抛出。7、连接数据库jdbc8、字符串转换json格式9、类的重载和重写10、case类11、apply()方法一、Scala与Java语言的关系Java和Scala语言本质上是一样的,Scala就是在Java的基础上对Java语言进行原创 2022-05-10 21:15:56 · 702 阅读 · 0 评论 -
Hbase架构、读写流程、HbaseAPI
hbase架构,读写流程原创 2022-05-02 15:50:20 · 1078 阅读 · 0 评论 -
Hbase:简介、结构、shell命令
一、简介和启动1、 HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式NoSQL数据库利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为其分布式协同服务主要用来存储非结构化和半结构化的松散数据(列存 NoSQL 数据库)逻辑上,HBase的数据模型同关系型数据库很类似,数据存储在一张表中,有行有列。但从HBase的底层物...原创 2022-05-01 15:57:28 · 2595 阅读 · 0 评论 -
Hive优化、hive数仓设计
hive调优,hive数仓设计原创 2022-04-17 21:18:24 · 2213 阅读 · 0 评论 -
hive:自定义函数去处理表数据
hive自定义函数处理表数据原创 2022-04-14 21:51:55 · 2546 阅读 · 0 评论 -
hive函数中over()用法
函数中的over用法原创 2022-04-14 21:51:48 · 485 阅读 · 0 评论 -
hive简单数据查询、函数
一、简单数据查询1、whereWHERE + 过滤条件 between/ in / is NULL / IS NOT NULL / > < = ! ... 如果多个存在多个过滤条件 可以用 AND OR 进行条件关联 或者是用NOT 进行条件结果取反2、JOINJOIN 内连接 左外连接 右外连接 自连接 满连接 内连接: 注意:关联时一定要跟上关联条件SELECT T1.age,T2.gen...原创 2022-04-13 09:14:39 · 2496 阅读 · 0 评论 -
hive分区、数据加载、数据导出、数据类型
一、hive分区1、特点: 分区表与其他表不同点在于,分区字段的值为表目录下的子目录格式 ,为: 分区字段=值2.建表语句create database learn2;CREATE TABLE IF NOT EXISTS learn2.partition_student(id STRING COMMENT "学生ID",name STRING COMMENT "学生姓名",age int COMMENT "年龄",gender STRING COMMENT "性别"...原创 2022-04-12 20:54:54 · 2619 阅读 · 0 评论 -
Hive概念、架构、启动方式、基本命令
一、概念Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL ,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。数据仓库,英文名称为Data W原创 2022-04-11 20:07:20 · 5666 阅读 · 0 评论 -
切片、Combiner编程、mapjoin、MapReduce工作流程详解、yarn工作机制
一、切片1、split切分数据最好和block块一致2、虚拟切片(处理多个数据量小的文件)在driver中加入以下代码import org.apache.hadoop.mapreduce.lib.input.CombineTextInputFormat;CombineTextInputFormat.setMaxInputSplitSize(job,4194304); //设置最大切片大小,单位字节job.setInputFormatClass(CombineTextInput原创 2022-04-10 19:09:58 · 1019 阅读 · 0 评论 -
MapReduce
一、概述MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题.MapReduce是分布式运行的,由两个阶段组成:Map和Reduce,Map阶段是一个独立的程序,有很多个节点同时运行,每个节点处理一部分数据。Reduce阶段是一个独立的程序,有很多个节点同时运行,每个节点处理一部分数据【在这先把reduce理解为一个单独的聚合程序即可】。MapReduce框架都有默认实现,用户只需要覆盖map()和reduce()两个函数,即可实现分布式计算,非常原创 2022-04-09 19:55:50 · 550 阅读 · 0 评论 -
Zookeeper
zookeeper原创 2022-04-07 21:13:56 · 1475 阅读 · 0 评论 -
Hdfs
hdfs原创 2022-04-04 15:00:53 · 3569 阅读 · 0 评论 -
Hadoop
Hadoop是一个适合海量数据的分布式存储和分布式计算的平台。原创 2022-04-03 20:23:24 · 763 阅读 · 0 评论 -
Python:pandas
pandas原创 2022-03-30 09:56:54 · 1664 阅读 · 0 评论 -
Python数据爬虫
一、Scrapy Scrapy 是用 Python 实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架。 Scrapy 常应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 通常我们可以很简单的通过Scrapy 框架实现一个爬虫,抓取指定网站的内容或图片。 二、Scrapy架构图(绿线是数据流向) Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler 中间的通讯,信号、数据传递等。 Sch原创 2022-03-31 19:38:13 · 2368 阅读 · 0 评论 -
Python基础:选择语句、循环结构、数据库操作、文件IO流、函数、面向对象、编译异常
Python原创 2022-03-27 12:32:55 · 164 阅读 · 0 评论 -
Python基础:注释、变量、数据类型、字符串常见的操作、Python的数据容器、遍历数据容器、其它函数
python原创 2022-03-24 22:36:41 · 463 阅读 · 0 评论 -
Hadoop安装
Hadoop安装原创 2022-03-22 19:45:33 · 3297 阅读 · 0 评论 -
redis常见命令,位图bitmap、redis缓存、redis集群搭建
redis常见命令,位图bitmap、redis集群搭建原创 2022-03-20 21:09:10 · 284 阅读 · 0 评论 -
springboot、mvc框架、面向接口开发、连接池导包
springboot、mvc框架、面向接口开发、连接池导包原创 2022-03-20 14:55:33 · 1297 阅读 · 0 评论 -
Junit、Json和kv结构的相互转化
Junit、Json和kv结构的相互转化原创 2022-03-16 21:21:31 · 1108 阅读 · 0 评论 -
MySQL:索引,事务,Java和Linux操作MySQL
MySQL:索引,事务,Java和Linux操作MySQL原创 2022-03-13 22:07:16 · 85 阅读 · 0 评论 -
MySQL:where和having、表纵向连接、select * from a,b 表横向连接、连表联查、SQL作为表使用
MySQL:where和having、表纵向连接、select * from a,b 表横向连接、连表联查、SQL作为表使用原创 2022-03-11 20:23:07 · 1464 阅读 · 0 评论 -
mysql:时间、逻辑判断(if、case when)、排序、自定义数据查询、MSQL三大范式、group分组、TopN
mysql:时间、逻辑判断(if、case when)、排序、自定义数据查询、MSQL三大范式、group分组、TopN原创 2022-03-10 21:53:27 · 2137 阅读 · 0 评论 -
MySQL:alter修改库、表和字段;添加数据;修改数据;筛选数据;查询语句;删除数据;常用函数和操作
alter修改库、表和字段;添加数据;修改数据;筛选数据;查询语句;删除数据;常用函数和操作原创 2022-03-09 21:46:26 · 6498 阅读 · 0 评论 -
MySQL安装、修改字符集,建表
MySQL:修改字符集,建表原创 2022-03-07 21:32:14 · 1433 阅读 · 0 评论 -
shell编程:流程控制语句、循环语句、键盘录入read、数组、方法、显示时间、重定向、定时器。
shell编程:if语句;for循环:是不是素数,水仙花,乘法口诀;键盘录入read、数组、方法、显示时间、重定向、定时器。原创 2022-03-04 20:34:41 · 350 阅读 · 0 评论 -
shell:$0...$n、引号、字符串命令、运算符
shell:$0...$n、引号、字符串命令、运算符原创 2022-03-03 20:48:46 · 624 阅读 · 0 评论 -
VMware打开Linux,电脑蓝屏解决办法
VMware打开Linux电脑蓝屏解决办法,三步搞定。原创 2022-03-01 09:16:55 · 3634 阅读 · 1 评论 -
Linux概述、目录结构、常用命令
Linux概述、目录结构、常用命令原创 2022-02-28 22:11:30 · 215 阅读 · 0 评论 -
网络编程:UDP传输和TCP传输
UDP传输和TCP传输原创 2022-02-23 21:39:26 · 784 阅读 · 0 评论 -
多线程:死锁问题、线程间通信、线程组、线程池、多线程实现方式(三)、使用匿名内部类实现多线程、定时器
多线程:死锁问题、线程间通信、线程组、线程池、多线程实现方式(三)、使用匿名内部类实现多线程、定时器原创 2022-02-23 16:50:17 · 239 阅读 · 0 评论 -
多线程练习,解决线程安全问题:同步安全机制,Lock锁
多线程练习,解决线程安全问题:同步安全机制,Lock锁原创 2022-02-21 21:03:22 · 102 阅读 · 0 评论 -
多线程概述,创建线程:继承Thread类、实现Runnable接口
多线程概述,创建线程:继承Thread类、实现Runnable接口原创 2022-02-20 10:39:30 · 1092 阅读 · 0 评论 -
IO流:操作基本数据类型的流,序列化、Properties集合
IO流,序列化原创 2022-02-19 21:33:32 · 493 阅读 · 0 评论 -
IO流,字节流和字符流
IO流,字节流和字符流原创 2022-02-18 21:37:24 · 283 阅读 · 0 评论