Geek白先生-CSDN博客

原创 java基础复习题

JDK是什么？JRE是什么？a) 答：JDK：java开发工具包。JRE：java运行时环境。 Jdk包括jre，jre由jvm和java核心类库构成。什么是java的平台无关性？a) 答：Java源文件被编译成字节码的形式，无论在什么系统环境下，只要有java虚拟机就能运行这个字节码文件。也就是一处编写，处处运行。这就是java的跨平台性。在一台电脑上配置java环境，p...

2019-10-29 10:33:41 477

原创 DAO数据访问对象、构建

DAO:Data Access Objects 是针对应用程序访问数据库的统一编程接口构建DAO层1.构建模型：创建表。(在数据库层面)2.构建实体类(JavaBean):实质就是创建对象。构建包路径时，命名规范：domain、vo、ao等等特点： (1)无参的构造器。 (2)相对应的属性信息。 (3)提供相对应的getter/setter方法。 (4)...

2019-09-25 17:56:13 305

原创 JDBC概念、原理、连接数据库、工具类

概念Java DataBase Connectivity:java数据库连接技术，简称JDBC.它是使用java语言编写的一套API.为多种关系型数据库提供了统一接口。同时，也是一个“低级”接口，在其之上可以使用“高级”接口，更方便的连接数据库。目的提供一个与任何数据库连接的 java 连接界面原理JDBC负责提供接口数据库厂商使用自己数据库的特点来实现接口。程序员调用接口，实际...

2019-09-22 09:16:32 287

原创 SparkSQL执行流程、SQL执行计划、集成hive、内存分配

SparkSQL执行流程1.SQL执行过程select f1,f2,f3 from table_name where conditionStep1-Parse(解析)：首先，根据SQL语法搜素关键字(select、from、where、group by等等)，标志出projection、DataSource、filterStep2-Bind(绑定)：通过解析阶段的相关内容(projec...

2019-09-21 18:26:24 580

原创 Spark SQL查询方式、将DF注册成表、RDD转换DataSet

查询方式例一份数据如下：anne 22 NYjoe 39 COalison 35 NYmike 69 VAmarie 27 ORjim 21 ORbob 71 CAmary 53 NYdave 36 VAdude 50 CA显示df.show()【显示全部数据】df.show(5) 【传入数字n，只显示 n 行数据】select 查询调用select(列名)...

2019-09-20 19:56:45 1431

原创手动命令安装MySQL 2.7.27

官方网站下载【mysql-5.7.27-winx64.zip】解压【mysql-5.7.27-winx64.zip】至{D:\Program Files\MySQL}目录下重命名为mysql-5.7.27,安装目录为：{D:\Program Files\MySQL\mysql-5.7.27}设置环境变量修改PATH，添加D:\Program Files\MySQL\mysql-...

2019-09-16 19:46:55 276

原创 mysql查询性能的优化、查询执行流程

优化数据访问1.低效的查询：1）确认应用程序是否需要检索大量超过需要的数据。（访问太多的行，太多的列）2）确认mysql服务器是否在分析大量超过需要的数据行（尽可能避免全表扫描）2.是否向数据库请求了不需要的数据查询不需要的记录多表关联时返回全部列总是取出全部列重复查询相同的数据3.mysql是否在扫描额外的记录衡量查询开销的三个指标：响应时间包括两个层面：服务时间...

2019-09-16 11:35:38 254

原创 SparkSQL简介、创建spark SQL开发环境、创建DF三种方式、printScheme()

SparkSQLSpark SQL是Spark的一个组件，能够很好的处理结构化数据

2019-09-14 19:55:38 2040

原创使用 spark-submit 部署应用、自定义分区器、checkpoint、共享变量

spark-submit 部署应用不论使用的是哪一种集群管理器，都可以使用 spark-submit 将你的应用提交到那种集群管理器上。通过不同的配置选项，spark-submit 可以连接到相应的集群管理器上，并控制应用所使用的资源数量附加的参数：--master 表示要连接的集群管理器，后接的值如下：spark://host:port 连接到指定端口的Spark独立集群上。默认情况下...

2019-09-14 11:37:28 549

原创 spark降水量案例

计算俄罗斯100多年的降水总量，并列出降水量最多的十年；数据说明：【20674 1936 1 1 0 -28.0 0 -24.9 0 -20.4 0 0.0 2 0 OOOO】0.气象站编码1.年2.月3.日4.空气温度质量标记5.每日最低温度6.每日最低温度标记：0表示正常，1表示是存疑，9表示异常或无观测值7.每日平均温度8.每日平均温度标记：0表示正常，1...

2019-09-13 16:13:07 699

原创 MySQL三层逻辑架构、并发控制、事务

参考书籍：高性能MySQL第三版MySQL三层逻辑架构(第一层) 客户端不是MySQL独有，作用：连接数据库、认证等等(第二层) 处理引擎MySQL核心业务层，作用：查询解析、分析、优化、缓存(服务器端)和内置函数。(第三层) 存储引擎作用：负责MySQL的数据存储和提取连接管理a. 每个客户端连接服务器都会创建(拥有)一个线程。b. 处理查询操作时，均在当前单独的线程中...

2019-09-11 11:52:47 485

原创 spark写二次排序举例、行动操作、RDD缓存、RDD依赖、spark提交过程

文章目录二次排序行动操作RDD缓存（持久化）RDD依赖Spark提交过程二次排序对下面两个文件（文件行内容有多个空格分分隔）进行二次排序：文件:accounthadoop@apache 200hive@apache 550yarn@apache 580hive@apache 159hadoop@apache ...

2019-09-10 08:54:11 540

原创 Spark中的转换操作、转换算子

学习算子推荐的网站：http://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.html转换操作将当前RDD转换为新的RDD数据集，特点为惰性求值，当触发行动操作时RDD才开始执行计算。转换算子举例1.map、flatMap、distinctmap说明：将一个RDD中的每个数据项，通过map中的函数映射变为一个新的元素...

2019-09-09 15:05:09 2033

原创 Spark相关组件的说明、RDD类说明、特性、创建方式、分区列表

相关组件的说明集群管理器(ClusterMananger)：包含：Standalone、on yarn、on Mesos；遵循主从结构。Standalone：主节点的守护进程为：Master；从节点的守护进程为：Workeron yarn ：主节点的守护进程为：ResourceManager；从节点的守护进程为：Nodemanager参照【P102页】图7-1,说明：相同背景颜色的守...

2019-09-08 16:04:32 264

原创 spark简单案例、独立应用搭建——idea中基于maven构建spark应用程序

spark简单案例独立应用搭建–基于Maven构建Spark应用程序1.创建Maveng工程2.配置pom文件 <dependency> <groupId>org.apache.spark</group...

2019-09-08 07:40:45 550

原创 spark的简介、特性、环境搭建、集群管理器的搭建

spark简介定义：Apache Spark是一个用于大规模数据处理的统一分析引擎。特性：快速：针对批量和实时数据均有很好的性能具体体现在三方面：DAG调度器(Spark-core)、查询优化(SparkSQL)、物理执行引擎(钨丝计划)易用性：快速的通过java、python、scala、R等等进行应用程序开发。常见的数据操作大概为80多个。普遍性：结合不同平台的操作：S...

2019-09-06 19:39:01 154

原创 scala里的集合操作练习(2)

集合操作练习第二弹：(1) def filter(p: (T) => Boolean): Array[T]取得当前数组中符合条件的元素，组成新的数组返回val a = Array(3, 2, 3,4) val b = a.filter( {x:Int => x> 2} ) println(b.mkString(",")) //3,3,4def fil...

2019-09-05 15:50:12 242

原创在IDEA中配置maven的步骤，并创建scala类

1.官网下载 maven 压缩包，【download】->【解压压缩包】2.在配置文件下，修改默认的本地仓库存储路径，Maven会将下载的类库（jar包）放置目录【最好修改，默认是存在C盘，来减轻C盘压力】//我的路径：<localRepository>D:\develop tools\apache-maven-3.6.1\m2\repository</local...

2019-09-05 10:40:00 1045

原创 Scala里面的集合操作练习

（1） ++合并集合，并返回一个新的数组，新数组包含左右两个集合对象的内容。类型返回已左侧为准val a = Array(1,2,3)val b = Array(5,6,7)val c = a ++ bprintln(c.toList)//List(1, 2, 3, 5, 6, 7)（2）++:合并集合，右面操纵数的类型决定着返回结果的类型val a = List(1,2)v...

2019-09-04 16:57:07 1089

原创 scala的set和map、Tuple元组、函数式编程

使用set和mapTuple元组函数式编程函数式编程的特点函数式编程核心价值在于多核并行编程。1）参数私有，没有线程安全问题，这样就为分布式高并发提供了支持2）把函数做为参数3）把函数的返回值作为参数定义: 在js中方法和函数比较模糊。scala中的函数和方法不同，函数在scala中是一等公民。格式：(参数：类型):返回值类型 => { 表达式；表达式... }函...

2019-09-03 21:53:52 301

原创 Scala简介、基本语法、变量、函数定义、Array和List

Scala简介、安装Scala语言是面向对象的、面向函数的基于静态类型的编程语言安装即解压Scala的相对应版本的安装包，或者选择Scala的 .msi文件来安装，我的版本 [2.11.8]注意：1）安装目录不能有空格出现，否则可能会抛出主类找不到的异常2）必须安装jdk1.8.X以上，因为Scala的很多底层类型、语法都是调用Java的。 .scala文件会像.java文件一...

2019-09-02 23:01:34 271

原创 group by分组、排序、存储格式、UDF用户自定义函数

group by分组hive> select year(ymd),avg(price_close) from stocks where exchange1 = ‘NASDAQ’ and symbol = ‘AAPL’ group by year(ymd);排序创建测试数据hive>create table hive.test(id int,name string) row f...

2019-09-01 08:39:16 999

原创 hive项目应用——用户画像

1 . 用户id 下单时间修改日期地址手机号11723 1249488000 20160219 阳光大道101号8号楼158 13874836472 . 创建订单表；create EXTERNAL table orders(uid int,create_time int,modify_date string,address string,mobile string...

2019-08-31 22:35:17 1127

原创 MySQL几道面试题

什么是事务？特性？事务含义：作为一个单元的一组有序的数据库操作，要么全执行，要么全不执行【基本逻辑单位】原子性：整个事务中的所有操作，要么全部完成，要么全部不完成。若执行过程中发生错误则就回滚到事务开始前的状态一致性：事务开始前到结束后，数据库完整性约束没收到破坏；（实体完整性，参照完整性，用户定义的完整性）隔离性：隔离状态执行事务，让并发事务之间不会相互影响【为了防止事务操作间...

2019-08-27 22:59:15 130

原创表修改、装载数据、查询命令

hive的表修改1.alter table修改表的元数据： a.修改表名称： hive>alter table student rename to student1; b.修改表分区 hive>alter table hive.logs add partition (dt='2019-08-20',country='changchun'); hive&g...

2019-08-26 23:57:34 399

原创搭建HiveServer2

到hive的配置文件 hive-site.xml 中，配置如下内容：<property> <name>hive.server2.thrift.bind.host</name> <value>master</value>...

2019-08-26 09:27:50 506

原创 Hive的管理表、外部表、分区表、分桶

管理表管理表又称托管表、内部表，默认创建的表都是管理表案例：hive> create table if not exists stocks (exchange1 string,symbol string,ymd string) row format delimited fields terminated by ‘,’ ;hive>load data inpath ‘/user/...

2019-08-25 22:22:42 369

原创 Hive的变量和参数、数据编码、数据库定义

变量和参数客户端中的变量分四个域：hivevar (用户自定义)hiveconf（hive配置变量)env (系统环境变量）system (操作系统变量)hive>set打印所有域中的相关属性,也可以用set来修改属性值，例如：1）hive> set env:HADOOP_HOME;【打印系统环境变量HADOOP_HOME】结果：env:HADOOP_HO...

2019-08-25 00:40:00 1329

原创 Linux手动安装Mysql，再与Hive整合

Hive元数据说明首先，Hive的元数据(模型)存储在Mysql的数据库中。由BDS、TBLS、SDS表维护。其次，真正的数据将存储在{$hive.metastore.warehouse.dir}属性的目录下；创建新的DataBase，将在{$hive.metastore.warehouse.dir}属性的目录下构建相对应的dbname.db文件夹。新创建的Table，将在对应的dbna...

2019-08-22 10:01:35 403

原创 Hive的介绍、工作流程、安装部署，遇到的异常

Hive介绍Hive的官方定义：Apache Hive 数据仓库软件支持使用SQL读取、写入和管理驻留在分布式存储中的大型数据集。结构可以投影到已经存储的数据上。提供了一个命令行工具和JDBC驱动程序来将用户连接到Hive。Hive是一个数据仓库基础设施工具，用于在Hadoop中处理结构化数据。它位于Hadoop之上，可以对大数据进行汇总，便于查询和分析。所以需要Hadoop的HDFS...

2019-08-20 23:27:45 299 1

原创 partition分区

partition：用来指定map输出的key交给哪个reuducer处理默认是通过对map输出的key取hashcode对指定的reduce个数取余partition数决定reduce数，业务又决定reduce数默认情况下，作业的ReduceNum=1，每一个Reduce对应生成一个结果文件。如果ReduceNum=0，则没有reduce阶段。partition如何分区：默...

2019-08-18 16:20:16 2957

原创例题：MR求年龄文件中奇数行和偶数行的平均值

解题思路将原有的<k1,v1>(偏移量,行值) --> <k1,v1>(行号,行值)，使其按行号一行一行的读重写TextInputFormat类构建【LineNumInputFormat.class】类作用：创建行号阅读器和设置可切分重写俩个方法–>createRecordReader()return new LineNumRecordRea...

2019-08-18 11:03:47 247

原创 Mapper类的分析

作用将输入键值对<k1,v1>映射到一组中间键值对<k2,v2>，转换后的中间记录不必与输入记录的类型相同MapReduce通过每个Inputspilt（切分）生成对应的Maptask（map任务），而Inputsplit（切分）则由InputFormat类生成Mapper类中是可以得到Configuration对象，通过JobContext 上下文 getCon...

2019-08-16 00:06:23 2346

原创 MapReduce的第一道例题（计算文件中的词频）

MapRedue的思想“分而治之”MapReduce是Hadoop提供的一套分布式并行计算框架，通过键值对<key,value>进行数据传输MapReduce框架为每个提交集群的Job(作业)，通过计算InputSplit(切分)，来分配map task两个阶段：Map（映射或并行阶段）Map是将输入记录转换为中间记录，转换后的中间记录不必与输入记录的类型相同。给定的输入对...

2019-08-14 00:23:01 584

原创 URL读数据、Configuration类、HDFS 的API操作

从Hadoop URL 读取数据使用java.net.URL对象文件打开数据流，从hadoop文件系统中读取文件。让java程序能识别Hadoop中的hdfs URL方案还需要做一些工作：通过 FsUrlStreamHandlerFactory 实例调用 java.net.URL对象的 setURLStreamHandlerFactory()方法每个Java虚拟机只能调用一次这个方法，因此...

2019-08-07 00:01:10 867

原创在eclipse里配置hadoop插件

本次配置所需文件提取：链接: https://pan.baidu.com/s/14O45kJPkTA6JP83qbao2Ag 提取码: i2fq一、将hadoop-eclipse-plugin-2.6.0.jar复制到你的eclipse安装目录下plugins文件夹中二、自定义路径解压安装hadoop2.7.3【我安装的是hadoop2.7.3的版本】三、配置环境变量，配置环境变量...

2019-08-06 17:16:24 298

原创 HDFS启动流程、安全模式、checkpoint

一、分布式文件系统采用主Master/从Slaves结构1）namenode守护进程作为Master节点：维护hdfs的元数据信息[镜像文件+编辑日志]2）datanode守护进程作为Slaves节点：以Block(块)的形式存储数据。二、HDFS启动流程Loading fsimage【加载镜像文件】解释：镜像文件里存的就是元数据，默认情况下只保留最新的两个镜像文件首次加载集群时，...

2019-08-05 00:23:53 712

原创 bolck块、默认块大小的调大和调小

block介绍hadoop默认情况下，一个block块大小为128m。HDFS以block块的形式存储在集群上，默认生成三份副本，存储在【${hadoop.tmp.dir/dfs.data}】目录下HDFS中小于一个块大小的文件不会占满整个快的空间，文件有多大占多大空间块是物理存在的，以文件的形式存储在数据节点datanode中，例如：block块大小设置合理性a.磁盘存储设备：机...

2019-08-04 17:55:27 2797

原创 HDFS小总结、一些dfsadmin命令

HDFS体系结构namenode守护进程的作用1）维护hdfs集群元数据的镜像文件【fsimage】【fsimage】包括：文件属性信息，文件与blook块的对应关系，不包括块的位置信息2）维护客户端对hdfs的相关操作，并记录到edits_log3）接受来自所有datanode的心跳汇报，内容：块的信息与所属节点位置datanode守护进程的作用1）负责实时监控当前节点的运行...

2019-08-02 19:15:06 2299

原创 hadoop搭建完全分布式

搭建完全分布式具体步骤安装jdk(省略)安装hadoop(省略)配置环境变量(省略)设置无密登录(省略)设置hadoop配置文件(省略)克隆三个虚拟机【右键】–> 【管理】–> 【克隆】–> …【创建完整克隆】–> 【设置虚拟机路径】关闭防火墙$>chkconfig iptables --list修改静态IP+修改主机名...

2019-08-01 23:54:02 163

空空如也

空空如也