自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 sqlserver sql追踪、语句调优

SELECT TOP 1000 ST.text AS '执行的SQL语句', QS.execution_count AS '执行次数', QS.total_elapsed_time AS '耗时', QS.total_logical_reads AS '逻辑读取次数', QS.total_logical_writes AS '逻辑写入次数', QS.total_physical_reads AS '物理读取次数

2021-09-16 21:02:16 466

原创 Centos7下无图形界面安装 Oracle11g

在CentOS7中无图形界面安装Oracle11G R2版本一、系统准备二、安装oracle三、配置oracle监听程序四、添加数据库实例五、开机启动oracle六、测试一、系统准备物理内存不小于1G: 查看方式:# grep MemTotal /proc/meminfo可用硬盘不小于8G: 查看方式:# dfSwap分区空间不小于2G: 查看方式:# grep SwapTotal /proc/meminfo关闭防火墙# systemctl status firewa

2021-04-24 23:46:39 1435 2

原创 使用flume将csv文件导入到kafka主题(超简单)

1.首先启动zookeeper和kafka服务[root@dw data]# zkServer.sh start[root@dw data]# kafka-server-start.sh /opt/software/kafka211/config/server.properties2.查看csv文件的信息(1)文件是否有表头[root@dw data]# cat event_attendees.csv|head -1event,yes,maybe,invited,no可以看出,文件是有

2021-03-30 23:13:32 2133 5

原创 hive表按天动态分区报错

执行sql前,开启动态分区并set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstrict;set hive.exec.max.dynamic.partitions.pernode=3000;set hive.exec.max.dynamic.partitions=6000;set mapreduce.map.memory.mb=2048;set mapreduce.reduce.memory

2021-03-29 10:53:09 1208

原创 VMware虚拟机扩展Linux根目录磁盘空间(CentOS)

1、Centos 关机,选择编辑虚拟机设置,硬盘,在实用工具那里选择“扩展”点击扩展后,VMware会提示磁盘已成功扩展。您必须从客户机操作系统内部对磁盘重新进行分区和扩展文件系统。也就是说,这里扩展的磁盘空间,在操作系统里面还不可用,还没生效,需要在操作系统里面进行设置后才能使用。2、启动客户机操作系统Centos,查看磁盘情况输入指令[root@dw ~]# fdisk -lDisk /dev/sda: 107.4 GB, 107374182400 bytes, 209715200

2021-03-22 14:17:45 1101 1

原创 数据仓库——拉链表(java/hive实现)

拉链表的使用一、Java实现拉链表二、Hive实现拉链表一、Java实现拉链表技术选型:JDBC+MyBatis1)mysql建表create database mydemo;use mydemo;create table orders(orderid int primary key not null auto_increment,orderno varchar(20),orderstatus int,begintime date,overtime date);2)使用Maven

2021-03-17 22:59:11 879

原创 spark加载csv去表头的几种方法

删除表格第一行属性的方法一、返回DataFrame二、返回RDD① mapPartitionsWithIndex算子② 正则+偏函数③ 使用过滤器filter首先,我们有一份带表头的数据数据已经保存在HDFS上,先创建SparkSession和SparkContext val spark: SparkSession = SparkSession.builder() .appName("header") .master("local[*]") .getOrCreat

2021-03-03 18:46:46 2941 1

原创 虚拟机克隆教程——用于集群搭建等

克隆虚拟机教程一、克隆二、MAC地址三、hostname四、修改IP地址一、克隆搭建集群需要多台机器,可以用克隆实现快速搭建多台机器先找到要克隆的机器右键 —> 管理 —> 克隆选择虚拟机中的当前状态选择创建完整克隆更改虚拟机名称和保存路径克隆完成为了让克隆出来的虚拟机变成一个独立的新虚拟机,需要更改其MAC地址、主机名和IP地址二、MAC地址右击虚拟机 —> 设置生成一个新的MAC地址三、hostname修改hostname[root@ma

2021-01-11 18:22:36 1273

原创 Spark SQL操作外部数据源

Spark SQL一、准备工作二、Spark连接Hive三、Spark连接MySQL四、Spark连接HBase一、准备工作创建maven工程,添加pom依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi

2021-01-10 14:57:31 608

原创 JDBC——java连接mysql、hive、hbase教程

JDBC模板一、准备工作1.1、创建Maven工程1.2、修改pom文件1.3、修改Project Structure1.4、修改Settings1.5、资源文件夹二、Java连接mysql2.1、添加依赖2.2、JDBC配置文件2.3、代码编写2.4、测试三、Java连接hive3.1、添加依赖3.2、配置文件3.3、代码编写3.4、测试四、Java连接hbase4.1、添加依赖4.2、windows主机映射4.3、代码编写一、准备工作1.1、创建Maven工程工程IDMaven工作目录保

2021-01-10 13:35:00 1442

原创 UDF?UDAF?UDTF?看了你就明白!

Hive用户自定义函数一、前言1.1、简介1.2、准备工作1.3、编程步骤二、分类2.1、UDF2.2、UDAF2.3、UDTF三、扩展3.1、添加jar包方法3.2、自定义临时/永久函数一、前言1.1、简介Hive 自带了一些函数,比如:max/min 等,但是针对一些特殊业务,可能无法很好使用内置函数完成,自己可以通过自定义 UDF 来方便的扩展。当 Hive 提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF:user-defined function)。根据用

2020-12-16 12:25:08 853

原创 Hadoop之HDFS中的Java API操作

API使用一、准备工作1.1、解压1.2、环境变量1.3、新建工程1.4、依赖包1.5、测试1.6、注意事项二、使用方法2.1、HDFS 文件上传2.2、HDFS 文件下载2.3、HDFS 文件夹删除2.4、HDFS 文件名更改2.5、HDFS 文件详情查看2.6、HDFS 文件和文件夹判断2.7、HDFS 的 I/O 流操作2.7.1 文件上传2.7.2 文件下载2.8、定位文件读取一、准备工作1.1、解压解压 hadoop 安装包到非中文路径(例如:D:\users\hadoop-2.6.0-cd

2020-12-13 14:39:46 742

原创 Hadoop之分布式搭建高可用集群

步骤一、Hadoop分布式环境搭建1.虚拟机环境准备2.安装jdk1.83.安装Hadoop一、Hadoop分布式环境搭建1.虚拟机环境准备准备一台虚拟机,操作系统centos7.x配置虚拟机的静态ip修改主机名为hadoop101并进行端口映射[root@master ~]# vi /etc/hostnamemaster[root@master ~]# vi /etc/hosts192.168.247.200 master此时需要重启机器 reboot关闭防火墙[roo

2020-12-10 17:22:24 754

原创 Sqoop基本原理及常用方法

SqoopSqoop基本原理何为Sqoop?为什么需要用Sqoop?关系图架构图Sqoop可用命令Sqoop常用方法RDBMS => HDFSSqoop基本原理何为Sqoop?Sqoop(SQL-to-Hadoop)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导出到关系型

2020-11-19 23:23:23 17916 1

原创 Hive常用函数用法

Hive常用函数查看函数用法数学函数集合函数日期函数条件函数字符串函数三级目录查看函数用法命令如下:desc function extended FUNC_NAME;数学函数集合函数日期函数条件函数字符串函数三级目录...

2020-11-11 18:51:49 7782 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除