所行化坦途-CSDN博客

原创 sqlserver sql追踪、语句调优

SELECT TOP 1000 ST.text AS '执行的SQL语句', QS.execution_count AS '执行次数', QS.total_elapsed_time AS '耗时', QS.total_logical_reads AS '逻辑读取次数', QS.total_logical_writes AS '逻辑写入次数', QS.total_physical_reads AS '物理读取次数

2021-09-16 21:02:16 466

原创 Centos7下无图形界面安装 Oracle11g

在CentOS7中无图形界面安装Oracle11G R2版本一、系统准备二、安装oracle三、配置oracle监听程序四、添加数据库实例五、开机启动oracle六、测试一、系统准备物理内存不小于1G: 查看方式:# grep MemTotal /proc/meminfo可用硬盘不小于8G: 查看方式:# dfSwap分区空间不小于2G: 查看方式:# grep SwapTotal /proc/meminfo关闭防火墙# systemctl status firewa

2021-04-24 23:46:39 1435 2

原创使用flume将csv文件导入到kafka主题（超简单）

1.首先启动zookeeper和kafka服务[root@dw data]# zkServer.sh start[root@dw data]# kafka-server-start.sh /opt/software/kafka211/config/server.properties2.查看csv文件的信息(1)文件是否有表头[root@dw data]# cat event_attendees.csv|head -1event,yes,maybe,invited,no可以看出，文件是有

2021-03-30 23:13:32 2133 5

原创 hive表按天动态分区报错

执行sql前，开启动态分区并set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstrict;set hive.exec.max.dynamic.partitions.pernode=3000;set hive.exec.max.dynamic.partitions=6000;set mapreduce.map.memory.mb=2048;set mapreduce.reduce.memory

2021-03-29 10:53:09 1208

原创 VMware虚拟机扩展Linux根目录磁盘空间（CentOS）

1、Centos 关机，选择编辑虚拟机设置，硬盘，在实用工具那里选择“扩展”点击扩展后，VMware会提示磁盘已成功扩展。您必须从客户机操作系统内部对磁盘重新进行分区和扩展文件系统。也就是说，这里扩展的磁盘空间，在操作系统里面还不可用，还没生效，需要在操作系统里面进行设置后才能使用。2、启动客户机操作系统Centos，查看磁盘情况输入指令[root@dw ~]# fdisk -lDisk /dev/sda: 107.4 GB, 107374182400 bytes, 209715200

2021-03-22 14:17:45 1101 1

原创数据仓库——拉链表(java/hive实现)

拉链表的使用一、Java实现拉链表二、Hive实现拉链表一、Java实现拉链表技术选型：JDBC+MyBatis1）mysql建表create database mydemo;use mydemo;create table orders(orderid int primary key not null auto_increment,orderno varchar(20),orderstatus int,begintime date,overtime date);2）使用Maven

2021-03-17 22:59:11 879

原创 spark加载csv去表头的几种方法

删除表格第一行属性的方法一、返回DataFrame二、返回RDD① mapPartitionsWithIndex算子② 正则＋偏函数③ 使用过滤器filter首先，我们有一份带表头的数据数据已经保存在HDFS上，先创建SparkSession和SparkContext val spark: SparkSession = SparkSession.builder() .appName("header") .master("local[*]") .getOrCreat

2021-03-03 18:46:46 2941 1

原创虚拟机克隆教程——用于集群搭建等

克隆虚拟机教程一、克隆二、MAC地址三、hostname四、修改IP地址一、克隆搭建集群需要多台机器，可以用克隆实现快速搭建多台机器先找到要克隆的机器右键 —> 管理 —> 克隆选择虚拟机中的当前状态选择创建完整克隆更改虚拟机名称和保存路径克隆完成为了让克隆出来的虚拟机变成一个独立的新虚拟机，需要更改其MAC地址、主机名和IP地址二、MAC地址右击虚拟机 —> 设置生成一个新的MAC地址三、hostname修改hostname[root@ma

2021-01-11 18:22:36 1273

原创 Spark SQL操作外部数据源

Spark SQL一、准备工作二、Spark连接Hive三、Spark连接MySQL四、Spark连接HBase一、准备工作创建maven工程，添加pom依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi

2021-01-10 14:57:31 608

原创 JDBC——java连接mysql、hive、hbase教程

JDBC模板一、准备工作1.1、创建Maven工程1.2、修改pom文件1.3、修改Project Structure1.4、修改Settings1.5、资源文件夹二、Java连接mysql2.1、添加依赖2.2、JDBC配置文件2.3、代码编写2.4、测试三、Java连接hive3.1、添加依赖3.2、配置文件3.3、代码编写3.4、测试四、Java连接hbase4.1、添加依赖4.2、windows主机映射4.3、代码编写一、准备工作1.1、创建Maven工程工程IDMaven工作目录保

2021-01-10 13:35:00 1442

原创 UDF?UDAF?UDTF?看了你就明白！

Hive用户自定义函数一、前言1.1、简介1.2、准备工作1.3、编程步骤二、分类2.1、UDF2.2、UDAF2.3、UDTF三、扩展3.1、添加jar包方法3.2、自定义临时/永久函数一、前言1.1、简介Hive 自带了一些函数，比如：max/min 等，但是针对一些特殊业务，可能无法很好使用内置函数完成，自己可以通过自定义 UDF 来方便的扩展。当 Hive 提供的内置函数无法满足你的业务处理需要时，此时就可以考虑使用用户自定义函数（UDF：user-defined function）。根据用

2020-12-16 12:25:08 853

原创 Hadoop之HDFS中的Java API操作

API使用一、准备工作1.1、解压1.2、环境变量1.3、新建工程1.4、依赖包1.5、测试1.6、注意事项二、使用方法2.1、HDFS 文件上传2.2、HDFS 文件下载2.3、HDFS 文件夹删除2.4、HDFS 文件名更改2.5、HDFS 文件详情查看2.6、HDFS 文件和文件夹判断2.7、HDFS 的 I/O 流操作2.7.1 文件上传2.7.2 文件下载2.8、定位文件读取一、准备工作1.1、解压解压 hadoop 安装包到非中文路径（例如：D:\users\hadoop-2.6.0-cd

2020-12-13 14:39:46 742

weixin_48482704的博客