不言尘世-CSDN博客

原创 hive常用命令总结（亲测有效）

气死，这是第二遍总结了，第一遍刚总结完，就被臭宝给直接退出了，无语，再来一次。首先简单的说一下hive是个什么东西，能用来在做什么。hive其实就是一个数据库，在大数据时代，常用来构建数据仓库。简称数仓，当然，我以前也做过数据仓库的项目，但是都是用oracle来写的。既然是数据库，那么也离不开sql，hive中的sql又叫hql，所以排除API编写和底层原理的话，学习起来的学习成本不是很高。那么就再总结一次hive常用命令吧，之余hive的性能调优，之前也写了一部分，有兴趣的伙伴可以去瞅瞅哈。就从最简单

2021-05-31 23:07:26 2441

原创 hive性能调优（亲测有效）

今天总结一下有关hive的性能调优，一下测试在本地环境，单节点模式（非高可用）进行测试，影响因素也可能和个人电脑配置有关，但是经过一系列配置，性能还是提升了不少。关于hive调优，首先要对hive运行原理有了解。通晓原理，从根本进行调优。 hive的基本运行原理：HQL——> Job——> Map/Reduce。通过以上基本原理，我们可以从以下三个方面进行调优，HQL语句调优，job任务调优，map/reduce阶段调优。重点说一下job和map/reduce优化。1 JOB优化.

2021-05-10 22:03:23 1664

转载 python入门基础

Python入门基础- IDLE是一个Python Shell，基本上来说是一个通过键入文本与程序交互的途径一、基础语法- 输出 print() 正确写法： print('hello world') #hello world print("hello world") #hello world print("hello world"); #hello world print("hello"+"world") #helloworld print(

2021-04-01 10:14:40 258

转载 XHR发送数据后端接收不到

一下呢，是最近开发中遇到的一个问题，幸好有同事帮助，这是她写的一篇博客，附上她的博客地址，大家感兴趣的话，可以去看看她的博客，还是非常棒的：https://blog.csdn.net/qq_45988641/article/details/111684372XHR发送数据后端接收不到post请求，通过XMLHttpRequest.setRequestHeader()设置请求头，服务器通过Content-Type，得到请求数据的类型，然后进行解析xhr属性值textml ： HTML格式tex

2020-12-25 16:03:17 1170

原创 SSH框架 Bean property * is not writable or has an invalid setter method错误分析与解决方法

最近是真的烦，从未接触过ssh框架项目，并且也基本一年没做java开发了，从上手到开发，几个星期以来，问题不断，但是最后还是能一一解决，佩服我自己，这段时间就分享一下我做ssh框架项目开发遇到的问题吧做完配置好action路径，今天就报了这样的错：org.springframework.beans.NotWritablePropertyExcep tion：Bean property 'SysUserService' is not writable or has an invalid setter me

2020-12-04 18:10:59 1607

原创 org.apache.catalina.core.StandardContext filterStart

最近在开发ssh框架的项目，一个问题突然卡住了，eclips卡死重启，然后tomcat启动失败，一下是失败的的截图：然后开始分析原因，通过报错不难发现，其中一个struts文件中的package的name和另一个struts文件重名了，导致启动失败，这个时候，如果单纯的去修改package的name名，是没有效果的最好的方式是：如上图，点击clear，清除项目，然后修改packag中的name名称，重新编译运行，即可成功...

2020-12-03 23:33:20 906

转载 ServletContextListener使用详解（监听Tomcat启动、关闭）

ServletContextListener使用详解（监听Tomcat启动、关闭）远古007 2018-07-02 00:05:19 ...

2020-09-28 22:00:54 155

转载手把手教你整合最优雅SSM框架：SpringMVC + Spring + MyBatis

在写代码之前我们先了解一下这三个框架分别是干什么的？相信大以前也看过不少这些概念，我这就用大白话来讲，如果之前有了解过可以跳过这一大段，直接看代码！SpringMVC：它用于web层，相当于controller（等价于传统的servlet和struts的action），用来处理用户请求。举个例子，用户在地址栏输入http://网站域名/login，那么springmvc就会拦截到这个请求，并且调用controller层中相应的方法，（中间可能包含验证用户名和密码的业务逻辑，以及查询数据库操作，但这些都不

2020-09-13 23:02:27 191 2

原创 oracle 异常详解（亲测有效）

最近接触到oracle存储，用到了一些异常处理，索性在这总结一下吧一常用异常分类自定义异常预定义异常（常用异常）捕获oracle错误异常异常的SQLCode 和 SQL Errm格式例外:(意外)程序运行的过程发生异常,相当于是JAVA中的异常 declare --声明变量 begin --业务逻辑 exception --处理异常 when 异常1 then ... wh

2020-09-04 17:06:49 1217

原创 oracle查询题

--oracle测试语句select /*student (学生表)学生编号：sno学生姓名：sname学生年纪：sage学生性别：ssex---------------------teacher(老师表)老师编号：tno老师姓名：tname-----------------------course(课程表)课程编号：cno课程名字：cname对应的老师编号：tno------------------------sc(学生成绩表)学生编号：sno课程编号：cno学.

2020-08-19 15:02:56 185

原创 oracle 从一个用户数据拷贝到另一个用户中

1、登录scott用户。2、给baisystem用户赋予查询emp表的权限：grant select on emp to system;3、登录system用户。4、执行以下语句：creat table emp as select * from scott.emp;亲测有效哦

2020-07-31 15:48:54 1440

原创通过dblink拉去远程oracle数据到本地数据库（亲测有效）

一在本地数据库创建dblinkcreate database link DBLINK_TEST connect to 远程数据库用户名 identified by “远程数据库用户名密码” using ‘远程数据库ip:1521/dwdb’;二测试连接select * from 远程数据库表名@DBLINK_TEST;三从远程数据库拉去数据到本地create table 表名 as select * from 远程数据库表名@DBLINK_TEST;...

2020-07-31 15:47:24 398

原创 Cognos Framework manager 配置oracle数据源失败UDA-SQL-0532

最近在做BI Cognos报表系统，装了一下这个环境，不是很顺利，遇到了很多问题，今天来总结一下：第一个问题：因为Cognos 只支持32位的Oracle客户端，所以将64位的Oracle客户端换成32位的第二个问题：当换成32位的Oracle客户端时，报错如下：将Oracle客户端的tnsnames.oRA文件添加如下配置：最好将服务器端的相同文件默认配置即可。之前我也配过服务器端的tnsnames.oRA文件。但是还是失败的。以上就是我装Cognos遇到的问题，希望有用...

2020-07-12 22:35:15 728

转载 spark submit参数调优

在开发完Spark作业之后，就该为作业配置合适的资源了。Spark的资源参数，基本都可以在spark-submit命令中作为参数设置。很多Spark初学者，通常不知道该设置哪些必要的参数，以及如何设置这些参数，最后就只能胡乱设置，甚至压根儿不设置。资源参数设置的不合理，可能会导致没有充分利用集群资源，作业运行会极其缓慢；或者设置的资源过大，队列没有足够的资源来提供，进而导致...

2020-06-20 20:09:14 237

原创 mapreduce的工作流程

MapReduce 就是将输入进行分片，交给不同的 Map 任务进行处理，然后由 Reduce 任务合并成最终的解。MapReduce 的实际处理过程可以分解为 Input、Map、Sort、Combine、Partition、Reduce、Output 等阶段，具体的工作流程如图 1 所示。在 Input 阶段，框架根据数据的存储位置，把数据分成多个分片（Splk），在多个结点上并行处理。Map 任务通常运行在数据存储的结点上，也就是说，框架是根据数据分片的位置来启动 Map 任务的，而不是把数据

2020-06-16 21:17:03 871

原创 OLAP和OLTP的区别

当今的数据处理大致可以分成两大类**：联机事务处理 OLTP（on-line transactionprocessing）、联机分析处理 OLAP（On-Line Analytical Processing）**。OLTP 是传统的关系型数据库的主要应用，主要是基本的、日常的事务处理，例如银行交易。OLAP 是数据仓库系统的主要应用，支持复杂的分析操作，侧重决策支持，并且提供直观易懂的查询结果。二者的主要区别对比如下表所示。...

2020-06-12 20:07:48 435 1

转载 kafka如何保证数据不丢失

Guide哥2020年03月16日阅读 4974关注面试官问我如何保证Kafka不丢失消息?我哭了！kafka如何保证不丢消息ps:这篇文章自我感觉说的很大白话了！希望你们看过了之后能有收获。不了解 Kafka 的朋友建议先看一看我的下面这几篇文章，第一篇一定要看，其他的可以按需学习。入门篇！大白话带你认识 Kafka！5分钟带你体验一把 KafkaKafka系列第三篇！10 分钟学会如何在 Spring Boot 程序中使用 Kafka 作为消息队列?生产者丢失消息的情况生产者(Prod

2020-06-10 20:46:59 644

原创 hive 调优

1 1 Fetch抓取1）理论分析Fetch抓取是指，Hive中对某些情况的查询可以不必使用MapReduce计算。例如：SELECT * FROM employees;在这种情况下，Hive可以简单地读取employee对应的存储目录下的文件，然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是more，老版本hive默认是minimal，该属性修改为more以后，在全局查找、字段查找、limit查找等都不走m

2020-06-10 11:02:15 158

转载 Apache Atlas安装和配置

阿里云携手百名商业领袖、技术大咖，带您一探行进中的数字新基建！>>> <p> </p> Atlas概述 Apache Atlas为组织提供开放式元数据管理和治理功能，用以构建其数据资产目录，对这些...

2020-06-08 10:57:17 2887 1

转载 mysql导入导出sql文件

window下1.导出整个数据库mysqldump -u 用户名 -p 数据库名 > 导出的文件名mysqldump -u dbuser -p dbname > dbname.sql2.导出一个表mysqldump -u 用户名 -p 数据库名表名> 导出的文件名mysqldump -u dbuser -p dbname users> dbname_users.sql3.导出一个数据库结构mysqldump -u dbuser -p -d --add-...

2020-06-08 08:37:47 150

转载 MYSQL数据库加固

收集整理比较全面的MYSQL数据库加固MYSQL数据库加固指导手册1. 数据库存放位置检查windows系统：数据库不可以放在C盘linux系统：数据库文件不可以存放在 /,/var,/usr目录内#连上mysql数据，mysql -uroot -p --回车输入密码select @@datadir;#或show variables where variable_name=‘datadir’;加固方法#设置指定安全的路径set global datadir='路径...

2020-06-07 13:42:34 648

原创 ansible命令详解

1.comand模块（默认模块）用于在远程主机(被管理的主机)上执行某个命令注：A. 不能变量$HOME和操作等"<"，">"，"|"，";“和”&"#在默认家目录下创建一个 ansible.txt的文件[root@cdhnode1 ~]# ansible all -m command -a " touch ansible.txt "#指定切换到/home/zx目录下，再创建一个ansible.txt的文件[root@cdhnode1 ~]# ansibl

2020-06-07 12:57:07 2122

转载 MySQL索引与查询优化

目录About MySQLWhy MySQLMySQL IndexWhy Index索引是如何工作的如何使用创建索引查看索引删除索引索引的使用原则写操作比较频繁的列慎重加索引索引越多占用磁盘空间越大不要为输出列加索引考虑维度优势对短小的值加索引为字符串前缀加索引复合索引的左侧索引索引加锁覆盖索引聚簇索引选择合适的索引类型查询优化建议使用explain分析查询语句select_typetypeKeypossible_keysre.

2020-06-06 12:06:25 126 2

转载 HBase之Rowkey设计总结

HBase之Rowkey设计总结及易观方舟实战篇 ...

2020-06-05 15:41:36 559

原创 kafka分区分配策略

1 Range在 Kafka内部存在两种默认的分区分配策略：Range和 RoundRobin。Range是默认策略。Range是对每个Topic而言的（即一个Topic一个Topic分），首先对同一个Topic里面的分区按照序号进行排序，并对消费者按照字母顺序进行排序。然后用Partitions分区的个数除以消费者线程的总数来决定每个消费者线程消费几个分区。如果除不尽，那么前面几个消费者线程将会多消费一个分区。例如：我们有10个分区，两个消费者（C1，C2），3个消费者线程，10 / 3 = 3而且

2020-06-05 09:59:23 447

转载 Hive文件格式（表stored as 的五种类型）

Hive文件格式（表stored as 的五种类型） ...

2020-05-31 16:36:58 1162

原创数据仓库建模

1 ODS 层层（1）保持数据原貌不做任何修改，起到备份数据的作用。（2）数据采用压缩，减少磁盘存储空间（例如：原始数据 100G，可以压缩到 10G 左右）（3）创建分区表，防止后续的全表扫描2 DWD 层DWD 层需构建维度模型，一般采用星型模型，呈现的状态一般为星座模型。维度建模一般按照以下四个步骤：选择业务过程 → 声明粒度 → 确认维度 → 确认事实** （1 ）选择业务过程**在业务系统中，挑选我们感兴趣的业务线，比如下单业务，支付业务，退款业务，物流业务，一条业务线对应一

2020-05-30 20:16:54 482

原创数据仓库之维度表和事实表

1 维度表维度表：一般是对事实的描述信息。每一张维表对应现实世界中的一个对象或者概念。例如：用户、商品、日期、地区等。维表的特征： 维表的范围很宽（具有多个属性、列比较多） 跟事实表相比，行数相对较小：通常< 10 万条 内容相对固定：编码表时间维度表：2 事实表事实表中的每行数据代表一个业务事件（下单、支付、退款、评价等）。“事实”这个术语表示的是业务事件的度量值（可统计次数、个数、件数、金额等），例如，订单事件中的下单金额。每一个事实表的行包括：具有可加性

2020-05-30 20:03:57 10380

转载 HIVE中get_json_object与json_tuple使用

HIVE中get_json_object与json_tuple使用 ...

2020-05-29 16:18:34 386

原创数据仓库之数仓理论（1）

1 范式概念1）定义范式可以理解为设计一张数据表的表结构，符合的标准级别。规范和要求2）优点关系型数据库设计时，遵照一定的规范要求，目的在于降低数据的冗余性。为什么要降低数据冗余性？（1）十几年前，磁盘很贵，为了减少磁盘存储。（2）以前没有分布式系统，都是单机，只能增加磁盘，磁盘个数也是有限的（3）一次修改，需要修改多个表，很难保证数据一致性3）缺点范式的缺点是获取数据时，需要通过 Join 拼接出最后的数据。4）分类目前业界范式有：第一范式(1NF)、第二范式(2NF)、第三范

2020-05-28 22:30:29 385

原创数据仓库之数仓分层

1 为什么要分层1.1 把复杂问题简单化，将复杂的任务分解成多层来完成，每一层只处理简单的任务，方便定位问题。1.2 减少重复开发：规范数据分层，通过中间层数据，能够减少极大的重复计算，增加一次计算结果的复用性。1.3 隔离原始数据：不论是数据的异常还是数据的敏感性，使真实数据与统计数据解耦开2 数据集市与数据仓库概念2.1 数据集市（Data Market），现在市面上的公司和书籍对数据集市有不同的概念。数据集市侧是一种微型的数据仓库，它通常有更少的数据，更少的主题区域，以及更少的历史

2020-05-28 21:38:28 1749 1

原创 Flume采集数据到hdfs，文件开头有乱码

今天遇到这样的一个问题，flume拉取kafka数据，下沉到hdfs中，然后存取到hive中。是可以存进去的，但是执行查询语句。出现下面这样的代码或者存进去后，查询出现下面这样的问题SEQ!org.apache.hadoop.io.LongWritable"org.apache.hadoop.io.BytesWritable��6Xz�i��;�z 后来查询资料说，flume采集数据下沉到hdfs，有默认的文件格式，hdfs.fileType默认为SequenceFile，将其改为DataSt

2020-05-28 16:00:58 695

原创 Spark连接数据库（查询，将数据插入数据库）

1 需要的maven包： <dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <version>6.0.6</version> </dependency>2 代码import java.sql.{Connection, DriverManager

2020-05-27 21:58:49 661 1

原创 Flume内存优化

1）问题描述：如果启动消费Flume抛出如下异常ERROR hdfs.HDFSEventSink: process failedjava.lang.OutOfMemoryError: GC overhead limit exceeded2）解决方案步骤：（1）在hadoop102服务器的/opt/module/flume/conf/flume-env.sh文件中增加如下配置export JAVA_OPTS="-Xms100m -Xmx2000m -Dcom.sun.management.jmxr

2020-05-26 09:06:27 1310

原创 kafka 压力测试

1）Kafka压测用Kafka官方自带的脚本，对Kafka进行压测。Kafka压测时，可以查看到哪个地方出现了瓶颈（CPU，内存，网络IO）。一般都是网络IO达到瓶颈。kafka-consumer-perf-test.shkafka-producer-perf-test.sh2）Kafka Producer压力测试（1）在/opt/module/kafka/bin目录下面有这两个文件。我们来测试一下[atguigu@hadoop102 kafka]$ bin/kafka-producer-pe

2020-05-25 13:40:44 298

原创 Spark 数据保存与读取

Spark的数据读取及数据保存可以从两个维度来作区分：文件格式以及文件系统。文件格式分为：Text文件、Json文件、Csv文件、Sequence文件以及Object文件；文件系统分为：本地文件系统、HDFS、HBASE以及数据库。1 文件类数据读取与保存1）数据读取:textFile(String) sc.textFile("hdfs://clusterldg:8020/user/sheng/spark/spart.txt").count()res38: Long = 5scala>

2020-05-21 16:00:57 426

原创 Spark 键值对RDD数据分区器

Spark目前支持Hash分区和Range分区，用户也可以自定义分区，Hash分区为当前的默认分区，Spark中分区器直接决定了RDD中分区的个数、RDD中每条数据经过Shuffle过程属于哪个分区和Reduce的个数注意：(1)只有Key-Value类型的RDD才有分区器的，非Key-Value类型的RDD分区器的值是None(2)每个RDD的分区ID范围：0~numPartitions-1，决定这个值是属于那个分区的。1 获取RDD分区可以通过使用RDD的partitioner 属性来获取 R

2020-05-21 15:37:12 201

原创 spark RDD缓存机制

RDD通过persist方法或cache方法可以将前面的计算结果缓存，默认情况下 persist() 会把数据以序列化的形式缓存在 JVM 的堆空间中。但是并不是这两个方法被调用时立即缓存，而是触发后面的action时，该RDD将会被缓存在计算节点的内存中，并供后面重用通过查看源码发现cache最终也是调用了persist方法，默认的存储级别都是仅在内存存储一份，Spark的存储级别还有好多种，存储级别在object StorageLevel中定义的。在存储级别的末尾加上“_2”来把持久化数据存为

2020-05-21 15:20:37 517

转载 Hbase通过命令将数据批量导入的方法

Hbase通过命令将数据批量导入的方法 ...

2020-05-20 16:33:40 1267

原创 Kafka Stream数据清洗案例（亲测有效）

0）需求：实时处理单词带有”>>>”前缀的内容。例如输入”atguigu>>>ximenqing”，最终处理成“ximenqing”1）需求分析：2）案例实操需要的maven包：<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.ap

2020-05-20 16:03:14 1118

web项目演讲评分统计.rar

空空如也