数据库部分
道法—自然
不积跬步,无以至千里;不积小流,无以成江海。——荀子
展开
-
关系型数据库和非关系型数据库,以及hive数据仓库的区别
关系型数据库:Mysql,Oracle非关系型数据库:Redis,MongoDB,HBASE类SQL数据库:hive具体地:关系型数据库(Mysql和Oracle)1.表和表、表和字段、数据和数据存在着关系优点:1.数据之间有关系,进行数据的增删改查的时候是非常方便的2.关系型数据库是有事务操作的,保证数据的完整性和一致性。缺点:1.因为数据和数据是有关系的...原创 2018-08-25 23:50:09 · 6952 阅读 · 0 评论 -
明日学习
MapReduce中的超类MapReduce的计算流程,几个partition,merge,sort基于yarn的模式SQL 语句原创 2018-11-30 00:35:20 · 229 阅读 · 0 评论 -
SQL语句中not in 和not exist的区别
in和existsin 是把外表和内表作hash 连接,而exists是对外表作loop循环,每次loop循环再对内表进行查询。一直以来认为exists比in效率高的说法是不准确的。如果查询的两个表大小相当,那么用in和exists差别不大。如果两个表中一个较小,一个是大表,则子查询表大的用exists,子查询表小的用in:例如:表A(小表),表B(大表)1:select * from A...原创 2018-09-15 09:06:50 · 25888 阅读 · 6 评论 -
求一棵树叶子结点的个数(需要修改)
#include<iostream>#define N 63 using namespace std; char str[] = "ab#d##c#e##";int i = -1; typedef struct node{ struct node *leftChild; struct node *rightChild; char data;}BiTreeNo...原创 2018-09-15 00:00:46 · 1610 阅读 · 0 评论 -
书写斐波那契数列额三种方式:递归,数组递归,正常循环
第一种普通写法public class Demo { public static void main(String[] args) { int num1 = 1; int num2 = 1; int num3 = 0; System.out.println(num1); System.out.prin...原创 2018-09-14 23:58:49 · 1187 阅读 · 0 评论 -
json格式介绍
JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式。 易于人阅读和编写。同时也易于机器解析和生成。 它基于JavaScript Programming Language, Standard ECMA-262 3rd Edition - December 1999的一个子集。 JSON采用完全独立于语言的文本格式,但是也使用了类似于C语言家族的习惯(包括C,...原创 2018-09-14 21:10:45 · 1168 阅读 · 0 评论 -
Redis常用数据类型
1. MySql+Memcached架构的问题 实际MySQL是适合进行海量数据存储的,通过Memcached将热点数据加载到cache,加速访问,很多公司都曾经使用过这样的架构,但随着业务数据量的不断增加,和访问量的持续增长,我们遇到了很多问题: 1.MySQL需要不断进行拆库拆表,Memcached也需不断跟着扩容,扩容和维护工作占据大量开发时间。 2.Memcach...原创 2018-09-14 21:10:35 · 131 阅读 · 0 评论 -
logstash从MySQL导入数据到ElasticSearch的配置
input { stdin { } jdbc { # 数据库 jdbc_connection_string => "jdbc:mysql://172.0.0.1:3306/inssa?characterEncoding=UTF-8&useSSL=false" # 用户名密码 jdbc_user => "r...原创 2018-09-18 16:41:11 · 2385 阅读 · 1 评论 -
hive的优化、调优
总之:1、使用本地模式(设置为local模式)2、提高并行度(SQL语句)3、查询的时候,用where+分区(加上分区限制)4、排序的时候,使用sort+limit限制输出5、避免使用笛卡尔积,用join on(在where中加有效的链接条件)6、大表小表联合的时候,将小表写在前7、尽量在map端做预聚合8、设置限...原创 2018-09-09 00:05:48 · 233 阅读 · 0 评论 -
hive的运行方式
原创 2018-09-09 00:06:11 · 326 阅读 · 0 评论 -
hive中创建视图、索引
原创 2018-09-08 23:24:14 · 13367 阅读 · 0 评论 -
hive lateral view
原创 2018-09-08 23:15:02 · 1717 阅读 · 0 评论 -
SQL语句
1.数据库中随机抽取数据Hive: select * from 表名 order by rand() limit 条数;Mysql: select * from 表名 order by rand() limit 条数;Oracle:select * from (select * from tableName order by dbms_random.value) where...原创 2018-09-05 08:05:26 · 140 阅读 · 0 评论 -
hive中严格模式和非严格模式的区别
hive严格模式 hive提供了一个严格模式,可以防止用户执行那些可能产生意想不到的不好的效果的查询。即某些查询在严格模式下无法执行。通过设置hive.mapred.mode的值为strict,可以禁止3中类型的查询。1)带有分区的表的查询 如果在一个分区表执行hive,除非where语句中包含分区字段过滤条件来显示数据范围,否则不允许执行。换句话说,就是...原创 2018-09-07 23:56:56 · 3364 阅读 · 0 评论 -
hive部分:hive表中加载数据的方式(四种)
注意:hive不支持insert into table values()的插入数据hive表中加载数据的四种方式1.从本地加载数据hive (hive)> create table wyp > (id int,name string, > age int,tel string) > row fo...原创 2018-08-26 00:09:55 · 5817 阅读 · 0 评论 -
hive部分;HBASE部分:hive和HBASE的区别
hive是逻辑数据仓库,分为服务器端和客户端,metostore和client,实际的表主要存储在HDFS上,内部表存储在你指定的位置,外部表是存储的映射关系,是类SQL语句。hive提供了一套QL的查询语言,以sql为基础,使用起来很方便。HBASE是数据库,nosql数据库,底层是一个物理表。HBase的查询效率很高,主要由于查询和展示结果他们两存储的时候都是列式存储 Hive...原创 2018-08-25 18:26:26 · 248 阅读 · 0 评论 -
MapReduce中计算Wordcount中map端及reduce端的设置
map端的设置: package wordcount;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hado...原创 2018-11-30 23:55:18 · 234 阅读 · 0 评论