自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(50)
  • 收藏
  • 关注

原创 大数据常用正则表达式

大数据之正则表达式

2022-12-01 09:40:48 267 1

原创 拉链表实现

1 背景<  本文前面的内容时参考了'lxw的大数据田地',具体可查看最后的'参考文章',个人加入了'拉链表的回滚'部分的内容sql,如果有实践的,可以互相交流学习,谢谢  在数据仓库的数据模型设计过程中,经常会遇到这样的需求:    1.1 数据量比较大;    1.2 表中的部分字段会被update,如用户的地址,产品的描述信息,订单的状态等等;    1.3 需要查看某一个时间点或者时间段的历史快照信息,比如,查看某一个订单在历史某一个时间点的状态,比如,查看某一个用户在过.

2021-12-02 14:48:56 557

原创 Datax中txtfilereader插件使用

Datax的txtfilereader插件实践 一、介绍TxtFileReader提供了读取本地文件系统数据存储的能力。在底层实现上,TxtFileReader获取本地文件数据,并转换为DataX传输协议传递给Writer。二、配置模版?12345678910111213141516171819202122232425262728293031323334353637383940414243...

2021-11-05 09:34:07 1983

原创 java 获取本地文件的几种方式

java 获取本地文件的几种方式比较 deelless 2019-08-30 17:03:30 ...

2021-11-05 09:01:45 13384

原创 oracle查询表信息(索引,外键,列等)

oracle查询表信息(索引,外键,列等)oracle中查询表的信息,包括表名,字段名,字段类型,主键,外键唯一性约束信息,索引信息查询SQL如下,希望对大家有所帮助:1、查询出所有的用户表select * from user_tables 可以查询出所有的用户表select owner,table_name from all_tables; 查询所有表,包括其他用户表通过表名过滤需要将字母作如下处理select * from user_tables where table_name = upp

2021-02-23 09:31:52 754

原创 占位符对时间的掌控

selectCOMPNO,COMPNM,ORG3NO,ORG3NM,accountname,if(accmm=replace(’selectdate.get(0)′,′−′,′′),currentamount,0)ascurrentamount,if(accmm>if(substr(replace(′{select_date.get(0)}','-',''),current_amount,0) as current_amount, if(accmm>if(substr(rep

2020-12-03 09:11:18 214

原创 数据中台之窗口函数应用案例

标题 窗口函数的应用案例insert overwrite ads_self_special_sale_detailselect a2.fourth_daim as COMPNO, a2.fourth_name as COMPNM, a2.third_daim as ORG3NO, a2.third_name as ORG3NM, a2.second_daim as ORG2NO, a2.second_name as ORG2NM, '0' as

2020-11-17 10:48:36 214

转载 pyecharts数据可视化

Python3:pyecharts数据可视化插件一、简介pyecharts 是一个用于生成 Echarts 图表的类库。 Echarts 是百度开源的一个数据可视化 JS 库。主要用于数据可视化。二、安装pip install pyecharts在线安装不成功,采用离线插件whl安装:(1)下载:pyecharts-0.1.9.4-py2.py3-none-any.whl(2)然后进入到所咋的文件夹,执行安装命令:D:\whl>pip install pyecharts...

2020-05-25 16:54:08 1573

原创 Kmeans算法思想

一、聚类思想        所谓聚类算法是指将一堆没有标签的数据自动划分成几类的方法,属于无监督学习方法,这个方法要保证同一类的数据有相似的特征,如下图所示:        根据样本之间的距离或者说是相似性(亲疏性),把越相似、...

2020-04-28 14:51:06 3167

原创 Pandas数据处理

一、生成数据表1、首先导入pandas库,一般都...

2020-04-22 09:33:51 715

原创 Mysql8安装教程

mysql-8.0 安装教程(自定义配置文件,密码方式已修改) </h1> <div class="clear"></div> <div class="postBody"> 下载zip安装包:  MySQL8.0 For Windows zip...

2020-04-21 10:46:58 195

原创 图表配色方案

好看的图表离不开配色,好看的PPT离不开配色,好看的大屏可视化分析更离不开配色。博主平时也要做一些数据可视化分析的大屏,一般都需要对背景、图表、数据列表等区域进行配色,根据美工那边的配色推荐,博主整理了一下平时做图表、数据可视化分析大屏时会用到的配色方案,希望对他们平时做大屏展示或者做PPT时有帮助,方便大...

2020-03-05 14:40:02 1184

原创 数据仓库维度建模

概述数据仓库包含的内容很多,它可以包括架构、建模和方法论。对应到具体工作中的话,它可以包含下面的这些内容:以Hadoop、Spark、Hive等组建为中心的数据架构体系。各种数据建模方法,如维度建模。调度系统、元数据系统、ETL系统、可视化系统这类辅助系统。我们暂且不管数据仓库的范围到底有多大,在数据仓库体系中,数据模型的核心地位是不可替代的。因此,下面的将详细地阐述数据建模中的典...

2020-01-01 16:32:24 242

原创 列表,元组,字典的差异性

一.列表(list)具有以下特点: 1.可以用list()函数或者方括号[]创建,元素之间用逗号’,‘’分隔。 2.列表的元素不需要具有相同的类型 3.使用索引来访问元素 4.可切片# 可用list()函数建立list1 = list((1, 2))# 用[]建立,可包含不同数据类型list2 = [1, 3, 'hello', 3.5]# 可用下标访...

2019-12-25 08:20:39 319

原创 python实用代码

检查重复元素下面的方法可以检查给定列表中是否有重复的元素。它使用了 set() 属性,该属性将会从列表中删除重复的元素。def all_unique(lst):return len(lst) == len(set(lst))x = [1,1,2,2,3,2,3,4,5,6]y = [1,2,3,4,5]all_unique(x) # Falseall_unique(y) # T...

2019-12-11 15:48:35 2331

原创 Mysql 行转列and列转行

一、行转列即将原本同一列下多行的不同内容作为多个字段,输出对应内容。建表语句DROP TABLE IF EXISTS tb_score;CREATE TABLE tb_score(id INT(11) NOT NULL auto_increment,userid VARCHAR(20) NOT NULL COMMENT ‘用户id’,subject VARCHAR(20)...

2019-11-28 15:59:15 113

转载 一个小时学会MySQL数据库

一个小时学会MySQL数据库 </h1> <div class="clear"></div> <div class="postBody">目录一、数据库概要1.1、发展历史1.1.1、人工处理阶段1.1.2、文件系统1.1....

2019-11-20 13:14:06 1445

原创 NGINX

Nginx 同 Apache 一样都是一种 Web 服务器。基于 REST 架构风格,以统一资源描述符(Uniform Resources Identifier)URI 或者统一资源定位符(Uniform Resources Locator)URL 作为沟通依据,通过 HTTP 协议提供各种网络服务。然而,这些服务器在设计之初受到当时环境的局限,例如当时的用户规模,网络带宽,产品特点等局限并且各...

2019-11-05 19:29:26 193

转载 SQL执行顺序

很多 SQL 查询都是以 SELECT 开始的。不过,最近我跟别人解释什么是窗口函数,我在网上搜索”是否可以对窗口函数返回的结果进行过滤“这个问题,得出的结论是”窗口函数必须在 WHERE 和 GROUP BY 之后,所以不能”。于是我又想到了另一个问题:SQL 查询的执行顺序是怎样的?好像这个问题应该很好回答,毕竟自己已经写了上万个 SQL 查询了,有一些还很复杂。但事实是,我仍然很难确切地...

2019-11-04 08:23:45 96

原创 ResourceManager介绍

一、概述本文将介绍ResourceManager在Yarn中的功能作用,从更细的粒度分析RM内部组成的各个组件功能和他们相互的交互方式。二、ResourceManager的交互协议与基本职能1、ResourceManager交互协议在整个Yarn框架中主要涉及到7个协议,分别是ApplicationClientProtocol、MRClientProtocol、ContainerMana...

2019-10-30 14:06:33 2526

原创 NodeManager介绍

一 概述 NodeManager是运行在单个节点上的代理,它管理Hadoop集群中单个计算节点,功能包括与ResourceManager保持通信,管理Container的生命周期、监控每个Container的资源使用(内存、CPU等)情况、追踪节点健康状况、管理日志和不同应用程序用到的附属服务等。 NodeManager是YARN中单个节点的代理,它需要与应用程序的Applica...

2019-10-30 14:03:50 4322

原创 SQL练习1

1 重复数据处理查找重复记录SELECT * FROM userWhere (nick_name,password) in(SELECT nick_name,passwordFROM usergroup by nick_name,passwordhaving count(nick_name)>1);查找去重记录查找id最大的记录SELECT * FROM user...

2019-10-30 08:21:32 139

原创 数据库写入时float自动变为整数了

问题描述今天用python插入数据到mysql时遇到个问题,明明数据库设置的字段数据类型是float,要存的数据也是float类型,但是存进去后就变成了整数了,比如0.98变成了1.发现实现因为我创建表的sql语句有问题,因为使用Navicat直接导出的sql语句表的sql语句如下CREATE TABLE traffic_and_weather (currentTime timestam...

2019-10-24 10:55:35 1442

原创 MySQL常用命令

一、登录mysql数据库1、连接本地mysql数据库,默认端口为3306#mysql –u root –p 123456 //-u:指定用户 -p:指定与用户对应的密码2、通过IP和端口连接远程mysql服务器#mysql –u root –p 123456 –h 192.168.100.1 –P 3306二、数据库操作语句1、显示所有数据库show databa...

2019-10-23 14:56:22 256

原创 MySQL常用语法1

DISTINCT用法#SELECT DISTINCT store_name FROM db.MY WHERE Sales>1000;2.AND OR 用法#SELECT store_name,Sales FROM db.MY WHERE Sales>1000 OR (Sales<500 AND Sales>275);3.IN用法#SELECT * FROM d...

2019-10-23 14:55:17 96

原创 索引

索引是什么?索引是帮助MySQL高效获取数据的数据结构。索引能干什么?提高数据查询的效率。索引:排好序的快速查找数据结构!索引会影响where后面的查找,和order by 后面的排序。一、索引的分类1️⃣从存储结构上来划分:BTree索引(B-Tree或B+Tree索引),Hash索引,full-index全文索引,R-Tree索引。2️⃣从应用层次来分:普通索引,唯一索引,复合索...

2019-08-28 09:54:46 93

原创 Hive小结

Hive小结 HIve总结:首先要学习Hive,第一步是了解Hive,Hive是基于Hadoop的一个数据仓库,可以将结构化的数据文件映射为一张表,并提供类sql查询功能,Hive底层将sql语句转化为mapreduce任务运行。相对于用java代码编写mapreduce来说,Hive的优势明显:快速开发,人员成本低,可扩展性(自由扩展集群规模),延展...

2019-05-21 19:16:47 198

转载 sql语句练习50题(Mysql版)

表名和字段–1.学生表Student(s_id,s_name,s_birth,s_sex) --学生编号,学生姓名, 出生年月,学生性别–2.课程表Course(c_id,c_name,t_id) – --课程编号, 课程名称, 教师编号–3.教师表Teacher(t_id,t_name) --教师编号,教师姓名–4.成绩表Score(s_id,c_id,s_score) --学生...

2019-05-20 11:07:34 139

转载 nc命令用法举例

什么是ncnc是netcat的简写,有着网络界的瑞士军刀美誉。因为它短小精悍、功能实用,被设计为一个简单、可靠的网络工具nc的作用(1)实现任意TCP/UDP端口的侦听,nc可以作为server以TCP或UDP方式侦听指定端口 (2)端口的扫描,nc可以作为client发起TCP或UDP连接(3)机器之间传输文件(4)机器之间网络测速       &...

2019-05-15 21:14:08 435

转载 Redis缓存穿透、缓存雪崩、redis并发问题分析

(一)缓存和数据库间数据一致性问题分布式环境下(单机就不用说了)非常容易出现缓存和数据库间的数据一致性问题,针对这一点的话,只能说,如果你的项目对缓存的要求是强一致性的,那么请不要使用缓存。我们只能采取合适的策略来降低缓存和数据库间数据不一致的概率,而无法保证两者间的强一致性。合适的策略包括 合适的缓存更新策略,更新数据库后要及时更新缓存、缓存失败时增加重试机制,例如MQ模式的消息队列。(二)...

2019-05-07 19:46:36 77

原创 项目中JAVA_OPTS配置各个参数含义

项目中tomcat设置java_opts:JAVA_OPTS="$JAVA_OPTS -server -Xmx512m -Xms512m -Xss256K -XX:NewRatio=2 -XX:SurvivorRatio=6 -XX:+DisableExplicitGC -...

2019-05-06 08:40:29 1110

原创 Spark Streaming中的函数分析

  根据Spark官方文档中的描述,在Spark Streaming应用中,一个DStream对象可以调用多种操作,主要分为以下几类TransformationsWindow OperationsJoin OperationsOutput Operations一、Transformations1、map(func)  map操作需要传入一个函数当做参数,具体调用形式为val ...

2019-04-25 19:19:33 186

转载 Spark 2.0系列之SparkSession详解

用Spark的各项功能,用户不但可以使用DataFrame和Dataset的各种API,学习Spark的难度也会大大降低。本文就SparkSession在Spark2 0中的功能和地位加以阐释。Spark2.0中引入了SparkSession的概念,它为用户提供了一个统一的切入点来使用Spark的各项功能,用户...

2019-04-24 19:23:45 444

转载 Spark设计理念与基本架构

《深入理解Spark:核心思想与源码分析》(第2章) 《深入理解Spark:核心思想与源码分析》一书前言的内容请看链接《深入理解SPARK:核心思想与源码分析》一书正式出版上市《深入理解Spark:核心思想与源码分析》一书第一章的内容请看链接《第1章 环境准备》本文主要展示本书的第2章内容:Spark设计理念与基本架构“若夫乘天地之正,而御六气之辩...

2019-04-24 17:42:18 293

原创 Spark之shuffle机制及原理

一 概述Shuffle就是对数据进行重组,由于分布式计算的特性和要求,在实现细节上更加繁琐和复杂在MapReduce框架,Shuffle是连接Map和Reduce之间的桥梁,Map阶段通过shuffle读取数据并输出到对应的Reduce;而Reduce阶段负责从Map端拉取数据并进行计算。在整个shuffle过程中,往往伴随着大量的磁盘和网络I/O。所以shuffle性能的高低也直接决定了整个...

2019-04-23 19:59:50 215

原创 Spark源码分析

过程描述:1.通过Shell脚本启动Master,Master类继承Actor类,通过ActorySystem创建并启动。2.通过Shell脚本启动Worker,Worker类继承Actor类,通过ActorySystem创建并启动。3.Worker通过Akka或者Netty发送消息向Master注册并汇报自己的资源信息(内存以及CPU核数等),以后就是定时汇报,保持心跳。4.Maste...

2019-04-22 20:38:07 141

转载 23种设计模式全解析

一、设计模式的分类总体来说设计模式分为三大类:创建型模式,共五种:工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式,共七种:适配器模式、装饰器模式、代理模式、外观模式、桥接模式、组合模式、享元模式。行为型模式,共十一种:策略模式、模板方法模式、观察者模式、迭代子模式、责任链模式、命令模式、备忘录模式、状态模式、访问者模式、中介者模式、解释器模式。其实还有两类:并...

2019-04-20 18:38:58 189

转载 大数据基础知识思维导图

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u013816144/article/details/51511565 </div> <link rel="stylesheet" href="https://csdnimg.cn/release/phoenix/templat...

2019-04-19 07:39:02 9623

转载 Spark总结

RDD及其特点1、RDD是Spark的核心数据模型,但是个抽象类,全称为Resillient Distributed Dataset,即弹性分布式数据集。2、RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,分为多个分区,每个分区分布在集群中的不同节点上,从而让RDD中的数据可以被...

2019-04-18 20:15:37 115

原创 redis持久化

        关于Redis说点什么,目前都是使用Redis作为数据缓存,缓存的目标主要是那些需要经常访问的数据,或计算复杂而耗时的数据。缓存的效果就是减少了数据库读的次数,减少了复杂数据的计算次数,从而提高了服务器的性能。一、redis持久化----两种方式1、redis提供了两种持久化的方式,分别是RDB(Redis DataBase)...

2019-04-18 07:15:40 94

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除