自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(33)
  • 收藏
  • 关注

原创 阿里云: Flume消费Kafka到OSS

flume配置# Name the components on this agenta1.sources = source1a1.sinks = oss1a1.channels = c1# Describe/configure the sourcea1.sources.source1.type = org.apache.flume.source.kafka.KafkaSourcea1.sources.source1.kafka.bootstrap.servers = xxxxxx:9092

2020-10-30 17:06:25 62

原创 很有意思的hive SQL面试题1

题目描述数据源是有a,b两列,然后根据b列的连续相同值,加一列序号先准备测试数据CREATE TABLE IF NOT EXISTS `test1`( yy int, nn int) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'; insert into table test1 values(2010,1);insert into table test1 values(2011,1);insert into table test1

2020-10-16 11:25:24 20

原创 大数据-初识flume

目录flume概述flume基础架构flume概述flume百度百科flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集.聚合和传输系统,基于流式架构,灵活简单flume基础架构agentagent是一个JVM进程,它以事件的形式将数据从源头送到目的地,主要由 source channel sink 三部分组成sourcesource 是负责接收数据到flume agent 的组件,source 组件可以处理各种类型,各种格式的日志数据,包括a

2020-08-17 16:09:54 26

原创 大数据-浅谈hive优化

浅谈hive调优fetch抓取本地模式表优化大小表join大表join大表MR优化并行执行严格模式JVM重用推测执行fetch抓取hive在某些情况下可以不必使用MapReduce计算,例如select * from table1;这种情况下,hive可以简单的读取table1对应的存储目录下的文件,然后输出查询结果到控制台.在hive-default.xml文件里配置,默认是more,在全局查找,字段查找,limit查找等都不走MapReduce本地模式大多数的hadoop job是需要h

2020-08-14 10:19:25 25

原创 大数据-hive入门详解

目录hive概述什么是hive?HQL转换成MR流程hive的优缺点hive的架构hive概述什么是hive?维基百科-hiveApache Hive 中文手册hive是建立在hadoop架构上的数据仓库工具,能够提供数据精炼、查询和分析,能够将结构化的数据文件映射成一张表,并提供类SQL查询功能,底层是将SQL转换成MR程序HQL转换成MR流程首先hive通过对SQL进行统计分析,将SQL语言中常用的操作用MapReduce写成很多模板,所有的MapReduce模板都封装在hive中

2020-08-13 10:16:14 81

原创 大数据-分布式锁(数据库,redis,zookeeper)

目录分布式锁的实现方式分布式锁需要考虑的问题基于数据库实现分布式锁基于数据库表实现分布式锁基于数据库排他锁实现基于Redis实现分布式锁set命令和lua脚本Redisson框架基于zookeeper实现分布式锁排他锁、共享锁及羊群效应基于Curator客户端实现分布式锁分布式锁的实现方式基于数据库实现分布式锁;基于缓存(Redis等)实现分布式锁;基于Zookeeper实现分布式锁;分布式锁需要考虑的问题在分布式环境下,同一个方法同一时间只能由一个机器的一个线程执行高可用的获取和释放锁

2020-08-06 13:40:48 62

原创 大数据-zookeeper(上)

Zookeeper概述zookeeper的wikizookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目zookeeper负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦数据发生了变更,zookeeper就负责通知已经注册的那些观察者zookeeper是一主(leader)多从(follower)组成的集群集群中只要有半数以上的节点存活,zookeeper就能正常提供服务全局数据保持一致,每个server都保存一份相同的数据副本,client不论连接到那个

2020-08-05 15:54:12 46

原创 力扣:旋转矩阵(scala)

题目描述给你一幅由 N × N 矩阵表示的图像,其中每个像素的大小为 4 字节。请你设计一种算法,将图像旋转 90 度。不占用额外内存空间能否做到? 示例 1:给定 matrix = [ [1,2,3], [4,5,6], [7,8,9]],原地旋转输入矩阵,使其变为:[ [7,4,1], [8,5,2], [9,6,3]]示例 2:给定 matrix =[ [ 5, 1, 9,11], [ 2, 4, 8,10], [13, 3.

2020-08-04 16:48:25 45

转载 大数据-redis进阶

redis持久化redis主要工作在内存中,断电后数据会清空,redis提供了两种不同级别的持久化机制.① RDB 能够在指定的时间间隔内对数据进行快照存储② AOF 记录每次对服务器写的操作,当服务器重启的时候会重新执行这些命令来恢复原始数据,AOF命令以redis协议追加保存每次写的操作到文件末尾,redis还能对AOF文件进行后台重写,使得AOF文件的体积不至于过大.同时开启两种持久化机制的时候,当redis重启的时候会优先导入AOF文件来恢复原始的数据,在通常情况下AOF文件保存的数据集.

2020-08-04 16:47:09 40

原创 大数据-Redis基础

redis维基百科Redis是一个使用ANSI C编写的开源、支持网络、基于内存、可选持久性的键值对存储数据库(非关系型数据库)。redis的特性① 远程: 分为客户端,服务端.可以分别部署到不同的机器上,通多自定义协议进行传输交互,平时说的redis通常指的是redis的服务端② 基于内存: 所有数据结构存在内存中,所有操作非常高效③ 非关系型数据库: 本质是数据库,存储数据,区别于mysqlredis的应用场景① 缓存: 当系统的接口数据比较慢的时候,...

2020-07-31 11:11:36 18

原创 力扣: 合并区间 (scala)

题目描述给出一个区间的集合,请合并所有重叠的区间。示例 1:输入: [[1,3],[2,6],[8,10],[15,18]]输出: [[1,6],[8,10],[15,18]]解释: 区间 [1,3] 和 [2,6] 重叠, 将它们合并为 [1,6].示例 2:输入: [[1,4],[4,5]]输出: [[1,5]]解释: 区间 [1,4] 和 [4,5] 可被视为重叠区间。来源:力扣(LeetCode)链接:https://leetcode-cn.com/problems.

2020-07-30 14:35:43 44

原创 大数据-hadoop之MR

MapReduce维基百科MR是一个分布式运算框架,主要分为Map和reduce两个阶段,map负责把一个任务分解成多个任务,reduce负责把分解后多个任务的处理结果汇总优缺点① 易编程,简单的实现一些接口,就可以完成一个分布式程序,可以分布到大量机器上运行.② 易扩展, 当计算力不够的时候,可以通过简单的增加机器来扩展计算能力③ 高容错, 当一个机器挂了,可以把上面的计算任务转移到另一个节点上,不至于任务失败④ 大数据量, 可以实现上千台服务器集群并发工作,提供数据处理能力缺点..

2020-07-29 14:27:49 76

原创 力扣: 寻找数组中心索引java+scala

给定一个整数类型的数组 nums,请编写一个能够返回数组 “中心索引” 的方法。我们是这样定义数组 中心索引 的:数组中心索引的左侧所有元素相加的和等于右侧所有元素相加的和。如果数组不存在中心索引,那么我们应该返回 -1。如果数组有多个中心索引,那么我们应该返回最靠近左边的那一个。示例 1:输入:nums = [1, 7, 3, 6, 5, 6]输出:3解释:索引 3 (nums[3] = 6) 的左侧数之和 (1 + 7 + 3 = 11),与右侧数之和 (5 + 6 = 11) 相等。

2020-07-28 17:00:36 80

原创 大数据-hadoop之HDFS

HDFS百度百科HDFS是个分布式文件系统,用来存储文件,通过目录树定位文件,由多台服务器联合实现HDFS的功能,适合一次写入多次读出的场景,不支持文件修改.HDFS的优缺点3.1 优点3.1.1 高容错性数据保存多个副本,提高容错性,某个副本丢失后,会自动恢复3.1.2 大数据处理能够处理数据量达到GB,TB,PB级别的数据,能够处理百万规模的文件量3.1.3 成本低可以搭建在廉价的机器上,通过多副本机制,提高可靠性3.2 缺点3.2.1 不适合低延时的数据访问,比如毫秒级的存储数.

2020-07-27 09:50:40 254

原创 大数据-Hadoop概念

Apache_Hadoop维基百科hadoop官网链接hadoop的优点3.1 高可靠hadoop维护了多个数据副本,当存储故障或计算故障时,不会导致数据丢失3.2 高扩展可以很方便的扩展节点3.3 高效率在MapReduce的思想下,hadoop是并行工作的,加快任务处理速度3.4 高容错性失败的任务重新分配执行hadoop的组成hadoop 1.x MapReduce + HDFS + Commonhadoop 2.x MapReduce + Yarn + HDFS + .

2020-07-24 14:23:44 37

原创 Linux.2- shell命令(部分)

1. shell概述shell是一个命令行解释器,接收用户操作指令,然后调用操作系统内核.shell还是一个功能丰富的编程语言2. shell解析器cat /etc/shells有 sh bash 等3. 入门操作写shell脚本, 文件首行 #!/bin/bash 指定解析器脚本的执行 sh + 绝对或相对路径如果赋予了脚本可执行权限,则可以直接使用相对路径和绝对路径执行脚本文件4. 变量系统变量直接 $JAVA_HOME显示当前shell变量: set$# 显示脚本输

2020-07-24 13:24:07 41

转载 Linux.1-常用命令(详细)

**Linux的维基百科**常用的几个top 查看内存df -h 查看磁盘存储情况iotop 查看磁盘IO读写(yum install iotop安装)iotop -o 直接查看比较高的磁盘读写程序netstat -tunlp | grep 端口号 查看端口占用情况uptime 查看报告系统运行时长及平均负载ps -aux 查看进程详细命令系统信息arch 显示机器的处理器架构uname -m 显示机器的处理器架构uname -r 显示正在使用的内核版本dmideco..

2020-07-24 09:28:00 131

原创 体育馆人流量

X 市建了一个新的体育馆,每日人流量信息被记录在这三列信息中:序号 (id)、日期 (visit_date)、 人流量 (people)。请编写一个查询语句,找出人流量的高峰期。高峰期时,至少连续三行记录中的人流量不少于100。例如,表 stadium:±-----±-----------±----------+| id | visit_date | people |±----...

2019-12-05 11:45:14 109

原创 力扣: 行程和用户

Trips 表中存所有出租车的行程信息。每段行程有唯一键 Id,Client_Id 和 Driver_Id 是 Users 表中 Users_Id 的外键。Status 是枚举类型,枚举成员为 (‘completed’, ‘cancelled_by_driver’, ‘cancelled_by_client’)。±—±----------±----------±--------±--------...

2019-12-04 16:26:33 65

原创 部门工资前三高所有员工

Employee 表包含所有员工信息,每个员工有其对应的工号 Id,姓名 Name,工资 Salary 和部门编号 DepartmentId 。±—±------±-------±-------------+| Id | Name | Salary | DepartmentId |±—±------±-------±-------------+| 1 | Joe | 85000 ...

2019-12-04 16:23:35 55

转载 LeetCode(力扣) :完全平方数

来源:力扣(LeetCode)链接:https://leetcode-cn.com/problems/perfect-squares给定正整数 n,找到若干个完全平方数(比如 1, 4, 9, 16, …)使得它们的和等于 n。你需要让组成和的完全平方数的个数最少。示例 1:输入: n = 12输出: 3解释: 12 = 4 + 4 + 4.示例 2:输入: n = 13输出: ...

2019-12-04 16:10:36 56

转载 Nginx前端埋点数据采集

参考链接http://blog.codinglabs.org/articles/how-web-analytics-data-collection-system-work.html

2019-12-04 15:35:11 484

原创 力扣LeetCode:打开转盘锁

来源:力扣(LeetCode)链接:https://leetcode-cn.com/problems/open-the-lock你有一个带有四个圆形拨轮的转盘锁。每个拨轮都有10个数字: ‘0’, ‘1’, ‘2’, ‘3’, ‘4’, ‘5’, ‘6’, ‘7’, ‘8’, ‘9’ 。每个拨轮可以自由旋转:例如把 ‘9’ 变为 ‘0’,‘0’ 变为 ‘9’ 。每次旋转都只能旋转一个拨轮的一...

2019-11-28 14:23:17 123

原创 力扣LeetCode: 岛屿数量

给定一个由 ‘1’(陆地)和 ‘0’(水)组成的的二维网格,计算岛屿的数量。一个岛被水包围,并且它是通过水平方向或垂直方向上相邻的陆地连接而成的。你可以假设网格的四个边均被水包围。示例 1:输入:11110110101100000000输出: 1示例 2:输入:11000110000010000011输出: 3读题: 1是陆地,0是水,1只有上下左右四个方向有1才能...

2019-11-25 17:33:51 128

原创 python 函数def 和 类class 基础

函数def'''python 函数def 函数名(参数列表): 函数体如果参数要指定数据类型,参数名:数据类型num : intstr1 : strlist1 : listdict1 : dictset1 : set'''def addNum(a: int, b: int, c: int): return a + b + cdef addNum2(a:...

2019-11-21 09:02:56 407

原创 python迭代器及一点点yield

python 里的可迭代对象都有以下方法 def __iter__(self, *args, **kwargs): # real signature unknown """ Implement iter(self). """ pass实现了iter(self) 函数接下来查看iter() 函数def iter(source, sentinel=Non...

2019-11-12 16:26:10 58

原创 python 条件控制&循环

ifif 语句 if…elif…else…python 里没有switch…caseif a > 10: print('a>10')elif a < 10: print('a<10')else: print('a=10')whilea = 1sum = 0while a <= 100: sum += a a...

2019-11-08 16:31:27 41

原创 python运算符

算术运算符加(+) 减(-) 乘(*) 除(/) 整除(// 向下取整)取模(%): 返回余数幂运算() : ab 表示 a的 b次方比较运算符返回True False相等(==)不等(!=)大于(>) 小于(<) 大于等于(>=) 小于等于(<=)赋值运算符赋值(=) : a=1加等(+=) : a += 1 等效于 a = ...

2019-11-08 15:42:49 36

原创 Python基本数据类型(字典 集合)

字典创建字典字典可以存储任意类型对象,存储格式是kv,kv对用冒号(:)分隔,kv对之间用逗号(,)分隔,最外层用花括号{}括起来,key在字典里类型是可hash的对象,value可以重复,key可以是数字,字符串,元组# -*- coding:utf-8 -*-dict1 = {'id':1,'name':'aa','age':23}print(type(dict1)) # <...

2019-11-08 13:55:48 70

原创 Python基本数据类型(列表 元组)

列表(list)列表创建创建列表,用方括号[]将元素括起来,逗号(,)分割,列表里的元素不需要统一类型list1 = [1,2.3,'goods']列表操作访问列表里的数据,下标访问[index]下标截取访问[start:end],前闭后开print(list1[1])print(list1[0:2])'''2.3[1, 2.3]'''增加数据 append删除数据...

2019-11-05 17:10:21 43

原创 Python基本数据类型(Number、String)

python3中有六种标椎数据类型Number(数字),String(字符串),List(列表),Tuple(元组),Set(集合),Dictionary(字典)其中不可变数据有三种: Number,String,Tuple可变数据有三种:List,Dictionary,Set定义变量python定义变量直接变量名=变量值,不需要指定变量类型,当变量值确定的时候,变量的类型就确定了,一个...

2019-11-01 16:37:32 291

原创 python基础知识

编码python3源码文件默认都是UTF-8编码,新建py文件时,文件顶头可以指定不同的编码格式# -*- coding:utf-8 -*-标识符第一个字符必须是字母或下划线_,对大小写敏感保留字 import keyword print(keyword.kwlist)注释单行注释:#多行注释:’’’ 或 “”",也可以指定一个多行字符串# 单行注释'''...

2019-10-31 15:54:38 34

原创 python准备工作

Python3准备工作版本3.6.4工具pycharm 2019.2.3链接:https://pan.baidu.com/s/1AotA1KESosQRs_fmzgnALA提取码:bdf0

2019-10-31 14:52:35 61

空空如也

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除