leson-xu
宁为代码累弯腰
不为bug点提交
展开
-
Spark和MapReduce的区别(简要版)
Spark中最核心的概念是RDD(弹性分布式数据集),近年来,随着数据量的不断增长,分布式集群并行计算(如MapReduce、Dryad等)被广泛运用于处理日益增长的数据。这些设计优秀的计算模型大都具有容错性好、可扩展性强、负载平衡、编程方法简单等优点,从而使得它们受到众多企业的青睐,被大多数用户用来进行大规模数据的处理。 但是,MapReduce这些并行计算大都是基于非循环的数据流模型,也就...原创 2019-09-08 17:43:30 · 466 阅读 · 0 评论 -
Spark----------------------SparkCore如何与HBase表(HFile)进行交互
从读取数据和写入数据两个方面:1.写入数据:(将结果RDD保存到HBase表中):TableOutputFormat:(RDD的数据变成key - value)key:rowkey,ImmutableBytesWritablevalue:Putdef saveAsNewAPIHadoopDataset(conf: Configuration): Unit(属于PairRDDFu...原创 2019-08-05 21:14:50 · 321 阅读 · 0 评论 -
什么时候数据倾斜以及怎么解决
导读相信很多接触MapReduce的朋友对’数据倾斜’这四个字并不陌生,那么究竟什么是数据倾斜?又该怎样解决这种该死的情况呢?何为数据倾斜?在弄清什么是数据倾斜之前,我想让大家看看数据分布的概念:正常的数据分布理论上都是倾斜的,就是我们所说的20-80原理:80%的财富集中在20%的人手中, 80%的用户只使用20%的功能 , 20%的用户贡献了80%的访问量 , 不同的数据字段可能的数据...转载 2019-07-27 08:57:01 · 519 阅读 · 0 评论 -
NoSQL数据库的四大分类及四大特点
主要有以下四种分类:1.key-valueRedis键值对存储,特点:查询数据块内容缓存,主要用于处理大量数据的高访问负载,也用于一些日志系统等等。2.Colunmn列式存储HBase将同一列的数据放在一起,查询非常快3.document文档存储MongoDB经典用于web项目中,与KeyValue类似,比如MongoDB主要应用在爬虫Graph图结构存储neo4j用于社...原创 2019-07-23 12:12:19 · 14433 阅读 · 0 评论 -
云HBase小组成功抢救某公司自建HBase集群,挽救30+T数据
云HBase小组成功抢救某公司自建HBase集群,挽救30+T数据 摘要: 使用过开源HBase的人都知道,运维HBase是多么复杂的事情,集群大的时候,读写压力大,配置稍微不合理一点,就可能会出现集群状态不一...原创 2019-07-31 21:49:43 · 147 阅读 · 0 评论 -
为什么说Redis是单线程的?
一、前言近乎所有与Java相关的面试都会问到缓存的问题,基础一点的会问到什么是“二八定律”、什么是“热数据和冷数据” ,复杂一点的会问到缓存雪崩、缓存穿透、缓存预热、缓存更新、缓存降级等问题,这些看似不常见的概念,都与我们的缓存服务器相关,一般常用的缓存服务器有Redis、Memcached等,而笔者目前最常用的也只有Redis这一种。如果你在以前面试的时候还没有遇到过面试官问你:为什么说Re...转载 2019-07-23 09:02:47 · 157 阅读 · 0 评论 -
spark-----------------------standlone、性能优化、job任务调度
sparkStandalone集群资源管理和任务调度的框架(类似mapreduce)主节点:Master从节点:Workerspark Application运行的过程spark程序包含2部分(Driver和Executor都是JVM进程)Driver program:程序Main,创建sparkContext对象Executor s:相当于线程池(有很多线程,每个线程可以运行一个T...转载 2019-08-04 23:09:03 · 132 阅读 · 0 评论 -
cap为什么不能同时满足三个特性
在分布式系统中一致性、可用性、分区容错性不可能三个同时满足,先来解释以下这三个原则的意思:一致性:在分布式系统中的任意一个节点都会查询到相同的信息可用性:服务一直可用,而且是正常响应时间,好的可用性主要是指系统能够很好的为用户服务,不出现用户操作失败或者访问超时等用户体验不好的情况。分区容错性:当分布式系统中一部分节点崩溃的时候,当前系统仍旧能够正常对外提供服务现在我们来证明以下为什么分布...原创 2019-07-22 14:47:50 · 308 阅读 · 0 评论 -
HBASE---------------的知识点以及工作原理的详细解释--架构
HBase架构组件从物理结构上讲,HBase由三种类型的服务器构成主从式架构。Region Servers为数据的读取和写入提供服务。当访问数据时,客户端直接和Region Servers通信。Region的分配,DDL (create, delete tables)操作有HBase Master进程处理。Zookeeper是HDFS的一部分,维护着一个活动的集群。Hadoop DataNo...转载 2019-07-30 22:35:42 · 181 阅读 · 0 评论 -
REPL----------------------什么是repl?以及如何理解
REPL ...转载 2019-08-02 20:23:02 · 12749 阅读 · 0 评论 -
Spark---------------sparkContext详解
spark简述sparkContext在Spark应用程序的执行过程中起着主导作用,它负责与程序和spark集群进行交互,包括申请集群资源、创建RDD、accumulators及广播变量等。sparkContext与集群资源管理器、work节点交互图如下:官网对图下面几点说明: (1)不同的Spark应用程序对应该不同的Executor,这些Executor在整个应用程序执行...原创 2019-08-02 20:18:49 · 502 阅读 · 0 评论 -
hive综合应用案例(自定义udf、pv分析、sqoop、azkaban、创建定时脚本)
需求:以下是代码实现:第一步:创建表、加载数据create table access_log(ip String,date String,address String)ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘\t’LINES TERMINATED BY ‘\n’;LOAD DATA LOCAL INPATH ‘/opt/data...原创 2019-07-20 21:51:27 · 737 阅读 · 1 评论 -
hive------------创建自定义函数(function)
由于Hive内置的函数不能满足业务需求,我们可以利用Java编写自定义函数.以下为我自己编写的一个例子:背景:给定一个经纬度,圈出以此坐标为圆心一定距离内的基站编码1、示例:(1)必须导入两个jar包: 如下图中绿色方框中的jar包,在网上可下载到(2)创建类必须继承UDF类(3)类必须重写evaluate方法 方法可以重载,根据自己的需求编写自己的方法(4)写好之后测试无误,...转载 2019-07-20 21:21:39 · 3747 阅读 · 0 评论 -
HBase----------------知识点及使用
1.HBase介绍特点NoSql数据库:面向列存储数据内存存储机制HBase表每行数据都有一个主键:rowkey一个表中:包含一个或多个列簇(Column Family)CF某个字段属于某个列簇,一个列簇下面可以有百万个列HBase存储数据的本质,可以理解为键值对存储:key: row+CF+column+timestampvalue:需要存储的值(值是二进制存储)...原创 2019-07-29 22:22:49 · 184 阅读 · 0 评论 -
Spark Stremming是什么?怎么理解?
1、Spark Streaming用于处理流式计算问题。能够和Spark的其他模块无缝集成。2、Spark Streaming是一个粗粒度的框架【也就是只能对一批数据指定处理方法】,核心是采用微批次架构。和Storm采用的以条处理的不同。3、Spark Streaming会运行接收器来不断的接收输入的数据流,然后根据程序配置的时间,将时间范围内的所有数据打成一个RDD,发送给Spark Co...转载 2019-08-05 21:48:58 · 337 阅读 · 0 评论 -
大数据分析-------------数据分析平台架构
数据分析平台架构从以下四个方面着手:1.数据分析流程(重点)(1)数据采集数据源:文件:csv,tsv 格式文件数据库:用户表,订单表,商品表数据流来源:服务器数据:日志服务器(用户行为数据),应用服务器(用户访问)业务数据:用户信息表、订单表、商品表爬虫数据:招聘网站、视频网站、论坛、豆瓣等实现工具:flume、sqoopkafka、kettl...原创 2019-08-05 22:19:07 · 526 阅读 · 0 评论 -
Spark和MapReduce的区别
转 mapreduce与spark的区别--内容详细 ...转载 2019-09-08 17:41:22 · 1018 阅读 · 0 评论 -
transient是什么?
@transient是java 的transient关键字的作用...原创 2019-08-12 21:35:55 · 841 阅读 · 1 评论 -
数据仓库的四个层次设计
版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。 ...转载 2019-08-16 10:52:36 · 3293 阅读 · 0 评论 -
实时数据采集架构原理(蜂巢)
原创 2019-08-16 10:48:21 · 1120 阅读 · 0 评论 -
斗鱼、饿了么大数据平台架构
1.饿了么大数据架构2.斗鱼平台架构原创 2019-08-16 10:18:58 · 556 阅读 · 0 评论 -
Spark------------------------spark核心SparkStreaming与 kafka、redis的结合
1.Apache spark核心编程集批处理(离线处理)、交互式处理和流式处理,为一体一栈式大数据解决方案Core数据式结构:分布式集合RDDSparkContext批处理(batch processing),处理数据 T + 1注意:每次数据的数据都是一个固定的数据集,而不是变化SQLDataFrame/DataSet = RDD + schemaSparkSessi...原创 2019-08-11 21:30:29 · 174 阅读 · 0 评论 -
SparkStreaming、Kafka--------------------------运行原理详解(图解)
1.SparkStreaming模块运行原理:使用场景:saprkStreaming分为多个RDD:RDD进行转换(transform函数):RDD运行Action函数:2.Kafka模块详解:3.Kafka+Flume...原创 2019-08-10 21:04:21 · 399 阅读 · 0 评论 -
Kafka-----------------功能以及部署安装
kafka的安装以及部署的详细描述 ...原创 2019-08-10 20:30:50 · 118 阅读 · 0 评论 -
基于spark的电商用户行为分析项目
1.项目需求(各项指标):- 新增用户和总用户分析新用户数据和总用户数据platform、date、browser- new_install_user计算规则:计算launch事件中,uuid的唯一个数。- total_user计算规则:同一个维度,前一天的总用户+当天新增用户。- 活跃用户分析active_user计算规则:当天所有数据中,uuid的去重个数。==========...原创 2019-08-06 20:49:55 · 5839 阅读 · 1 评论 -
Spark--------------------------sparkSQL知识点总结与hive类比
1.spark模块spark Core类比于MapReduce框架,对海量数据进行分析处理,分布式(并行计算)核心:数据结构:RDD(弹性分布式数据集)a.转换函数 transformation 调用函数之后,将一个RDD转成另外一个RDD.b.Action函数 触发一个Job的执行 (1)将分析结果返回给Driver count,first,take,collec...原创 2019-08-08 20:51:59 · 310 阅读 · 0 评论 -
大数据分析常用指标口径
常用指标口径1.新增用户定义:首次使用产品的用户即为新增用户。如何判定:在接入诸葛后,该用户第一次使用产品时,诸葛会将该用户记录下来,并将此用户定义为「新增用户」技术判定: 对比诸葛的数据库,没有出现的cookie/设备号/账号,就是新增用户。场景举例:JS的新增是只要打开网站就会记为新增,而app只有下载打开后才会被记为新增。2.活跃用户定义:使用过产品的用户如何判定:在某段时间...转载 2019-08-13 12:43:36 · 7975 阅读 · 0 评论 -
Spark---------------------spark框架的知识点及使用
1.spark框架是如何处理数据的1.hadoop MapReduce 框架并行计算的思想、分而治之的思想2. scala集合高阶函数处理数据的思想:将要分析的数据放到集合中去,然后调用集合的高阶函数去处理数据2.spark是什么Apache Spark™ is a unified analytics engine for large-scale data processing....原创 2019-08-01 22:37:03 · 213 阅读 · 0 评论 -
Redis---------------基础知识及安装
redis:简写:REmote DIctionary Server远程字典服务器https://redis.io/redis特色独特的键值对模型key-value很多数据库只能处理一种数据结构Memcached:键值对数据,键和值只能字符串,没有持久化功能mangoDB:JSON组成的文档支持的数据类型:内存存储,数据极快丰富的附加功能持久化功能发布与订阅功能:微信...原创 2019-08-01 18:01:37 · 145 阅读 · 0 评论 -
Hadoop HA(高可用)的运行原理
运行过程的原理图解:1.如何保证hdfs的高可用性:现象:因为namenode只有一个,当client访问HDFS的时候,都需要找到namenode(两个方面:读:文件在哪里;写:文件写到哪里),如果namenode挂掉,该怎么处理?解决:创建两个namonode,一个是active(被激活的),一个是standby(备胎),两个namenode存储的元数据都是一样的。2.联盟F...原创 2019-07-24 22:27:45 · 266 阅读 · 0 评论 -
Flume-----flume的使用
配置agent:#inita1.sources = s1a1.channels = c1a1.sinks = k1# sources#1、动态监控单个日志文件#a1.sources.s1.type = exec#a1.sources.s1.command=tail -F /opt/cdh5.7.6/hive-1.1.0-cdh5.7.6/logs/hive.log#a1.so...转载 2019-07-17 22:04:36 · 91 阅读 · 0 评论 -
Hive------------Hiveserver2、metastore脚本启动
#!/bin/sh# hive家目录HIVE_HOME=/opt/cdh5.7.6/hive-1.1.0-cdh5.7.6# 启动服务的时间DATE_STR=`/bin/date "+%Y%m%d%H%M%S"`# 日志文件名称(包含路径)HIVE_SERVER2_LOG=${HIVE_HOME}/logs/hiveserver2-${DATE_STR}.log/usr/b...原创 2019-07-19 22:36:22 · 638 阅读 · 0 评论 -
mysql求部门薪资前三的用户信息
方法一:select * from emp e1where (select count(distinct e2.sal) from emp e2 where e2.sal>e1.sal and e1.deptno=e2.deptno)<3order by e1.deptno,e1.sal desc方法二:select * from (select t1.*, (sele...转载 2019-07-10 14:59:57 · 187 阅读 · 0 评论 -
Hive进阶——分析窗口函数
需求:找出雇员(emp)表,各个部门工资前三个员工信息来源:Oracle,db2,Sql server等数据库,这类型数据库被金融公司使用,做一些报表。hive相关支出:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+WindowingAndAnalyticsselect ename, deptno,sal,...转载 2019-07-09 23:18:39 · 109 阅读 · 0 评论 -
count(*)、count(1)和count(列名)的区别
count是一种最简单的聚合函数,一般也是我们第一个开始学习的聚合函数,那么他们之间究竟由什么区别呢?有的人说count(1)和count(*)他们之间有区别,而有的人说他们之间没有区别那么他们之间到底有没有区别呢。从执行结果来说: count(1)和count(*)之间没有区别,因为count(*)count(1)都不会去过滤空值, 但count(列名)就有区别了,因为c...转载 2019-07-09 23:05:00 · 239 阅读 · 0 评论 -
WebLog(网页日志)的数据分析之uv(独立访客数)
网站日志分析网站基本指标:pv(page view ):网页浏览总量uv (unique view):独立访客数vv (visit view) :访客的访问次数:ip:独立的IP2.uv(计算出每个城市的独立访客数)即一天有多少人访问了网站(一个人多次访问只能算一次)代码实现:(1)WebLogMapReduce:mport org.apache.hadoop.conf.Con...原创 2019-07-03 23:59:36 · 787 阅读 · 0 评论 -
WebLog(网页日志)的数据分析之pv(网页浏览总量)
网站日志分析pv(page view ):网页浏览总量uv (unique view):独立访客数vv (visit view) :访客的访问次数:ip:独立的IP网站基本指标:1.pv(按照省份划分,算出每个省份的访问量):页面的浏览次数,衡量一个网站用户访问的页面数量,打开一个页面算1,打开多个则累加。(WebLogMapReduce):import org.apache....原创 2019-07-03 23:36:12 · 2143 阅读 · 0 评论 -
hive----------定义两个udf功能:去除字符串两端双引号和时间格式化问题
1.UDF描述:(1) 用户自定义函数(UDF)是一个允许用户扩展HiveQL的强大的功能。用户可以使用Java编写自己的UDF,一旦将用户自定义函数加入到用户会话中(交互式的或者通过脚本执行的),它们就将和内置的函数一样使用,甚至可以提供联机帮助。Hive具有多种类型的用户自定义函数,每一种都会针对输入数据执行特定“一类”的转换过程。(2)在ETL处理中,ETL(是指:ETL是将业务系...原创 2019-07-08 23:12:48 · 1978 阅读 · 0 评论 -
join、union、unionAll的区别
union在数据库运算中会过滤掉重复数据,并且合并之后的是根据行合并的,即:如果a表和b表中的数据各有五行,且有两行是重复数据,合并之后为8行。运用场景:适合于需要进行统计的运算union all是进行全部合并运算的,即:如果a表和b表中的数据各有五行,且有两行是重复数据,合并之后为10行。join是进行表关联运算的,两个表要有一定的关系。即:如果a表和b表中的数据各有五行,且有两行是重复数据...转载 2019-07-08 17:59:52 · 752 阅读 · 0 评论 -
详解MapReduce的运行原理以及如何运行在yarn上
1.MapReduce运行Yarn上详解(1)Client向Yarn主节点RM提交应用 bin/yarn jar MainClass args(2)RM在某个NM节点上启动一个Container运行AppMaster,运行应用的管理者(3)AppMaster向RM请求资源,为了运行MapReduce中所有的Task,RM将分配NM是哪个资源,并且告知AppMaster(4)AppMa...原创 2019-07-02 23:13:15 · 806 阅读 · 0 评论