![](https://img-blog.csdnimg.cn/20210424212213843.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
Colin_lqk的大数据之路
文章平均质量分 60
个人的大数据的记录
Colin_lqk
ETL,数据分析,大数据,数据仓库,Hadoop
展开
-
Zookeeper作业
一、基于Zookeeper实现简易版配置中心要求实现以下功能:1. 创建一个Web项目,将数据库连接信息交给Zookeeper配置中心管理,即:当项目Web项目启动时,从Zookeeper进行MySQL配置参数的拉取2. 要求项目通过数据库连接池访问MySQL(连接池可以自由选择熟悉的)3. 当Zookeeper配置信息变化后Web项目自动感知,正确释放之前连接池,创建新的连接池思路1.启动程序,使用默认的配置项zk中创建永久节点,并使用该配置连接数据库2.使用zk监听文件内容变化,当原创 2021-07-08 16:21:23 · 355 阅读 · 0 评论 -
Hbase作业
在社交网站,社交APP上会存储有大量的用户数据以及用户之间的关系数据,比如A用户的好友列表会展示出他所有的好友,现有一张Hbase表,存储就是当前注册用户的好友关系数据,如下需求 使用Hbase相关API创建一张结构如上的表 删除好友操作实现(好友关系双向,一方删除好友,另一方也会被迫删除好友) 例如:uid1用户执行删除uid2这个好友,则uid2的好友列表中也必须删除uid1 协处理器监听是针对region的操作,这两次delete会形成递归调用,使用..原创 2021-07-08 16:09:08 · 497 阅读 · 0 评论 -
Azkaban作业
现有用户点击行为数据文件,每天产生会上传到hdfs目录,按天区分目录,现在我们需要每天凌晨两点定时导入Hive表指定分区中,并统计出今日活跃用户数插入指标表中。日志文件clickloguserId click_time indexuid1 2020-06-21 12:10:10 a.html uid2 2020-06-21 12:15:10 b.html uid1 2020-06-21 13:10:10 c.html uid1 2020-...原创 2021-07-08 16:05:40 · 354 阅读 · 0 评论 -
Flink的安装部署
Flink的安装部署首先打开终端 ,在/home/xxx/ 下执行命令获取安装包:wget https://labfile.oss.aliyuncs.com/courses/3423/flink-1.10.0-bin-scala_2.11.tartar -xvf flink-1.10.0-bin-scala_2.11.tar将其解压到该目录下。如果你学习过 Spark 的话,那么你应该会觉得接下来的内容似曾相识。在 Flink 中有三种部署模式,分别是 Standalone、Yarn 模式和 K原创 2021-06-11 11:38:30 · 367 阅读 · 2 评论 -
Hadoop生态圈技术栈(中)
第一阶段模块三作业Impala作业题业务:实现:结果:Impala作业题业务背景现有收集到用户的页面点击行为日志数据,数据格式如下:用户id, 点击时间user_id click_timeA,2020-05-15 01:30:00A,2020-05-15 01:35:00A,2020-05-15 02:00:00A,2020-05-15 03:00:10A,2020-05-15 03:05:00B,2020-05-15 02:03:00B,2020-05-15 02:29:40B,原创 2021-06-09 15:07:23 · 132 阅读 · 0 评论 -
Hadoop生态圈技术栈(上)
作业题 1、找出全部夺得3连贯的队伍team,year活塞,1990公牛,1991公牛,1992公牛,1993火箭,1994火箭,1995公牛,1996公牛,1997公牛,1998马刺,1999湖人,2000湖人,2001湖人,2002马刺,2003活塞,2004马刺,2005热火,2006马刺,2007凯尔特人,2008湖人,2009湖人,2010create table t1(team string,year int)row format delim原创 2021-06-08 16:17:41 · 429 阅读 · 0 评论 -
数据倾斜问题
数据倾斜问题一、什么是数据倾斜二、数据倾斜的危害三、数据倾斜的现象四、数据倾斜的原因五、问题发现与定位1、通过 Spark Web UI2、通过 key 统计六、如何缓解数据倾斜基本思路思路1. 过滤异常数据思路2. 提高 shuffle 并行度思路3. 自定义 Partitioner思路4. 拆分 join 再 union思路5. 大表 key 加盐,小表扩大 N 倍 jion思路6. map 端先局部聚合思路7. 加盐局部聚合 + 去盐全局聚合七、Hadoop 中的数据倾斜一、什么是数据倾斜对 Sp原创 2021-06-04 14:59:48 · 277 阅读 · 0 评论 -
手写MapReduce
MapperDemopackage com.work;/** * Created by Colin_li on 2021-05-19 23:44 */import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.NullWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.i原创 2021-05-20 00:02:12 · 220 阅读 · 0 评论 -
RDD数据倾斜解决方案
数据倾斜解决方案数据倾斜的解决,跟之前讲解的性能调优,有一点异曲同工之妙。性能调优中最有效最直接最简单的方式就是加资源加并行度,并注意RDD架构(复用同一个RDD,加上cache缓存)。相对于前面,shuffle、jvm等是次要的。1.原理以及现象分析1.1. 数据倾斜怎么出现的在执行shuffle操作的时候,是按照key,来进行values的数据的输出、拉取和聚合的。同一个key的values,一定是分配到一个reduce task进行处理的。多个key对应的values,比如一共是90万。原创 2020-10-08 15:42:28 · 281 阅读 · 0 评论 -
Spark-Shuffer调优
Spark-Shuffer调优Shuffle调优一:调节 map 端缓冲区大小在 Spark 任务运行过程中,如果 shuffle 的 map 端处理的数据量比较大,但是map 端缓冲的大小是固定的,可能会出现 map 端缓冲数据频繁 spill 溢写到磁盘文件中的情况,使得性能非常低下,通过调节 map 端缓冲的大小,可以避免频繁的磁盘IO 操作,进而提升 Spark 任务的整体性能。map 端缓冲的默认配置是 32KB,如果每个 task 处理 640KB 的数据,那么会发生 640/32 = 2原创 2020-10-08 15:31:11 · 156 阅读 · 0 评论 -
OOM是什么,OOM的解决方法
1.什么是OOM?OOM,全称“Out Of Memory”,翻译成中文就是“内存用完了”,来源于java.lang.OutOfMemoryError。看下关于的官方说明: Thrown when the Java Virtual Machine cannot allocate an object because it is out of memory, and no more memory could be made available by the garbage collector. 意思就是说,当原创 2020-09-03 13:41:25 · 1082 阅读 · 0 评论 -
CentOS7安装配置、MobaXterm远程连接之大数据学习(四)
上一篇大数据学习(三)VMWare、CentOS7下载&安装一、CentOS7安装二、CentOS7配置关闭防火墙:systemctl stop firewalld查看当前防火墙状态:systemctl status firewalld开机防火墙不启动:systemctl disable firewalld编辑网络配置:vi /etc/sysconfig/network-scripts/ifcfg-ens33关闭虚拟机:shutdown now重新启动网络:systemctl st原创 2020-09-01 09:04:40 · 530 阅读 · 0 评论 -
VMWare、CentOS7下载&安装之大数据学习(三)
一、centos7下载下载centos可以访问阿里云完成centos 7.7下载(建议使用迅雷下载):CentOS7.7二、VMWare下载&安装VMware Workstation 15.5.2.15785246 官方版二、centos7安装(虚拟机配置)centos是一款操作系统,需要安装在电脑上。需要使用VMWare虚拟一台电脑再进行安装。VMWare的版本可选择15.5,如果您已安装VMWare可忽略此步骤。下载地址为:https://www.52pojie.cn/thread-1原创 2020-08-27 10:22:18 · 190 阅读 · 0 评论 -
Hadoop框架讨论大数据生态之大数据学习(二)
Hadoop框架讨论大数据生态1.1 Hadoop是什么Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),其中一个组件是HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超原创 2020-08-26 08:27:00 · 365 阅读 · 1 评论 -
大数据学习开端
Hadoop简介Hadoop产生的背景Hadoop起源于Apache Nutch项目,始于2002年,是Apache Lucene的子项目之一 。2004年,Google在“操作系统设计与实现”(Operating System Design and Implementation,OSDI)会议上公开发表了题为MapReduce:Simplified Data Processing on Large Clusters(Mapreduce:简化大规模集群上的数据处理)的论文之后,受到启发的Doug Cut原创 2020-07-13 09:27:23 · 220 阅读 · 0 评论 -
Hadoop入门之大数据学习(一)
Hadoop入门1 大数据概论1.1 大数据概念大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。最小的基本单位是bit,按顺序给出所有单位:bi原创 2020-08-24 10:44:01 · 405 阅读 · 1 评论