
大数据
大数据
zZsS松
这个作者很懒,什么都没留下…
-
原创 大数据-初识flume
目录flume概述flume基础架构 flume概述 flume百度百科 flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集.聚合和传输系统,基于流式架构,灵活简单 flume基础架构 agent agent是一个JVM进程,它以事件的形式将数据从源头送到目的地,主要由 source channel sink 三部分组成 source source 是负责接收数据到flume agent 的组件,source 组件可以处理各种类型,各种格式的日志数据,包括a2020-08-17 16:09:5427
0
-
原创 大数据-浅谈hive优化
浅谈hive调优fetch抓取本地模式表优化大小表join大表join大表MR优化并行执行严格模式JVM重用推测执行 fetch抓取 hive在某些情况下可以不必使用MapReduce计算,例如select * from table1;这种情况下,hive可以简单的读取table1对应的存储目录下的文件,然后输出查询结果到控制台. 在hive-default.xml文件里配置,默认是more,在全局查找,字段查找,limit查找等都不走MapReduce 本地模式 大多数的hadoop job是需要h2020-08-14 10:19:2526
0
-
原创 大数据-hive入门详解
目录hive概述什么是hive?HQL转换成MR流程hive的优缺点hive的架构 hive概述 什么是hive? 维基百科-hive Apache Hive 中文手册 hive是建立在hadoop架构上的数据仓库工具,能够提供数据精炼、查询和分析,能够将结构化的数据文件映射成一张表,并提供类SQL查询功能,底层是将SQL转换成MR程序 HQL转换成MR流程 首先hive通过对SQL进行统计分析,将SQL语言中常用的操作用MapReduce写成很多模板,所有的MapReduce模板都封装在hive中2020-08-13 10:16:1487
0
-
原创 大数据-分布式锁(数据库,redis,zookeeper)
目录分布式锁的实现方式分布式锁需要考虑的问题基于数据库实现分布式锁基于数据库表实现分布式锁基于数据库排他锁实现基于Redis实现分布式锁set命令和lua脚本Redisson框架基于zookeeper实现分布式锁排他锁、共享锁及羊群效应基于Curator客户端实现分布式锁 分布式锁的实现方式 基于数据库实现分布式锁; 基于缓存(Redis等)实现分布式锁; 基于Zookeeper实现分布式锁; 分布式锁需要考虑的问题 在分布式环境下,同一个方法同一时间只能由一个机器的一个线程执行 高可用的获取和释放锁2020-08-06 13:40:4870
0
-
原创 大数据-zookeeper(上)
Zookeeper概述 zookeeper的wiki zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目 zookeeper负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦数据发生了变更,zookeeper就负责通知已经注册的那些观察者 zookeeper是一主(leader)多从(follower)组成的集群 集群中只要有半数以上的节点存活,zookeeper就能正常提供服务 全局数据保持一致,每个server都保存一份相同的数据副本,client不论连接到那个2020-08-05 15:54:1250
0
-
转载 大数据-redis进阶
redis持久化 redis主要工作在内存中,断电后数据会清空,redis提供了两种不同级别的持久化机制. ① RDB 能够在指定的时间间隔内对数据进行快照存储 ② AOF 记录每次对服务器写的操作,当服务器重启的时候会重新执行这些命令来恢复原始数据,AOF命令以redis协议追加保存每次写的操作到文件末尾,redis还能对AOF文件进行后台重写,使得AOF文件的体积不至于过大.同时开启两种持久化机制的时候,当redis重启的时候会优先导入AOF文件来恢复原始的数据,在通常情况下AOF文件保存的数据集.2020-08-04 16:47:0942
0
-
原创 大数据-Redis基础
redis维基百科 Redis是一个使用ANSI C编写的开源、支持网络、基于内存、可选持久性的键值对存储数据库(非关系型数据库)。 redis的特性 ① 远程: 分为客户端,服务端.可以分别部署到不同的机器上,通多自定义协议进行传输交互,平时说的redis通常指的是redis的服务端 ② 基于内存: 所有数据结构存在内存中,所有操作非常高效 ③ 非关系型数据库: 本质是数据库,存储数据,区别于mysql redis的应用场景 ① 缓存: 当系统的接口数据比较慢的时候, ...2020-07-31 11:11:3620
0
-
原创 大数据-hadoop之MR
MapReduce维基百科 MR是一个分布式运算框架,主要分为Map和reduce两个阶段,map负责把一个任务分解成多个任务,reduce负责把分解后多个任务的处理结果汇总 优缺点 ① 易编程,简单的实现一些接口,就可以完成一个分布式程序,可以分布到大量机器上运行. ② 易扩展, 当计算力不够的时候,可以通过简单的增加机器来扩展计算能力 ③ 高容错, 当一个机器挂了,可以把上面的计算任务转移到另一个节点上,不至于任务失败 ④ 大数据量, 可以实现上千台服务器集群并发工作,提供数据处理能力 缺点..2020-07-29 14:27:4979
0
-
原创 大数据-hadoop之HDFS
HDFS百度百科 HDFS是个分布式文件系统,用来存储文件,通过目录树定位文件,由多台服务器联合实现HDFS的功能,适合一次写入多次读出的场景,不支持文件修改. HDFS的优缺点 3.1 优点 3.1.1 高容错性 数据保存多个副本,提高容错性,某个副本丢失后,会自动恢复 3.1.2 大数据处理 能够处理数据量达到GB,TB,PB级别的数据,能够处理百万规模的文件量 3.1.3 成本低 可以搭建在廉价的机器上,通过多副本机制,提高可靠性 3.2 缺点 3.2.1 不适合低延时的数据访问,比如毫秒级的存储数.2020-07-27 09:50:40292
0
-
原创 大数据-Hadoop概念
Apache_Hadoop维基百科 hadoop官网链接 hadoop的优点 3.1 高可靠 hadoop维护了多个数据副本,当存储故障或计算故障时,不会导致数据丢失 3.2 高扩展 可以很方便的扩展节点 3.3 高效率 在MapReduce的思想下,hadoop是并行工作的,加快任务处理速度 3.4 高容错性 失败的任务重新分配执行 hadoop的组成 hadoop 1.x MapReduce + HDFS + Common hadoop 2.x MapReduce + Yarn + HDFS + .2020-07-24 14:23:4439
0