大数据
文章平均质量分 89
大数据
zZsS松
这个作者很懒,什么都没留下…
展开
-
大数据-初识flume
目录flume概述flume基础架构flume概述flume百度百科flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集.聚合和传输系统,基于流式架构,灵活简单flume基础架构agentagent是一个JVM进程,它以事件的形式将数据从源头送到目的地,主要由 source channel sink 三部分组成sourcesource 是负责接收数据到flume agent 的组件,source 组件可以处理各种类型,各种格式的日志数据,包括a原创 2020-08-17 16:09:54 · 152 阅读 · 0 评论 -
大数据-浅谈hive优化
浅谈hive调优fetch抓取本地模式表优化大小表join大表join大表MR优化并行执行严格模式JVM重用推测执行fetch抓取hive在某些情况下可以不必使用MapReduce计算,例如select * from table1;这种情况下,hive可以简单的读取table1对应的存储目录下的文件,然后输出查询结果到控制台.在hive-default.xml文件里配置,默认是more,在全局查找,字段查找,limit查找等都不走MapReduce本地模式大多数的hadoop job是需要h原创 2020-08-14 10:19:25 · 378 阅读 · 0 评论 -
大数据-hive入门详解
目录hive概述什么是hive?HQL转换成MR流程hive的优缺点hive的架构hive概述什么是hive?维基百科-hiveApache Hive 中文手册hive是建立在hadoop架构上的数据仓库工具,能够提供数据精炼、查询和分析,能够将结构化的数据文件映射成一张表,并提供类SQL查询功能,底层是将SQL转换成MR程序HQL转换成MR流程首先hive通过对SQL进行统计分析,将SQL语言中常用的操作用MapReduce写成很多模板,所有的MapReduce模板都封装在hive中原创 2020-08-13 10:16:14 · 451 阅读 · 0 评论 -
大数据-分布式锁(数据库,redis,zookeeper)
目录分布式锁的实现方式分布式锁需要考虑的问题基于数据库实现分布式锁基于数据库表实现分布式锁基于数据库排他锁实现基于Redis实现分布式锁set命令和lua脚本Redisson框架基于zookeeper实现分布式锁排他锁、共享锁及羊群效应基于Curator客户端实现分布式锁分布式锁的实现方式基于数据库实现分布式锁;基于缓存(Redis等)实现分布式锁;基于Zookeeper实现分布式锁;分布式锁需要考虑的问题在分布式环境下,同一个方法同一时间只能由一个机器的一个线程执行高可用的获取和释放锁原创 2020-08-06 13:40:48 · 255 阅读 · 0 评论 -
大数据-zookeeper(上)
Zookeeper概述zookeeper的wikizookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目zookeeper负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦数据发生了变更,zookeeper就负责通知已经注册的那些观察者zookeeper是一主(leader)多从(follower)组成的集群集群中只要有半数以上的节点存活,zookeeper就能正常提供服务全局数据保持一致,每个server都保存一份相同的数据副本,client不论连接到那个原创 2020-08-05 15:54:12 · 195 阅读 · 0 评论 -
大数据-redis进阶
redis持久化redis主要工作在内存中,断电后数据会清空,redis提供了两种不同级别的持久化机制.① RDB 能够在指定的时间间隔内对数据进行快照存储② AOF 记录每次对服务器写的操作,当服务器重启的时候会重新执行这些命令来恢复原始数据,AOF命令以redis协议追加保存每次写的操作到文件末尾,redis还能对AOF文件进行后台重写,使得AOF文件的体积不至于过大.同时开启两种持久化机制的时候,当redis重启的时候会优先导入AOF文件来恢复原始的数据,在通常情况下AOF文件保存的数据集.转载 2020-08-04 16:47:09 · 227 阅读 · 1 评论 -
大数据-Redis基础
redis维基百科Redis是一个使用ANSI C编写的开源、支持网络、基于内存、可选持久性的键值对存储数据库(非关系型数据库)。redis的特性① 远程: 分为客户端,服务端.可以分别部署到不同的机器上,通多自定义协议进行传输交互,平时说的redis通常指的是redis的服务端② 基于内存: 所有数据结构存在内存中,所有操作非常高效③ 非关系型数据库: 本质是数据库,存储数据,区别于mysqlredis的应用场景① 缓存: 当系统的接口数据比较慢的时候,...原创 2020-07-31 11:11:36 · 160 阅读 · 0 评论 -
大数据-hadoop之MR
MapReduce维基百科MR是一个分布式运算框架,主要分为Map和reduce两个阶段,map负责把一个任务分解成多个任务,reduce负责把分解后多个任务的处理结果汇总优缺点① 易编程,简单的实现一些接口,就可以完成一个分布式程序,可以分布到大量机器上运行.② 易扩展, 当计算力不够的时候,可以通过简单的增加机器来扩展计算能力③ 高容错, 当一个机器挂了,可以把上面的计算任务转移到另一个节点上,不至于任务失败④ 大数据量, 可以实现上千台服务器集群并发工作,提供数据处理能力缺点..原创 2020-07-29 14:27:49 · 1121 阅读 · 0 评论 -
大数据-hadoop之HDFS
HDFS百度百科HDFS是个分布式文件系统,用来存储文件,通过目录树定位文件,由多台服务器联合实现HDFS的功能,适合一次写入多次读出的场景,不支持文件修改.HDFS的优缺点3.1 优点3.1.1 高容错性数据保存多个副本,提高容错性,某个副本丢失后,会自动恢复3.1.2 大数据处理能够处理数据量达到GB,TB,PB级别的数据,能够处理百万规模的文件量3.1.3 成本低可以搭建在廉价的机器上,通过多副本机制,提高可靠性3.2 缺点3.2.1 不适合低延时的数据访问,比如毫秒级的存储数.原创 2020-07-27 09:50:40 · 479 阅读 · 0 评论 -
大数据-Hadoop概念
Apache_Hadoop维基百科hadoop官网链接hadoop的优点3.1 高可靠hadoop维护了多个数据副本,当存储故障或计算故障时,不会导致数据丢失3.2 高扩展可以很方便的扩展节点3.3 高效率在MapReduce的思想下,hadoop是并行工作的,加快任务处理速度3.4 高容错性失败的任务重新分配执行hadoop的组成hadoop 1.x MapReduce + HDFS + Commonhadoop 2.x MapReduce + Yarn + HDFS + .原创 2020-07-24 14:23:44 · 135 阅读 · 0 评论