大数据
夜色如墨
夜以继日
展开
-
Flume的Channel类别
Memory:内存通道,这个channel是将数据临时存储在内存中的,特点是读写快但是不可靠,如果考虑吞吐量,那么推荐使用Memory Channel。其常用参数有Capacity表示信道存储的最大事件数量,默认为100,建议实际工作调整为10万;transactionCapacity表示每个事务的最大事件数,默认为100,建议实际工作调整为1000~3000File:文件通道,这个channel将数据临时存储在硬盘中,特点是可靠但是读写速度相对较慢,如果考虑数据的稳定性,推荐使用JDBS:将数据临时.原创 2021-03-30 11:21:48 · 515 阅读 · 0 评论 -
Flume的Source类别
AVRO:接收被AVRO序列化之后的数据,结合AVRO sink可以实现多级、扇入、扇出等流动模型Exec:将一个命令的执行结果作为日志进行收集Spooling Dictionary:监听指定的目录,如果该目录下产生了新文件,会自动收集新文件中的内容Netcat:用于监听TCP请求,将TCP请求的内容作为日志收集起来HTTP:监听HTTP请求,但是只能监听GET和POST两种,然而对于GET请求的监听不稳定,所以在实际开发中一般只用这个source来监听POST请求Sequence Genera.原创 2021-03-30 11:12:02 · 132 阅读 · 0 评论 -
log4j+flume+HDFS实现日志存储
Flume配置文件apache-flume-1.7.0-bin/data/weblog.confa1.sources = s1a1.channels = c1a1.sinks = k1a1.sources.s1.type = avroa1.sources.s1.bind = 0.0.0.0a1.sources.s1.port = 44444//配置拦截器a1.sources.s1.interceptors = i1a1.sources.s1.interceptors.i1.type =原创 2020-09-01 19:58:29 · 137 阅读 · 0 评论 -
Flume基础知识
一:简介Flume是Cloudera公司开发的后来贡献给了Apache的一套用于分布式、可靠的进行日志收集、汇聚、传输的系统Flume的版本更新缓慢但是稳定Flume的版本a. Flume0.9:对线程的并发和安全性支持不好b. Flume1.0:对并发性和安全性支持较好,并且提供了更好的分布式的扩展性二:基本概念Event:a. Flume会将收集到每一条日志封装成Event对象,所以一个Event就是一条日志b. Event的本质是json串,即Flume将收集到的原创 2020-08-21 13:56:39 · 134 阅读 · 0 评论 -
Hadoop基础知识大杂烩
大数据的概述大数据5V特征数据体量大(体积大):VOLUME数据的种类和来源多:VARIETY种类:结构化、半结构化、非结构化数据的增长速度越来越快:VELOCITY数据的价值密度越来越低:VALUE数据的真实性:VERACITYHadoopHadoop简介由Yahoo!开发的后来贡献给Apache的一套开源的、可靠的、可伸缩的(可扩展)的分布式存储和计算的系统。版本有Hadoop1.0、Hadoop2.0(常用)、Hadoop3.0Hadoop模块Hadoop C原创 2020-08-21 14:15:48 · 339 阅读 · 0 评论 -
Hadoop常用参数
配置所在文件参数参数默认值作用hdfs-site.xmldfs.namenode.support.allow.formattrue表示设置NameNode是否允许被格式化。 在生产系统,把它设置为false,阻止任何格式化操作在一个运行的DFS上。 建议初次格式化后,修改配置禁止,改成falsehdfs-site.xmldfs.heartbeat.interval3DataNode的心跳间隔,默认单位为秒 在集群网络通信状态不好的时候,适当调大hdfs-...原创 2020-08-21 14:21:45 · 335 阅读 · 0 评论 -
大数据学习日志(四)————HBase
Sqoop概述sqoop是Apache提供的工具,用于HDFS和关系型数据库之间数据的导入与导出可以从HDFS导出数据到关系型数据库,HBaseHBase是Doug根据Google的Big Table来实现的,HBase与Big Table的原理一模一样,只是实现的语言不通HBase和Hadoop版本的对应关系比较复杂HBase借鉴列存储的思想,但是底层依然依靠键值对对存储HBase作为非关系型数据库,不支持SQL,提供了一套全新的命令HBase中没有表关联(外键、join)的说法原创 2020-08-25 15:13:12 · 125 阅读 · 0 评论 -
大数据学习日志(三)————Hive
JoinHive提供了left join/right join/inner join/full outer join,如果不指定,默认使用的时inner join实例:原始数据product:1 chuizi 39992 huawei 39993 xiaomi 29994 apple 5999order:1001 20170710 4 21002 20170710 3 1001003 20170710 2 401004 20170711 2 231005 20原创 2020-08-24 08:49:57 · 166 阅读 · 0 评论 -
大数据学习日志(二)————基础知识
复杂数据类型Array:数组类型,对应了Java中的数组或者集合类型原始数据(注意中间有空格)2,3,4,1,3,4 3,4,2,4,5,6,2,34,5,7,4,7,3,2 6,3,3,6,2,5,27,3,6,8 2,4,47,7,24,5,7,9,0,3 2,4,5,6,8,5建表:create table num(nums1 array<int>,nums2 array<int>) row format delimited fields termin原创 2020-08-21 17:07:20 · 106 阅读 · 0 评论 -
大数据学习日志(一)————基础知识
Hive概述Hive是Hadoop的的子工程,后来被独立出来成为Apache的顶级项目Hive是Apache提供的一套基于Hadoop的进行数据仓库管理的工具,提供了读写以及管理大量数据的功能Hive提供了大量的类SQL(Hive QL,简称HQL)来对Hadoop的数据进行操作,底层会将SQL转换为MapReduce来执行,所以适合离线处理每一个Database都会在HDFS上对应一个目录Hive中没有主键的概念在Hive中,一个表创建好之后,字段之间的间隔符号就无法更改了Insert原创 2020-08-21 13:54:50 · 232 阅读 · 0 评论 -
大数据学习日志(五)——HBase读写流程、合并机制
HRegion在HBase中,会从行键方向对一个表进行切分,切分出来的每一块结构就是一个Hregion,每一个HRegion交给一个HRegionServer,这样设计能够保证请求的分布均衡因为HBase中行键是有序的,所以HRegion之间的数据是不交叉的当HRegion中的数据达到一定的限度的时候,HRegion均裂为2个Hregion,其中一个HRegion会发生转移,交给其他的HRegionServer来进行管理,注意:这个过程并没有发生数据的转移,而是管理权的转移HRegion在HBas原创 2020-08-30 14:43:36 · 237 阅读 · 0 评论