大数据
思无邪心飞扬
业精于勤荒于嬉,行成于思毁于随。
展开
-
Kafka+Flink在线处理海量数据
文章目录kafka(MQ)简介Quickstartkafka(MQ)官网:http://kafka.apache.org/简介kafka(25W-50W/秒)也是一个消息队列,主要用作流量的削峰平谷,Kafka目前是大数据业界公认的MQ,比较古老的队列有activemq(6000/s),现在流行用的有rabbitmq(1.2W/s),还有ZeroMQ(25W-50W/s,缺点操作繁琐)等。active、rabbit适用于业务系统,对数据一致性有很强的保护能力(对事务要求高)K原创 2020-06-01 12:08:28 · 2268 阅读 · 0 评论 -
利用Flume和hadoop收集并管理tomcat日志
tomcat方1.所需依赖<!-- Flume相关 --> <dependency> <groupId>org.apache.flume</groupId> <artifactId>flume-ng-core</artifactId> <version>1.6.0</version> <!-- 关联的servlet-api冲突 --> <exclusions转载 2020-05-27 21:14:22 · 360 阅读 · 0 评论 -
Hive入门(大数据)
文章目录Hive介绍hive的安装Hive介绍官网:http://hive.apache.orgHive是数据仓库工具,使用sql的方式来读写和管理存储在HDFS中的海量数据。可以将结构投影到已经存储的数据上,可以使用命令行工具或者JDBC来操作hivehive是一个基于hadoop的数据仓库工具,他使用sql的方式来处理海量数据,解决了程序猿使用MapReduce来处理海量数据遇见的问题。学习成本较低,内置了非常丰富的函数库供开发者使用,如果现有函数不能满足用户的需求,hive还支持自定义函数(原创 2020-05-29 12:06:33 · 388 阅读 · 0 评论