![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据之路
文章平均质量分 88
佟印龙
这个作者很懒,什么都没留下…
展开
-
flume的事务理解
Flume事务概念Flume在处理数据的时候,涉及到数据流动的有两个地方。一个是Source向Channel中放数据的时候,涉及到一个数据的发送(put事务)。还一个是Sink从Channel中拉取数据,也涉及到一个数据的发送。当涉及到数据的批量操作时,就会通过事务来保证数据的一致性和完整性。我们都知道Flume是一个日志文件传输的工具,传输过程会经过三大步骤:1.通过source 把数据从数据源(网络端口,本地磁盘等)读出出来2.通过source把数据传入到channel里面3.再把数据从cha原创 2022-01-04 10:46:09 · 549 阅读 · 0 评论 -
使用Hive或Impala执行SQL语句,对存储在HBase中的数据操作
〇、摘要Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。HBase(Hadoop Database),是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,只能通过Rowkey来取数据,无法进行SQL查询。因此如果Hive可以从HBase中取数据,并结合Hive的SQL查询功能,便能做到较为复杂的SQL查询操作。Impala对存储在HDFS、HBase的数据提供直接查询互动的S原创 2021-11-26 16:39:27 · 844 阅读 · 0 评论 -
使用Hive或Impala执行SQL语句,对存储在Elasticsearch中的数据操作
摘要:使用Elasticsearch-SQL可以对存储在Elasticsearch中的数据执行简单的SQL查询操作,然而并不支持多表join等联接查询。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。因此如果Hive可以从Elasticsearch中取数据,并结合Hive的SQL查询功能,便能做到较为复杂的SQL查询操作。我们的目标是:支持Elasticsearch多表联接查原创 2021-11-26 15:49:31 · 596 阅读 · 0 评论 -
Flume总结
1.Flume 采集数据会丢失吗?不会,Channel 存储可以存储在 File 中,数据传输自身有事务。2.Flume 与 Kafka 的选取?采集层主要可以使用 Flume、Kafka 两种技术。Flume:Flume 是管道流方式,提供了很多的默认实现,让用户通过参数部署,及扩展 API。Kafka:Kafka 是一个可持久化的分布式的消息队列。Kafka 是一个非常通用的系统。你可以有许多生产者和很多的消费者共享多个主题Topics。相比之下,Flume 是一个专用工具被设计为旨在往 H原创 2021-10-09 16:06:46 · 504 阅读 · 0 评论 -
Impala sql语法
1.数据库特定语句1.创建数据库CREATE DATABASE语句用于在Impala中创建新数据库。CREATE DATABASE IF NOT EXISTS database_name;这里,IF NOT EXISTS是一个可选的子句。如果我们使用此子句,则只有在没有具有相同名称的现有数据库时,才会创建具有给定名称的数据库。impala默认使用impala用户执行操作,会报权限不足问题,解决办法:一:给HDFS指定文件夹授予权限hadoop fs -chmod -R 777 hdfs:/原创 2021-09-29 11:12:00 · 2043 阅读 · 0 评论