大数据处理
文章平均质量分 79
hive/hadoop
anssummer
只求每天进步一点点.
展开
-
HBase应用场景和最佳实践
HBase 作为 Apache 基金会的 Hadoop 项目的一部分,将 HDFS 作为文件存储系统,使用 MapReduce 进行分布式的数据批量处理(非实时数据批量处理)、利用Zookeeper提供协同管理服务,为 Hadoop 提供海量数据管理服务,因此,HBase也是在一个服务器集群上运行的。原创 2023-05-21 22:32:44 · 3956 阅读 · 0 评论 -
HADOOP基本操作命令
启动与关闭启动HADOOP1.进入HADOOP_HOME目录。2.执行sh bin/start-all.sh关闭HADOOP1.进入HADOOP_HOME目录。2.执行sh bin/stop-all.sh文件操作Hadoop使用的是HDFS,能够实现的功能和我们使用的磁盘系统类似。并且支持通配符原创 2013-12-29 15:33:39 · 723 阅读 · 0 评论 -
快速了解Druid
Druid 是什么 Druid 单词来源于西方古罗马的神话人物,中文常常翻译成德鲁伊。 本问介绍的Druid 是一个分布式的支持实时分析的数据存储系统(Data Store)。美国广告技术公司MetaMarkets 于2011 年创建了Druid 项目,并且于2012 年晚期开源了Druid 项目。Druid 设计之初的想法就是为分析而生,它在处理数据的规模、数据处理的实时性方面,比传统...原创 2019-12-04 17:37:00 · 438 阅读 · 0 评论 -
kafka+flink+druid/es实时计算方案
最近在从事实时方面的工作,主要涉及到数据处理、加工及可视化,在采坑的过程中总结出一套比较简单的实时计算方案,供大家参考。主要涉及到几个组件,kafka,flink,redis,druid和es。相信大家对以上几个组件都比较熟悉了,这里就不细说了。我们从一个简单的需求,来说明各个组件是怎么协作的。假如现在我们有一个电商平台,每天访问的流量巨大,主要访问流量都集中在衣服类、家电类页面,那...转载 2019-11-10 23:40:03 · 1122 阅读 · 0 评论 -
异构数据源海量数据交换工具-sqoop & DataX
sqoop一简介Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。二特点Sqoop中一大亮点就是可以通过hadoop的mapreduce把数据从关系型数据库中导入数据转载 2016-01-03 18:48:29 · 4105 阅读 · 0 评论 -
hive/hbase区别
共同点: 1.hbase与hive都是架构在hadoop之上的。都是用hadoop作为底层存储区别:2.Hive是建立在Hadoop之上为了减少MapReduce jobs编写工作的批处理系统,HBase是为了支持弥补Hadoop对实时操作的缺陷的项目 。 3.想象你在操作RMDB数据库,如果是全表扫描,就用Hive+Hadoop,如果是索引访问,就用HBase+Hadoop 。 4.Hive原创 2015-11-29 18:37:51 · 322 阅读 · 0 评论 -
Hive安装及使用攻略
目录Hive的安装Hive的基本使用:CRUDHive交互式模式数据导入数据导出Hive查询HiveQLHive视图Hive分区表1. Hive的安装系统环境装好hadoop的环境后,我们可以把Hive装在namenode机器上(c1)。hadoop的环境,请参考:让Hadoop跑在云端系列文章,RHadoop实践系列之一:H转载 2015-11-29 15:09:10 · 586 阅读 · 0 评论 -
HIVE 文件存储格式
hive在建表是,可以通过‘STORED AS FILE_FORMAT’ 指定存储文件格式例如:[plain] view plaincopy> CREATE EXTERNAL TABLE MYTEST(num INT, name STRING) > ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'转载 2015-11-21 15:54:31 · 434 阅读 · 0 评论 -
HIVE 动态分区与静态分区
HIVE分区,实际上是通过一个路径来标识的,而不是在物理数据中。比如每天的数据,可能分区是pt=20121023这样,那么路径中它就会变成:/hdfs/path/pt=20121023/data_files。通过路径来标识的好处是,如果我们需要取特定分区的数据,只需要把这个路径下的数据取出来就可以了,不用扫描全部的数据。HIVE默认是静态分区。但是有时候可能需要动态创建不同的分区,比如商品原创 2015-11-21 15:53:03 · 417 阅读 · 0 评论 -
hive小需求记录
1.需要将mysql导入到hivedb -e "set names utf8;select * t1 where day=20151120" > /data/order/20151120hdfs -v dfs -copyFromLocal /data/order/* /data/order/add file hdfs://yq01-heng-hdfs.dmop.baidu.co原创 2015-11-21 16:14:46 · 461 阅读 · 0 评论 -
hive基础命令
命令 描述reset 重置配置为默认值set 输出用户覆盖的hive配置变量set -v 输出所有Hadoop和Hive的配置变量add FILE[S] * add JAR[S] * add ARCHIVE[S] * 添加 一个或多个 file, jar, archives到分布式缓存list FILE[S] list JAR[S] list ARCHI原创 2015-11-21 16:10:39 · 641 阅读 · 0 评论