hadoop大数据
文章平均质量分 90
看星星的猿
这个作者很懒,什么都没留下…
展开
-
kibana KQL语法实例
一.前言 现在大多数的公司都会使用ELK组合来对日志数据的收集、存储和提供查询服务,这里就不介绍什么是ELK了,只介绍一些EKL中的查询,也就是K(kibana)。 查询数据库,如果是MySQL,那么就需要使用MySQL的语法;同样的,在Kibana上查询数据,也需要使用Kibana的语法,而Kibana的查询语法叫做Kibana Query Language,简称KQL。 本文的内容主要来自ES的官网,简单翻译了一下,https://www.elastic.co/guide/en/kib原创 2021-11-04 11:40:37 · 2316 阅读 · 0 评论 -
docker CMD ENTRYPOINT区别
CMD 容器启动命令Docker 不是虚拟机,容器中的应用都应该以前台执行,而不是像虚拟机、物理机里面那样,用systemd去启动后台服务,容器内没有后台服务的概念。对于容器而言,其启动程序就是容器应用进程,容器就是为了主进程而存在的,主进程退出,容器就失去了存在的意义,从而退出,其它辅助进程不是它需要关心的东西。CMD指令的格式和RUN相似,也是两种格式:shell格式:CMD <命令> exec格式:CMD ["可执行文件", "参数1", ...原创 2020-07-31 11:10:24 · 386 阅读 · 0 评论 -
centos 7.6 安装python2和python3
CentOS 7.6 默认安装了 Python 2.7.5准备环境yum install git gcc gcc-c++ make automake autoconf libtool pcre pcre-devel zlib zlib-devel openssl-devel wget vim -yyum install libXcomposite libXcursor libXi libXtst libXrandr alsa-lib mesa-libEGL libXdamage ..原创 2020-05-12 19:49:44 · 390 阅读 · 0 评论 -
win7下安装 python2 和python3
一直纠结于选择py2还是py3,不如在同一系统下安装两个版本就好了。1、安装python2.7和python3.5直接到官网https://www.python.org/下载,安装就可以了。2.安装比较简单,点exe文件一直下一步就可以了(注意:安装的时候有个选择是否添加环境变量,这个选是,之后就不用添加环境变量了)如果没有,请添加环境变量。 计算机属性 ---->高级系...原创 2020-03-20 16:39:28 · 296 阅读 · 0 评论 -
spark-1.2.0 集群环境搭建
1、下载scala2.11.4版本 下载地址为:http://www.scala-lang.org/download/2.11.4.html ,也可以使用wget http://downloads.typesafe.com/scala/2.11.4/scala-2.11.4.tgz?_ga=1.248348352.61371242.1418807768 2、解压和安装: 解压 :[spar转载 2015-12-17 16:32:35 · 525 阅读 · 0 评论 -
hadoop2.6.0版本集群环境搭建
一、环境说明1、机器:一台物理机 和一台虚拟机2、linux版本:[spark@S1PA11 ~]$ cat /etc/issueRed Hat Enterprise Linux Server release 5.4 (Tikanga)3、JDK: [spark@S1PA11 ~]$ java -versionjava version "1.6.0_27"J转载 2015-12-17 15:55:07 · 541 阅读 · 1 评论 -
elasticsearch spring 集成
elasticsearch spring 集成项目清单elasticsearch服务下载包括其中插件和分词http://download.csdn.net/detail/u014201191/8809619项目源码资源文件app.properties[html转载 2015-11-19 13:15:21 · 8361 阅读 · 1 评论 -
Kafka+Spark Streaming+Redis实时计算整合实践
基于Spark通用计算平台,可以很好地扩展各种计算类型的应用,尤其是Spark提供了内建的计算库支持,像Spark Streaming、Spark SQL、MLlib、GraphX,这些内建库都提供了高级抽象,可以用非常简洁的代码实现复杂的计算逻辑、这也得益于Scala编程语言的简洁性。这里,我们基于1.3.0版本的Spark搭建了计算平台,实现基于Spark Streaming的实时计算。我转载 2015-11-02 14:29:13 · 4471 阅读 · 0 评论 -
Flume-NG内置计数器(监控)源码级分析
Flume的内置监控怎么整?这个问题有很多人问。目前了解到的信息是可以使用Cloudera Manager、Ganglia有图形的监控工具,以及从浏览器获取json串,或者自定义向其他监控系统汇报信息。那监控的信息是什么呢?就是各个组件的统计信息,比如成功接收的Event数量、成功发送的Event数量,处理的Transaction的数量等等。而且不同的组件有不同的Countor来做统计,目前直到1转载 2015-10-14 13:54:03 · 1007 阅读 · 0 评论 -
Hadoop 2.0 NameNode HA和Federation实践
一、背景天云趋势在2012年下半年开始为某大型国有银行的历史交易数据备份及查询提供基于Hadoop的技术解决方案,由于行业的特殊性,客户对服务的可用性有着非常高的要求,而HDFS长久以来都被单点故障的问题所困扰,直到Apache Hadoop在2012年5月发布了2.0的alpha版本,其中MRv2还很不成熟,可HDFS的新功能已经基本可用,尤其是其中的的High Availability转载 2015-06-15 13:10:33 · 435 阅读 · 0 评论 -
HDFS Federation(HDFS 联盟)介绍
张贵宾guibin.beijing@gmail.com2011.11.251. 当前HDFS架构和功能概述我们先回顾一下HDFS功能。HDFS实际上具有两个功能:命名空间管理(Namespace management)和块/存储管理服务(block/storage management)。1.1 命名空间管理HDFS的命名空间包含目录转载 2015-06-15 13:09:33 · 374 阅读 · 0 评论 -
Sqoop-1.4.4工具import和export使用详解
Sqoop可以在HDFS/Hive和关系型数据库之间进行数据的导入导出,其中主要使用了import和export这两个工具。这两个工具非常强大,提供了很多选项帮助我们完成数据的迁移和同步。比如,下面两个潜在的需求:业务数据存放在关系数据库中,如果数据量达到一定规模后需要对其进行分析或同统计,单纯使用关系数据库可能会成为瓶颈,这时可以将数据从业务数据库数据导入(import)到Hadoo转载 2015-06-06 14:52:16 · 440 阅读 · 0 评论 -
hive load data
一、 创建表 在官方的wiki里,example是这样的:Sql代码 CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment]转载 2015-06-03 14:37:27 · 695 阅读 · 0 评论 -
Hive 查询语法大集合
SELECT … FROM Clauses[sql] view plaincopyprint?hive> SELECT name, salary FROM employees; 表别名[sql] view plaincopyprint?hive> SEL转载 2015-06-03 14:38:51 · 1449 阅读 · 0 评论 -
Hive内置数据类型
Hive的内置数据类型可以分为两大类:(1)、基础数据类型;(2)、复杂数据类型。其中,基础数据类型包括:TINYINT,SMALLINT,INT,BIGINT,BOOLEAN,FLOAT,DOUBLE,STRING,BINARY,TIMESTAMP,DECIMAL,CHAR,VARCHAR,DATE。下面的表格列出这些基础类型所占的字节以及从什么版本开始支持这些类型。数据类型原创 2015-05-30 15:20:10 · 496 阅读 · 0 评论 -
Hive-0.5中SerDe概述
一、背景1、当进程在进行远程通信时,彼此可以发送各种类型的数据,无论是什么类型的数据都会以二进制序列的形式在网络上传送。发送方需要把对象转化为字节序列才可在网络上传输,称为对象序列化;接收方则需要把字节序列恢复为对象,称为对象的反序列化。2、Hive的反序列化是对key/value反序列化成hive table的每个列的值。3、Hive可以方便的将数据加载到表中而不需要对数原创 2015-05-30 11:52:26 · 506 阅读 · 0 评论 -
Hive之insert into 和insert overwrite
insert into 和overwrite的用法:INSERT INTO TABLE tablename1 [PARTITION \(partcol1=val1, partcol2=val2 ...)] \select_statement1 FROM from_statement;INSERT OVERWRITE TABLE tablename1 [PARTITION \(part原创 2015-05-30 12:57:21 · 3444 阅读 · 0 评论 -
hadoop-hive介绍
首先我们要知道hive到底是做什么的。下面这几段文字很好的描述了hive的特性: 1.hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的原创 2015-05-27 17:22:35 · 571 阅读 · 0 评论 -
Hadoop Hive sql语法详解
Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己的SQL 去查询分析需要的内容,这套SQL 简称Hive SQL,使不熟悉mapreduce 的用户很方便的利用SQL 语言转载 2015-05-27 17:18:06 · 348 阅读 · 0 评论