![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据开发
文章平均质量分 78
不爱吃汤圆的汤圆坨坨
这个作者很懒,什么都没留下…
展开
-
关于hive自定义JsonSerde处理json
Hive自身提供UDF函数对json数据格式解析的函数,即get_json_object(…)与json_tuple(…)支持json数据的操作,但是使用效果并不是非常理想。如果可以像普通hive建表指定字段映射到json中的key就太好了!幸好hive本身提供了数据序列化反序列化的接口Serde,开发者只需要自定义实现Serde接口实现自己的逻辑即可。下面介绍的是通过开源工具Hive-JSON-原创 2017-06-30 13:43:12 · 3702 阅读 · 0 评论 -
Flume中的HDFS Sink配置
Flume中的HDFS Sink配置参数说明type:hdfspath:hdfs的路径,需要包含文件系统标识,比如:hdfs://namenode/flume/webdata/filePrefix:默认值:FlumeData,写入hdfs的文件名前缀fileSuffix:写入 hdfs 的文件名后缀,比如:.lzo .log等。inUsePref转载 2018-01-25 15:11:08 · 7674 阅读 · 0 评论 -
Flume安装及简单部署
1 Flume简介Flume是Cloudera提供的一个高可用、高可靠、分布式的海量日志采集、聚合和传输的系统。Flume支持在日志系统中定制各类数据发送方用于收集数据,同时Flume提供对数据的简单处理,并将数据处理结果写入各种数据接收方的能力。Flume作为Cloudera开发的实时日志收集系统,受到了业界的认可与广泛应用。2010年11月Cloudera开源了Flume的第一转载 2018-01-24 18:45:47 · 215 阅读 · 0 评论 -
从kinit到kerberos安全机制
最近老在项目的shell脚本中看到kinit这个东西,完整的命令是kinit -k -t ./conf/kerberos.keytab sherlocky/admin@EXAMPLE.COM查阅一番资料后了解到,之所以有这个命令,是由于该shell脚本接下来会访问Hadoop集群,从上面拉取文件做一些处理任务,并将结果存到Hadoop集群上,那么该命令的作用就是进行身份验证(Authentic转载 2017-12-27 16:07:29 · 27363 阅读 · 2 评论 -
java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.
在已经搭建好的集群环境Centos6.6+Hadoop2.7+Hbase0.98+Spark1.3.1下,在Win7系统Intellij开发工具中调试Spark读取Hbase。运行直接报错:12345678910111213141516171819202122232425转载 2018-01-02 18:19:26 · 308 阅读 · 0 评论 -
hdfs 文件的追加
1、修改hdfs-site.xml Java代码 lt;name>dfs.support.append true operty> 2、目前如何在命令行里面给HDFS文件中追加内容我还没找到相应的方法。但是,我们可以通过Hadoop提供的API实现文件内容追加,如何实现?这里我写了一个简单的测试程序:转载 2017-12-26 16:02:01 · 2923 阅读 · 0 评论 -
Mongodb数据更新命令(update、save)
Mongodb更新有两个命令:update、save。1.1update命令update命令格式:db.collection.update(criteria,objNew,upsert,multi)参数说明:criteria:查询条件objNew:update对象和一些更新操作符upsert:如果不存在update的记录,是否插入objNew转载 2017-10-25 11:22:23 · 52174 阅读 · 0 评论 -
Hbase安装出现的错误
1、在执行hbase version时txr:hbase-0.98.6-cdh5.3.6 zj-db0236$ hbase version/Users/txr/Downloads/hbase-0.98.6-cdh5.3.6/bin/hbase: line 386: /usr/bin/java/bin/java: Not a directory/Users/txr/Downloads/hba原创 2017-08-11 16:14:13 · 1456 阅读 · 0 评论 -
Hbase安装部署
前言:安装Hbase之前要先安装好hadoop(zookeeper如果要用自己的也需先安装好)1、下载Hbase安装包从Apache网站上(hbase.apache.org)下载Hbase稳定发布包:也可以直接下载:http://pan.baidu.com/s/1nuB9kz3解压安装包tar -zxf 安装包名称2、设置环境变量使原创 2017-08-11 15:39:01 · 290 阅读 · 0 评论 -
浅学redis之Jedis
将redis-server变成后端运行将修改redis.conf中的 daemonize后的no修改为yes,运行时 ./redis-server ./redis.conf即可daemonize yes存储数据set key value取数据get keyJedis介绍jedis是Redis 官方首选的java客户端开发包下载jedis包原创 2017-07-16 20:50:29 · 353 阅读 · 0 评论 -
在mac上配置Zookeeper
1、在zookeeper.apache.org上下载zookeeper2、进入到zookeeper解压文件的conf文件夹中,将zoo_sample.cfg重命名为zoo.cfg即可3、启动zookeeper服务器,进入zookeeper解压文件的bin文件下执行 ./zkServer.sh start即可,从命令行可以看到启动了一个QuorumPeerMain进程4、启动Zookee原创 2017-06-28 11:14:51 · 648 阅读 · 0 评论 -
Hive自定义函数
首先在上一节创建的工程中添加如下类package com.txr.udf;import org.apache.hadoop.hive.ql.exec.UDF;import org.apache.hadoop.io.Text;/** * Created by zj-db0236 on 2017/6/27. */public class ConcatString extends原创 2017-06-27 21:16:29 · 205 阅读 · 0 评论 -
Hive的客户端操作
1、启动Hive远程服务hive --service hiveserver俩种方式来操作1)、JDBC2)、Thrift ClientJDBC新建java项目从hadoop与hive包中导入如下jar包然后创建工具类package com.txr.utils;import java.sql.*;/** * Created原创 2017-06-27 20:54:09 · 865 阅读 · 0 评论 -
Hive进阶之Hive的数据查询
如何让简单的查询不生成mapreduce可以做以下三种操作的任意一种操作第三种方式:查看执行计划注意在hive中查询是严格区分大小写的查看执行计划,执行计划是从右到左从下到上对于排序order by后面可以跟上 列,表达式,别名,序号(列所处的序列)括号中的例子select empno,en原创 2017-06-27 19:18:36 · 561 阅读 · 0 评论 -
Hive进阶之Hive数据导入
使用load语句-语法:LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE table name [PARTITION (partcoll=vall,partcol=val2 ...)]原创 2017-06-27 17:25:06 · 1402 阅读 · 0 评论 -
Flume(NG)架构设计要点及配置实践
Flume NG是一个分布式、可靠、可用的系统,它能够将不同数据源的海量日志数据进行高效收集、聚合、移动,最后存储到一个中心化数据存储系统中。由原来的Flume OG到现在的Flume NG,进行了架构重构,并且现在NG版本完全不兼容原来的OG版本。经过架构重构后,Flume NG更像是一个轻量的小工具,非常简单,容易适应各种方式日志收集,并支持failover和负载均衡。架构设计要点转载 2018-01-25 19:35:57 · 172 阅读 · 0 评论