![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
清风石
这个作者很懒,什么都没留下…
展开
-
大数据技术中的Parquet格式理解
Parquet是面向分析型业务的列式存储格式,由Twitter和Cloudera合作开发,2015年5月从Apache的孵化器里毕业成为Apache顶级项目。Parquet文件是以二进制方式存储的,所以是不可以直接读取的,文件中包括该文件的数据和元数据,因此Parquet格式文件是自解析的。通常情况下,在存储Parquet数据的时候会按照Block大小设置行组的大小,由于一般情况下每一个Map...翻译 2019-11-18 19:11:09 · 816 阅读 · 0 评论 -
java代码使用多种过滤方式查询hbase数据库数据
import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.CompareOperator;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.h...原创 2019-11-13 20:11:43 · 332 阅读 · 0 评论 -
使用java程序操作hbase数据库
import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.CellUtil;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.h...原创 2019-11-13 20:10:02 · 429 阅读 · 0 评论 -
rpc(Remote Procedure Call Protocol):远程过程调用协议解释
首先了解什么叫RPC,为什么要RPC,RPC是指远程过程调用,也就是说两台服务器A,B,一个应用部署在A服务器上,想要调用B服务器上应用提供的函数/方法,由于不在一个内存空间,不能直接调用,需要通过网络来表达调用的语义和传达调用的数据。比如说,一个方法可能是这样定义的:Employee getEmployeeByName(String fullName)那么:首先,要解决通讯的问题,主要是通...翻译 2019-11-13 20:06:51 · 363 阅读 · 0 评论 -
hadoop官网的wordcount案例(Example: WordCount v1.0)
官网的wordcount:链接: linkhttps://hadoop.apache.org/docs/stable/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.htmlInput and Output types of a MapReduce job:(input) <k1, v1>...原创 2019-10-19 23:40:27 · 575 阅读 · 0 评论 -
在ubuntu系统中搭建最新版hadoop-3.0.3伪分布式集群,详细讲解每一步流程
在ubuntu系统中搭建hadoop伪分布式集群第一步:环境准备工作1、安装ssh服务:sudo apt-get install openssh-server2、下载好hadoop和jdk软件包,放入指定目录。安装ssh服务原因:一键启动集群时需要,不在输入密码,最好安装,否则需要重复输入密码第二步:配置虚拟机环境1、更改/etc/hostname 机器的名字 sudo vi /e...原创 2019-10-16 20:31:01 · 317 阅读 · 0 评论