大数据技术
文章平均质量分 80
大数据技术hadoop hdfs spark
laufing
[email protected] 邮箱,用于交流学习
展开
-
大数据技术----HBase Jave编程
Java to HBase配置HBase环境编辑类文件三级目录配置HBase环境然后在工程的src右键–new java package在包内new class file编辑类文件导入相关的类:使用Hadoop配置import org.apache.hadoop.conf.Configuration;HBase的客户端import org.apache.hadoop.hbase.*;import org.apache.hadoop.hbase.client.*;import原创 2021-09-14 02:50:26 · 322 阅读 · 0 评论 -
大数据技术----HBase过滤器
常用过滤器过滤器操作过滤器操作scan可以扫描全表的数据,通过过滤器来进行条件查询。原创 2021-09-14 00:07:37 · 412 阅读 · 0 评论 -
大数据技术HBase----基本原理
写入数据原创 2021-07-31 19:57:11 · 180 阅读 · 0 评论 -
大数据技术----HBase Python编程
Thrift 服务Hbase分布式数据库,使用Java语言编写,除了提供原生的Java接口外,还可以使用其他语言连接,但是需要使用Thrift服务安装Trift安装happybase使用happybase文档地址原创 2021-07-30 16:22:40 · 1040 阅读 · 0 评论 -
大数据技术问题盘点
关闭hbase时报错,stopping hbasecat: /tmp/hbase-lgm-master.pid: No such a file。没有那个文件或目录在使用stop-hbase.sh 关闭HBase集群时,找不到主节点的进程文件,默认是存储在/tmp下,容易丢失,所以需要配置:cd /usr/local/hbase1.4.13/confsudo vim hbase-env.sh#配置以下内容export JAVA_HOME=/usr/local/jdk8export HADOOP_原创 2021-07-25 01:21:27 · 301 阅读 · 0 评论 -
大数据技术----HBase配置文件说明
以下是hbase-site.xml文件的相关配置项:1 ,hbase.rootdir这个目录是 region server 的共享目录,用来持久化 HBase。URL 需要是’完全正确’的,还要包含文件系统的 scheme。例如,要表示 hdfs 中的 ‘/hbase’ 目录,namenode 运行在namenode.example.org 的 9090 端口。则需要设置 为hdfs://namenode.example.org:9000/hbase。默认情况下HBase是写到/tmp的。不改这个配置,原创 2021-07-24 15:30:46 · 2422 阅读 · 0 评论 -
大数据技术----Hive操作2
常用命令hive>create table t2 like t1; #快速复制表结构#查询结果,插入重写到t2hive>insert overwrite table t2 select * from t1;#查询结果写入本地磁盘文件insert overwrite local directory "/home/lauf/r.txt" row format delimited fields ternimated by "," select * from t1;# 去除local原创 2021-07-21 23:48:50 · 110 阅读 · 1 评论 -
大数据技术----Hive基本操作
文件和表的映射创建一个dbhive>create database lauf1;hive>use lauf1;hive>create table test_t(id int,name string,ip string)row format delimited fields terminated by ",";数据类型基本只有string 不同于sql查看:http://localhost:50070/user/hive/warehouse/xxxx.db/xxx表s原创 2021-07-21 19:11:14 · 194 阅读 · 0 评论 -
大数据技术----Hive
Hive基于hadoop的数据仓库工具,可以将结构化的数据文件---->映射为一张表,并提供完整sql功能,本质还是文件使用Hive 查询,将sql 转换为mapreduce任务–运行$Hiveselect * from stu_t;大数据离线分析工具学习成本低,不用写复杂的mapreduce应用,适用数据仓库的统计分析Hive 可以抽取、转换、加载 ETL数据仓库数据是集成的,数据来源:爬虫、mysql、oracle…等 多种异构数据源,hadoop就可以看成一原创 2021-07-21 15:55:51 · 194 阅读 · 0 评论 -
大数据组件----MapReduce
MapReducehadoop提供的,用于大数据集(>1TB)分布式并行计算的框架计算分为两个阶段:Map,映射阶段Reduce,规约阶段MapReduce编程模型ResourceManager,资源管理NodeManager,节点管理原创 2021-07-21 14:15:57 · 206 阅读 · 1 评论 -
大数据技术----zookeeper
zookeeper分布式应用程序的协调服务原创 2021-07-19 14:59:32 · 153 阅读 · 0 评论 -
大数据技术Hbase----安装
什么是Hbase官网分布式、可扩展的Nosql数据库,用于结构化数据存储高可靠、高性能、面向列存储,便于统计分析可以利用廉价的PC机---->存储、处理海量数据Hbase特点海量存储,PB级的数据存储面向列的存储,这里的列指的是列族(可含多个列)极易扩展:1.基于上层处理能力的扩展(RegionServer)通过横向添加RegionServer机器,水平扩展,提高Hbase上层处理能力,提高Hbase服务更多region的能力基于存储的扩展(HDFS)原创 2021-07-19 10:07:45 · 259 阅读 · 0 评论 -
大数据技术Hbase----分布式
分布式用户将很多的用户分布在不同的服务器节点上,达到负载均衡。用户访问服务器,会话保持的session数据怎么存储?如下:若第一次访问被分配到8080节点,并在该节点保存session数据,第二次被分配到8081节点,那么第二次怎么读取session?(进程间的通信相当的缓慢)解决方案:节点集群 增加共享缓存分布式...原创 2021-07-18 17:53:33 · 134 阅读 · 1 评论 -
hdfs----分布式文件系统
组成部分Client客户端:切分文件---->blockNamenode(Master):存储文件元信息、心跳机制监测datanode状态Secondarynode:与Namenode保持同步,随时顶替Datanode(Slave):存储具体的数据Block:客户端的文件分块,默认128M...原创 2021-07-12 22:16:26 · 150 阅读 · 0 评论 -
大数据技术----Hadoop
大数据无法在一定的时间范围内,使用常规的工具存储、处理的大数据量的集合,需要新型的存储方式来处理海量的数据,可以从各式各样的数据中发掘有价值的信息。特性大体量,TB 级的数据存储存储单位:1byte = 8bit1KB = 1024byte1MB = 1024KB1GB = 1024MB1TB = 1024GB1PB =1024TB1EB = 1024PB多样性,种类多,来源多时效性,很多数据需在一定时间内处理准确性,处理的结果保证一定的准确性大价值,挖掘原创 2021-05-18 13:52:07 · 1203 阅读 · 0 评论