大数据
年月日朝朝暮暮
悟以往之不谏,知来者之可追
展开
-
大数据学习基础一之虚拟机安装
一、VMware安装1)直接在网上搜vmware workstation选择一个你需要的版本进行安装。2)运行下载下来的文件3)按照默认的选择安装就行了,安装路径可以按照自己的需求进行修改。二、虚拟机的安装1)启动已经安装好的VMware,点击文件选择新建虚拟机2)一般来说选择自定义3)下一步到如图所示,选择稍后安装操作系统,也可以直...原创 2019-07-29 14:24:35 · 374 阅读 · 0 评论 -
大数据开发之flume知识点总结
flume一、理性认知 1、flume在集群中扮演的角色 flume、kafka用来实时的进行数据收集,spark、storm用来实时处理数据,impala用来实时查询 2、flume框架简介 1)flume提供一个分布式的,可靠的,对大数据量的日志进行高效收集、聚集、移动的服务,flume只能在Unix环境下运行...原创 2019-08-22 17:27:09 · 227 阅读 · 0 评论 -
大数据开发之Oozie基本知识点
Oozie 一、理性认知 英文释义 驯象人 简介 一个基于工作流引擎的开源框架,由cloudera公司贡献给Apache,提供对hadoop,MapReduce,Pig jobs的任务调度与协调。Oozie需要部署到java Servlet容器中运行 在集群中扮演的角色...原创 2019-08-23 16:03:44 · 218 阅读 · 0 评论 -
大数据开发之hadoop HA配置
hadoop HA一、原理 HA高可用 存储 当editlog发生变化时,则直接写入JournalNode,以用来分享给其他的NameNode二、安装部署 step1、配置zookeeper step2、配置hadoop hadoop-env.sh core-site.xml...原创 2019-08-23 15:56:46 · 105 阅读 · 0 评论 -
大数据开发之storm基础知识点
storm 一、概述 离线计算 批量获取数据、批量传输数据、周期性批量计算数据、数据展示 代表技术 Sqoop批量导入数据、HDFS批量存储数据、MapReduce批量计算数据、Hive批量计算数据 流式计算...原创 2019-08-26 16:08:20 · 295 阅读 · 0 评论 -
Linux四剑客之grep
grep一、基础操作 0)过滤查找,匹配文件里面的某个字符、内容 1)查找文件里面的某个内容 grep "root" /etc/passwd 2)查找文件里面的某个内容并且加颜色 grep ...原创 2019-08-26 17:16:57 · 116 阅读 · 0 评论 -
Linux四剑客之awk和sed
awk 做数据统计,文件日志分析 基本操作 1)打印文件中的某一列 awk '{print $1}' test.txt 2)打印文件的最后一列 awk '{print $NF}' test.txt 3)打印文件的第一列并且截取冒...原创 2019-08-26 17:51:28 · 131 阅读 · 0 评论 -
大数据开发之MapReduce常用的调优参数
一、资源相关参数1)以下参数是在用户自己的mr应用程序中配置就可以生效(mapred-default.xml) 配置参数 参数说明 mapreduce.map.memory.mb 一个Map Task可使用的资源上限(单位:MB),默认为1024。如果Map Task实际使用的资源量超过该值,则会被强制杀死。 ...原创 2019-08-28 08:24:18 · 218 阅读 · 0 评论 -
大数据开发之spark基础
spark 一、产生背景 迭代式计算 交互式数据挖掘 二、安装部署 1、下载安装包 2、上传到linux 3、解压 4、配置 conf 复制cp ...原创 2019-08-29 15:52:43 · 226 阅读 · 0 评论 -
完整elasticsearch安装及其插件安装
一、elasticsearch安装1、官网下载安装包并上传并解压2、es下建立data和logs目录3、编辑conf/elasticsearch.yml文件 cluster:cluster.name:hlh-app node:node.name:node-248 paths: path.data: path.logs: memory:bo...原创 2019-08-31 11:57:48 · 317 阅读 · 0 评论 -
mongoDB的基本概念及安装部署及设置为系统服务
一、MongoDB的基本概念 数据库 database - 一个服务器中可以有多个数据库 - 数据库用来保存集合 集合 collection - 一个数据库中可以有多个集合 - 集合用来保存文档 文档 document - 一个集合中有多个文档 - 文...原创 2019-08-31 14:57:54 · 271 阅读 · 0 评论 -
spark里面的RDD基本知识
一、spark core RDD:Resilient Distributed Dataset 弹性分布式数据集 不可变 如果需要在一个RDD进行转换操作则会生成一个新的RDD 可分区 RDD里面的具...原创 2019-09-02 09:47:20 · 308 阅读 · 0 评论 -
大数据开发之hive知识点总结
hive一、认知 数据库与数据仓库 数据库 mysql,oracle,sqlserver,DB2,sqlite,MDB 数据仓库 hive 是M...原创 2019-08-22 10:35:05 · 260 阅读 · 0 评论 -
Linux四剑客之find
Find命令一、寻找指定目录下的以txt结尾的文件find /home/test/upload -name "*.txt" find . (.代表当前目录)二、寻找类型为file的文件,如果需要找dir文件则将f变为dfind /home/test/upload -name "*.txt" -type f...原创 2019-08-25 22:41:08 · 123 阅读 · 0 评论 -
大数据开发之zookeeper知识点总结
ZOOKEEPER 一、概述 是一个开源的分布式的,为分布式应用提供协调服务的Apache项目 基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据发送变化,zookeeper就将负责通知注册的观察者做出相应的反应,从而实现集群中类似Master/Slave管理模式...原创 2019-08-21 13:16:44 · 195 阅读 · 0 评论 -
物理机centos7配置静态IP和网关
一、设置主机名 1)vi /etc/hostname 2)vi /etc/hosts二、配置网关vi /etc/sysconfig/network三、配置IP地址 vi/etc/sysconfig/network-scripts/ifcfg-enp2s0四、reboot重启...原创 2019-08-04 14:24:35 · 8291 阅读 · 4 评论 -
大数据学习之hadoop伪分布式搭建过程
hadoop-2.7.1伪分布环境搭建1.准备Linux环境 1.0 点击VMware快捷方式,右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 设置网段:192.168.8.0 子网掩码:255.255.255.0 -> apply -> ok 回到windows -...原创 2019-07-31 17:53:38 · 191 阅读 · 0 评论 -
大数据开发之zookeeper集群搭建
一、下载zookeeper直接搜需要的版本进行下载,这里我下载的是3.4.10版本的 二、将压缩包上传到centos之上三、解压[root@hlh003 software]# tar -zxvf zookeeper-3.4.10.tar.gz -C /opt/module/四、将配置文件中的zoo_sample.cfg改为zoo.cfg[root@hlh001 z...原创 2019-08-14 10:24:44 · 158 阅读 · 0 评论 -
大数据开发之kafka安装
安装kafka前需要安装zookeeper,参考https://blog.csdn.net/weixin_44772799/article/details/99545064一、按需求下载kafka并传到centos二、解压安装包[root@hlh001 software]# tar -zxvf kafka_2.11-0.11.0.0.tgz -C /opt/module...原创 2019-08-14 11:17:24 · 83 阅读 · 0 评论 -
大数据开发之flume安装
下载需要的版本并且上传到centos这里我下载的是flume1.7.0,地址:http://www.apache.org/dyn/closer.lua/flume/1.7.0/apache-flume-1.7.0-bin.tar.gz解压并改名[root@hlh001 software]# tar -zxvf apache-flume-1.7.0-bin.tar.gz -C /o...原创 2019-08-14 12:37:12 · 91 阅读 · 0 评论 -
大数据之安装hive
一、按照自己的需要去下载相应 的版本并传到centos中https://archive.apache.org/dist/hive/hive-1.2.1/二、解压并改名[root@hlh003 software]# tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /opt/module/[root@hlh001 module]# mv a...原创 2019-08-14 15:23:09 · 71 阅读 · 0 评论 -
将namenode的编辑日志和镜像文件变成可读的xml
[root@hlh001 current]# hdfs oiv -p XML -i fsimage_0000000000000000269 -o ./fsimage.xml[root@hlh001 current]# hdfs oev -p XML -i edits_0000000000000000001-0000000000000000002 -o ./edits.xml然后就可...原创 2019-08-19 15:55:37 · 223 阅读 · 0 评论 -
大数据开发之kafka配置信息
目录一、Broker配置信息二、Producer配置信息三、Consumer配置信息一、Broker配置信息 属性 默认值 描述 broker.id 必填参数,broker的唯一标识 log.dirs /tmp/kaf...原创 2019-08-15 17:42:31 · 108 阅读 · 0 评论 -
大数据之MapReduce并行算法简单概括
MapReduce重点程序员必须指定:map (k, v) → <k’, v’>*reduce (k’, v’) → <k’, v’>* 所有具有相同key的value被聚集到一起 可选的操作:partition (k’,划分数) → k’的划分 往往使用key的一个简单散列函数, e.g., hash(k’) mod n 为并行redu...原创 2019-08-15 18:06:28 · 1357 阅读 · 0 评论 -
大数据开发之kafka基础知识点
kafka一、理性认知 在流式计算中,kafka一般用来缓存数据,Storm通过消费kafka的数据进行计算 1、Apache kafka是一个开源消息系统,由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目 2、kafka最初是由LinkedIn开发,并于2011年初开源。该项目的目标是为处理实时数据提供一个统...原创 2019-08-25 15:51:41 · 137 阅读 · 0 评论 -
大数据开发之JVM基础知识点
JVM认知 熟悉jvm架构以及垃圾回收机制以及相应的参数调优,有过在linux进行系统优化的经验 线程和操作系统有关 过程 1)class文件通过类加载器加进内存区域---class loader类加载器 负责加载class文件,class文件在文件开头有特定的文件标示,并且ClassLoad...原创 2019-08-25 15:58:35 · 216 阅读 · 0 评论 -
hadoop集群的群起脚本
#!/bin/bashecho "==========================正在开启集群服务=========================="echo "========================正在开启Zookeeper节点========================"for i in admin@hlh001 admin@hlh002 admin@hlh003...原创 2019-09-02 16:37:14 · 432 阅读 · 0 评论