大数据
海恋北斗星
加油!
展开
-
大数据-基础环境搭建
大数据-基础环境搭建(一)服务器设置 本文使用三台Linux服务器做统一环境。三台机器的IP设置修改三台服务的ip地址vi /etc/sysconfig/network-scripts/ifcfg-ens33BOOTPROTO="static"IPADDR=192.168.52.100...原创 2020-02-10 15:05:06 · 967 阅读 · 0 评论 -
大数据-HDFS(一)
大数据-HDFS(一)Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统(Distributed File System)。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的...原创 2020-02-12 15:41:14 · 666 阅读 · 0 评论 -
大数据-HDFS(二)
大数据-HDFS(三)HDFS 的 java API 开发第一步:配置Windows的 hadoop 环境变量1、解压资料当中的 hadoop-2.6.0-cdh5.14.2_windows环境配置安装包.rar 这个压缩文件文件到一个没有中文没有空格的目录下2、然后在windows当中配置hadoop...原创 2020-02-14 10:03:43 · 389 阅读 · 0 评论 -
大数据-HDFS(三)
大数据-HDFS(四)hdfs的架构以及block块和副本机制hdfs分布式文件系统是一个主从架构,主节点是NameNode,负责管理整个集群以及维护集群的元数据信息;从节点是DataNode,主要负责文件数据存储。hdfs将所有的文件全部抽象成为 block 块来进行存储,不管文件大小,全部一视同仁都是以bl...原创 2020-02-14 10:51:19 · 229 阅读 · 0 评论 -
大数据-HDFS(四)
大数据-HDFS(六)NameNode与SecondaryNameNode解析NameNode 主要负责集群当中的元数据信息管理,而且元数据信息需要经常被随机访问,所以元数据信息必须支持快速检索,那么如何保证 NameNode 快速检索呢?元数据信息保存在哪里能够快速检索呢?又如何保证元数据的持久安全呢?为了保证元...原创 2020-02-16 18:08:47 · 345 阅读 · 0 评论 -
大数据-HDFS(五)
大数据-HDFS(七)DataNode工作机制以及数据存储DataNode工作机制1)一个数据块在datanode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。2)DataNode启动后向namenode注册,通过后,周期性(1小时)的向n...原创 2020-02-18 10:20:47 · 295 阅读 · 0 评论 -
ContOS7安装与卸载MySQL5.7
ContOS7安装与卸载MySQL5.7安装mysql下载并安装mysql官方的yum源 使用root用户,在CentOS 7服务器的/kkb/soft路径下执行以下命令 切换到root用户 [hadoop@node03 ~]$ su root进入/kkb/soft目录,并安装wget软件[root@node03 ha...原创 2020-03-01 16:01:19 · 191 阅读 · 0 评论 -
大数据-MapReduce(一)
大数据-HDFS(八)MapReduce编程概念MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带的默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。MapReduce的核心...原创 2020-03-02 16:20:13 · 453 阅读 · 0 评论 -
大数据-MapReduce(二)
大数据-HDFS(九)MapTask工作机制Read阶段:MapTask通过用户编写的 RecordReader 从输入InputSplit中解析出每一个 key/value。Map阶段:该阶段主要功能是解析 key/value 交给用户编写的 map() 函数处理,并产生一系列新的 key/value...原创 2020-03-03 17:19:37 · 295 阅读 · 0 评论 -
大数据-yarn
大数据-yarn(一)yarn(资源调度管理平台)的介绍Apache Hadoop YARN(Yet Another Resource Negotiator)是Hadoop的子项目,为分离Hadoop2.0资源管理和计算组件而引入 YRAN具有足够的通用性,可以支持其它的分布式计算模式yarn的架构YAR...原创 2020-03-06 15:24:35 · 673 阅读 · 0 评论 -
大数据-Hive(一)
大数据-Hive(一)Hive安装部署前置条件搭建好三节点Hadoop集群; node03上先安装好MySQL服务;准备安装包下载hive的安装包http://archive.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.14.2.tar.gz规划安装目录/kkb...原创 2020-03-08 09:54:43 · 284 阅读 · 0 评论 -
大数据-Hive(二)
大数据-Hive(三)Hive的交互方式Hive的交互方式主要有三种 使用Hive之前: 先启动hadoop集群:因为hql语句会被编译成MR任务提交到集群运行;hive表数据一般存储在HDFS上。 mysql服务:因为对hive操作过程中,需要访问mysql中存储元数据的库及表。 Hive交互shell...原创 2020-03-08 10:51:42 · 302 阅读 · 0 评论 -
大数据-Hive(三)
大数据-Hive(六)Hive表的数据压缩压缩配置参数要在Hadoop中启用压缩,可以配置如下参数(mapred-site.xml文件中):参数 默认值 阶段 建议 io.compression.codecs (在core-site.xml中配置) org.apache.hadoop...原创 2020-03-11 10:07:45 · 209 阅读 · 0 评论 -
大数据-Hive(四)
大数据-Hive(四)Hive的参数传递Hive命令行 查看hive命令的参数 [hadoop@node03 ~]$ hive -help语法结构hive [-hiveconf x=y]* [<-i filename>]* [<-f filename>|<-e query-string>] [-S] -i 从文件初始化HQL。 -e从命令行执行指定的HQL...原创 2020-12-25 13:53:19 · 834 阅读 · 0 评论 -
大数据-Hive(五)
大数据-Hive(五)hive调优1、Fetch抓取 Fetch抓取是指,==Hive中对某些情况的查询可以不必使用MapReduce计算== 例如:select * from score; 在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台 在hive-default.xml.template文件中 ==hive.fetch.tas...原创 2020-12-25 15:15:06 · 380 阅读 · 0 评论 -
大数据-Zookeeper
大数据-Zookeeper(一)什么是ZooKeeper? Zookeeper是Google的Chubby的一个开源实现版 ZooKeeper 一个主从架构的分布式框架、开源的 对其他的分布式框架的提供协调服务(service) Zookeeper 作为一个分布式的服务框架...原创 2020-03-11 17:32:38 · 325 阅读 · 0 评论 -
大数据-HBase(一)
大数据-HBase(一)HBase集群安装部署准备安装包 下载安装包并上传到node01服务器 安装包下载地址: http://archive.cloudera.com/cdh5/cdh/5/hbase-1.2.0-cdh5.14.2.tar.gz 将安装包上传到node01服务器/k...原创 2020-03-14 17:02:26 · 400 阅读 · 0 评论 -
大数据-HBase(二)
大数据-HBase(五)HBase的数据存储原理一个HRegionServer会负责管理很多个region 一个region包含很多个store 一个列族就划分成一个store 如果一个表中只有1个列族,那么每一个region中只有一个store 如果一个表中有N个列族,那么每一个region中有N...原创 2020-03-25 09:39:43 · 809 阅读 · 0 评论 -
大数据-Flume(一)
大数据-Flume(一)概述Flume是一个分布式、可靠、高可用的海量日志采集、聚合和传输的系统。Flume可以采集文件,socket数据包、文件、文件夹、kafka等各种形式源数据,又可以将采集到的数据(下沉sink)输出到HDFS、hbase、hive、kafka等众多外部存储系统中一般的采集需求,通过对flum...原创 2020-03-27 09:46:44 · 244 阅读 · 0 评论 -
大数据-Flume(二)
大数据-Flume(四)高可用Flum-NG配置案例failover在完成单点的Flume NG搭建后,下面我们搭建一个高可用的Flume NG集群,架构图如下所示:图中,我们可以看出,Flume的存储可以支持多种,这里只列举了HDFS和Kafka(如:存储最新的一周日志,并给Storm系统提供实时日志流)。...原创 2020-03-27 16:00:45 · 301 阅读 · 0 评论 -
大数据-sqoop(一)
大数据-sqoop(一)概述Sqoop是apache旗下的一款 ”Hadoop和关系数据库之间传输数据”的工具。导入数据:将MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统。导出数据:从Hadoop的文件系统中导出数据到关系数据库。sqoop的工作机制...原创 2020-04-01 14:42:22 · 209 阅读 · 0 评论 -
大数据-sqoop(二)
大数据-sqoop(四)Sqoop的数据导出将数据从HDFS把文件导出到RDBMS数据库导出前,目标表必须存在于目标数据库中。默认操作是从将文件中的数据使用INSERT语句插入到表中更新模式下,是生成UPDATE语句更新表数据数据是在HDFS当中的如下目录/sqoop/emp,数据内容如下:1...转载 2020-04-02 15:47:14 · 150 阅读 · 0 评论 -
大数据-impala(一)
大数据-impala(一)imala基本介绍impala是cloudera提供的一款高效率的sql查询工具,提供实时的查询效果,官方测试性能比hive快10到100倍,其sql查询比sparkSQL还要更加快速,号称是当前大数据领域最快的查询sql工具,impala是参照谷歌的新三篇论文(Caffeine、Pregel、D...原创 2020-04-09 11:01:04 · 723 阅读 · 0 评论 -
大数据-impala(二)
大数据-impala(二)impala的安装环境准备需要提前安装好hadoop,hive两个框架,并且需要将hive的安装包,拷贝到所有的服务器上面都保存一份,因为impala需要引用hive的安装目录下面的一些依赖的jar包。下载impala的所有依赖包由于impala没有提供tar包供我们进行安装,只提供了rp...原创 2020-04-09 14:08:08 · 279 阅读 · 0 评论 -
大数据-impala(三)
大数据-impala(三)impala-shell语法impala-shell的外部命令参数语法不需要进入到impala-shell交互命令行当中即可执行的命令参数impala-shell后面执行的时候可以带很多参数:-h 查看帮助文档impala-shell -h-r 刷新整个元数据,数据量大的时候,...原创 2020-04-09 14:27:29 · 391 阅读 · 0 评论 -
大数据-impala(四)
大数据-impala(四)impala的java开发在实际工作当中,因为impala的查询比较快,所以可能有会使用到impala来做数据库查询的情况,我们可以通过java代码来进行操作impala的查询。第一步:导入jar包 <repositories> <reposito...原创 2020-04-09 14:32:24 · 228 阅读 · 0 评论 -
大数据-hue(一)
大数据-hue(一)Hadoop User ExperienceHue是一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera公司将其贡献给Apache基金会的Hadoop社区,它是基于Python Web框架Django实现的。通过使用Hue我们可以在浏览器端...原创 2020-04-09 15:02:18 · 528 阅读 · 0 评论 -
大数据-hue(二)
大数据-hue(二)Hue的安装Hue的安装支持多种方式,包括rpm包的方式进行安装,tar.gz包的方式进行安装以及cloudera manager的方式来进行安装等,这里使用tar.gz包的方式来进行安装。第一步:下载Hue的压缩包并上传到linux解压Hue的压缩包的下载地址:http://arc...原创 2020-04-09 15:13:16 · 283 阅读 · 0 评论 -
大数据-hue(三)
大数据-hue(三)hue与hadoop的HDFS以及yarn集成第一步:更改所有hadoop节点的core-site.xml配置记得更改完core-site.xml之后一定要重启hdfs与yarn集群三台机器更改core-site.xml<property> <name>h...原创 2020-04-09 15:20:02 · 464 阅读 · 0 评论 -
大数据-Kafka(一)
大数据-Kafka(一)Kafka核心概念Kafka是最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx日志、访问日志,消息服务等等,Linkedin于2010年贡献给了Apache基金会并成为顶级开源...原创 2020-04-12 18:20:47 · 435 阅读 · 0 评论 -
大数据-Kafka(二)
大数据-Kafka(四)kafka的生产者和消费者api代码开发创建maven工程引入依赖<dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka-clients<...原创 2020-04-12 21:20:17 · 210 阅读 · 0 评论 -
大数据-Kafka(三)
大数据-Kafka(五)kafka分区策略kafka的分区策略决定了producer生产者产生的一条消息最后会写入到topic的哪一个分区中。指定具体的分区号//1、给定具体的分区号,数据就会写入到指定的分区中producer.send(new ProducerRecord<String, String...原创 2020-04-13 11:11:16 · 369 阅读 · 0 评论 -
大数据-Kafka(四)
大数据-Kafka(七)kafka整合flume1、安装flume 2、添加flume的配置vi flume-kafka.conf#为我们的source channel sink起名a1.sources = r1a1.channels = c1a1.sinks = k1#指定我们的sourc...原创 2020-04-13 15:23:52 · 290 阅读 · 0 评论 -
大数据-scala(一)
大数据-scala(一)scala是运行在 JVM 上的多范式编程语言,同时支持面向对象和面向函数编程的编程语言。scala基础语法scala的变量声明语法:val/var 变量名称:变量类型 = 初始值说明:val 定义的变量是不可重新赋值的变量,值不可以被修改;var 定义的变量是可以重新复制的...原创 2020-04-21 16:57:23 · 288 阅读 · 0 评论 -
大数据-scala(二)
大数据-scala(二)数组scala中数组的概念是和Java类似,可以用数组来存放一组数据 scala中,有两种数组,一种是定长数组,另一种是变长数组定长数组定长数组指的是数组的长度是不允许改变的 数组的元素是可以改变的 语法// 通过指定长度定义数组val/var 变量名 = new Array...原创 2020-04-26 10:52:36 · 176 阅读 · 0 评论 -
大数据-scala(三)
大数据-scala(三)元组元组可以用来包含一组不同类型的值。例如:姓名,年龄,性别,出生年月。元组的元素是不可变 的。语法1.使用括号来定义元组val/var 元组变量名称 = (元素1, 元素2, 元素3....)2.使用箭头来定义元素(元组只有两个元素)val/var 元组 = 元素1-&...原创 2020-04-26 13:44:32 · 187 阅读 · 0 评论 -
大数据-scala(四)
大数据-scala(四)Set集合Set是代表没有重复元素的集合。 Set具备以下性质: 1、元素不重复 2、不保证插入顺序 scala中的set集合也分为两种,一种是不可变集合,另一种是可变集合。不可变Set集合语法//创建一个空的不可变集val/var 变量名 = Set[类型]()//给定元素来...原创 2020-04-26 16:13:40 · 151 阅读 · 0 评论 -
大数据-scala(五)
大数据-scala(五)函数式编程遍历 - foreach方法描述foreach(f: (A) ⇒ Unit): Unit方法说明foreach API 说明 参数 f:(A) => Unit 接收一个函数对象 函数的输入参数为集合的元素 返回值为空 返回值...原创 2020-04-27 10:37:19 · 239 阅读 · 0 评论 -
大数据-scala(六)
大数据-scala(六)函数式编程排序 - sortsorted默认排序//定义一个List集合scala> val list=List(5,1,2,4,3)list: List[Int] = List(5, 1, 2, 4, 3)//默认就是升序scala> list.sortedres30...原创 2020-04-27 11:04:32 · 283 阅读 · 0 评论 -
大数据-scala(七)
大数据-scala(七)高阶函数使用函数值作为参数,或者返回值为函数值的“函数”和“方法”,均称之为“高阶函数”。 函数值作为参数 //定义一个数组scala> val array=Array(1,2,3,4,5)array: Array[Int] = Array(1, 2, 3, 4, 5)//定义一个函数scala> val func=(x:Int)=>x*10func: In...原创 2020-05-11 10:25:32 · 190 阅读 · 0 评论