hadoop
文章平均质量分 98
小飞猪666
这个作者很懒,什么都没留下…
展开
-
CDH构建大数据平台-配置集群的Kerberos认证安全
当平台用户使用量少的时候我们可能不会在意集群安全功能的缺失,因为用户少,团队规模小,相对容易把控,开发人员直接也彼此了解。这时候只需要做好团队内部或是企业通过一些列行政管理手段就能管理好集群的安全问题。但是别忘了我们的平台定位可是作为一个单一的大数据来支持企业内部所有应用的。正所谓人上一百,形形色色。当平台用户达到一定数量之后其素质难免会参差不齐,大数据平台面对的也不再是一个小团队了。这时候靠团队...原创 2020-01-06 18:50:56 · 1332 阅读 · 0 评论 -
spark2.2.0 源码编译安装
1. Spark概述 Spark 是一个用来实现快速而通用的集群计算的平台。 在速度方面,Spark 扩展了广泛使用的 MapReduce 计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理。 在处理大规模数据集时,速度是非常重要的。速度快就意味着我们可以进行交互式的数据操作,否则我们每次操作就需要等待数分钟甚至数小时。 Spark 的一个主要特点就是能够在内...转载 2018-11-17 09:50:57 · 325 阅读 · 0 评论 -
Hadoop集群的搭建
NameNode高可用方案要点这种情形:当一个NameNode当掉了,整个集群就无法运行了。Hadoop2.0后将NameNode进行了一个抽象,它把这个NameNode抽象为了一个NameService一个NameService下面有两个NameNode,这时候就得需要有个东西来协调,否则两个NameNode都是active的状态或者为standby状态(等待),这时候zo...原创 2017-06-20 21:43:39 · 476 阅读 · 0 评论 -
安装hue可视化以及与hdfs、hive、hbase和mysql的集成
1. Hue概述及版本下载1)概述 Hue是一个开源的Apache Hadoop UI系统,最早是由Cloudera Desktop演化而来,由Cloudera贡献给开源社区,它是基于Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduce Job等等。2)...原创 2018-11-13 20:59:29 · 955 阅读 · 0 评论 -
新闻网日志实时分析可视化系统项目
本次项目是基于企业大数据经典案例项目(大数据日志分析),全方位、全流程讲解 大数据项目的业务分析、技术选型、架构设计、集群规划、安装部署、整合继承与开发和web可视化交互设计。项目代码托管于github,大家可以自行下载。一、业务需求分析捕获用户浏览日志信息 实时分析前20名流量最高的新闻话题 实时统计当前线上已曝光的新闻话题 统计哪个时段用户浏览量最高 生成报表(给销售...转载 2018-11-04 22:29:03 · 4808 阅读 · 2 评论 -
大数据11_Kafka知识以及kafka与sparkstreaming结合
1. kafka是什么?使用场景? kafka是一个高吞吐的分布式消息队列系统。特点是生产者消费者模式,先进先出(FIFO)保证顺序,自己不丢数据,默认每隔7天清理数据。消息列队常见场景:系统之间解耦合、峰值压力缓冲、异步通信。 2. kafka生产消息、存储消息、消费消息1)Kafka架构是由producer(消息生产者)、consumer(消息消费者)、borker(k...原创 2018-11-03 20:57:26 · 368 阅读 · 0 评论 -
大数据Hive的简介和安装_03_01
Hive是hadoop生态系统中必不可少的工具,它提供了一种SQL(结构化查询语言)方言,可以查询存储在hadoop分布式文件系统中(HDFS)的数据或其他和hadoop集成的文件系统,如:MapR—Fs、Amazon的S3和像HBase(hadoop数据库)和Cassandra这样的数据库中的数据。Hive简介•Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一...原创 2017-09-03 17:26:27 · 517 阅读 · 0 评论 -
大数据Spark07_SparkShell、SparkUI界面、SparkHA、SparkShuffle、Spark内存管理
在weekend10、weekend11、weekend12节点上启动spark standalone集群在weekend08、weekend09、weekend10、weekend11、weekend12、weekend13节点上启动hadoop集群在weekend08节点上上传本地文件 words.txt 到hdfs 的/spark/data 目录下(通过读取创建RDD)在HDFS原创 2017-11-11 15:36:32 · 624 阅读 · 0 评论 -
大数据Spark03_集群环境搭建及任务提交的方式
Spark四种部署方式Spark应用程序在集群上部署运行时,可以由不同的组件为其提供资源管理调度服务(资源包括CPU、内存等)。比如,可以使用自带的独立集群管理器(standalone),或者使用YARN,也可以使用Mesos。因此,Spark包括三种不同类型的集群部署方式,包括standalone、Spark on Mesos和Spark on YARN。1.Local模式:此模式...原创 2017-10-29 21:02:05 · 510 阅读 · 0 评论 -
spark2.2.0-hadoop2.6.0预编译集群安装
1、下载解压将下载好的spark-2.2.0-bin-hadoop2.6.tgz包移动到netcloud03 netcloud04 netcloud05 各节点的/opt目录下并解压2、Spark基于Standalone运行模式进行配置1)测试 cd /opt/spark-2.2.0-bin-hadoop2.6 ./bin/spark-submit --cl...原创 2018-11-17 12:11:29 · 698 阅读 · 0 评论 -
Spark总结02
下面的是对Spark总结01的复习以及详细的讲解一、作业提交的执行流程1)Spark程序写完之后,就要提交到spark集群上面去运行,这就是spark作业(一次代码的运行+一份数据的处理+一次结果的产出)。2) Spark作业是通过spark集群中的多个独立的进程(executor)并行执行的,每个进程处理一部分数据,从而做到分布式并行计算,才能做到对大数据并行处理和计算...原创 2019-04-14 22:52:40 · 258 阅读 · 0 评论 -
spark总结01
目录第一部分:SaprkCore部分Spark简介1、什么是RDD? RDD的5大特性。2、怎么理解partition,如何合理的设置partition的数量。3、RDD或者partition里面存储数据吗?怎么理解内存计算。4、Spark中的hello world (word count)5、Spark架构原理6、创建初始的RDD7、RDD算子操作8、RD...原创 2019-03-09 18:30:18 · 668 阅读 · 0 评论 -
大数据集群(HA)安装 CDH版本
1.下载组件(注意版本号要与其他的组件CDH版本一致) 有的需要翻墙下载jdk1.8 https://pan.baidu.com/s/1PI-m73GKU2DSVRnJA0rzwg hadoop-2.6.0-cdh5.8.3....原创 2019-08-30 15:55:32 · 837 阅读 · 0 评论 -
Hive文件格式(表stored as 的五种类型)
hive文件存储格式包括以下几类:1、TEXTFILE2、SEQUENCEFILE3、RCFILE4、ORCFILE(0.11以后出现)5、PARQUET1、其中TEXTFILE为默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理; SEQUENCEFILE,RCFILE,ORCFILE,PARQUET格式的表不能直接从本地...原创 2018-12-20 17:17:33 · 28520 阅读 · 3 评论 -
Mapreduce执行过程详解
一、分析MapReduce执行过程 MapReduce运行的时候,会通过Mapper运行的任务读取HDFS中的数据文件,然后调用自己的方法,处理数据,最后输出。Reducer任务会接收Mapper任务输出的数据,作为自己的输入数据,调用自己的方法,最后输出到HDFS的文件中。整个流程如图:二、Mapper任务的执行过程详解 每个Mapper任务是一个java进程,它会读...原创 2018-12-14 18:05:13 · 30635 阅读 · 3 评论 -
Hive函数大全
转载于 https://blog.csdn.net/wisgood/article/details/17376393一、关系运算:1. 等值比较: = 语法:A=B 操作类型:所有基本类型 描述:如果表达式A与表达式B相等,则为TRUE;否则为FALSE 举例: hive>select 1...转载 2018-12-06 13:24:59 · 183 阅读 · 1 评论 -
DbVisualizer配置连接hive
一、安装DbVisualizer下载地址http://www.dbvis.com/也可以从网上下载破解版程序,此处使用的版本是DbVisualizer 9.1.1具体的安装步骤可以百度,或是修改安装目录之后默认安装就可以二、配置DbVisualizer里的hive jdbc1、在DbVisualizer的安装目录jdbc文件夹下新建hive文件夹D:\Program F...原创 2018-12-03 17:24:42 · 780 阅读 · 0 评论 -
Spark SQL与hive hbase mysql集成
虚拟机环境:centos7一、Spark SQL 与Hive集成(spark-shell)1.需要配置的项目 1)将hive的配置文件hive-site.xml拷贝到spark conf目录,同时添加metastore的url配置。 执行操作: vi hive-site.xml,添加如下内容:<property> <name>...原创 2018-11-18 10:38:10 · 842 阅读 · 0 评论 -
大数据10_02_SparkStreaming输入源、foreachRDD、transform、updateStateByKey、reduceByKeyAndWindow
基本数据源1.文件流 从文件中读取数据lines= ssc.textFileStream("file:///usr/local/spark/mycode/streaming/logfile")2.套接字流Spark Streaming可以通过Socket端口监听并接收数据,然后进行相应处理。JavaReceiverInputDStream lines = jsc原创 2018-01-18 22:55:21 · 2590 阅读 · 0 评论 -
大数据Hadoop之HDFS和MapReduce_02_01
Hadoop主要由HDFS和MapReduce 引擎两部分组成。最底部是HDFS,它存储hadoop集群中所有存储节点上的文件。HDFS 的上一层是MapReduce 引擎,该引擎由JobTrackers 和TaskTrackers组成。分布式文件系统的理解:随着数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和原创 2017-08-29 22:16:25 · 757 阅读 · 0 评论 -
大数据Hive的案例、参数、动态分区、分桶、视图、索引、运行方式、权限管理、Hive的优化_03_03
Hive案例需求:统计出掉线率最高的前10基站数据:record_time:通话时间imei:基站编号cell:手机编号drop_num:掉话的秒数duration:通话持续总秒数原创 2017-09-10 19:02:49 · 3276 阅读 · 0 评论 -
大数据Hadoop Yarn 框架原理及运作机制_02_02
1.1 YARN 基本架构YARN是Hadoop 2.0中的资源管理系统,它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务:一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。其中ResourceManager负责整个系统的资源管理和分配,而ApplicationMaster负责单个应用程序的管理。转载 2017-08-29 22:20:44 · 278 阅读 · 0 评论 -
大数据Hive的操作_03_02
启动hadoop集群、启动hive的服务器端和客户端。在weekend12客户端上执行如下命令:创建表语句(默认是内部表)create table teacher(id int ,name String ) row format delimited fields terminated by '\t'; row format delimited fields termina原创 2017-09-06 23:16:20 · 612 阅读 · 0 评论 -
大数据HBase_04_01
非关系型数据库知识面扩展Cassandra hbase mongodb Couchdb,文件存储数据库Neo4j非关系型图数据库Hadoop生态系统 HBase 简介--HBase – Hadoop Database,是一个高可靠性、高性能(秒级别读取)、面向列、可伸缩、实时读写的分布式数据库。--利用HBase技术可在廉价PC Server上搭建起大规原创 2017-09-11 20:15:14 · 439 阅读 · 0 评论 -
大数据Zookeeper_05
简介Zookeeper 是 Google 的 Chubby一个开源的实现,是 Hadoop 的分布式协调服务。分布式应用程序可以基于它实现数据同步服务,配置维护和命名空间服务等上图的讲解: Zookeeper本身就是一个集群(意味着有好多的机器),为了保证Zookeeper服务的高可靠性,所以我们搭建了多台机器。即使有多台机器宕掉了也不会影响Zookeeper服务原创 2017-09-18 22:21:24 · 393 阅读 · 0 评论 -
大数据Flume_06
Flume一、数据模型Flume的概念 flume是分布式的日志收集系统,它将各个服务器中的数据收集起来并送到指定的地方去,比如说送到图中的HDFS,简单来说flume就是收集日志的。Note:收集到的数据不一定直接到HDFS,还可以暂时存储到Kafka中,然后在存储到HDFS中。Event的概念 event的相关概念:flume的核心是把数据从数据源(sourc原创 2017-09-21 22:59:37 · 335 阅读 · 0 评论 -
大数据项目一电商平台下的日志分析08
详细内容见文档原创 2017-10-10 15:21:48 · 3943 阅读 · 1 评论 -
大数据CDH之Oozie_10_03
Oozie是用于 Hadoop 平台的开源的工作流调度引擎。用来管理Hadoop作业。属于web应用程序,由Oozie client和Oozie Server两个组件构成。Oozie Server运行于Java Servlet容器(Tomcat)中的web程序。官网:https://oozie.apache.org/作用:统一调度hadoop系统中常见的mr任务启动、h原创 2017-10-21 15:31:37 · 467 阅读 · 0 评论 -
大数据CDH之Impala_10_02
Impala简介Cloudera公司推出,提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。基于Hive使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点是CDH平台首选的PB级大数据实时查询分析引擎.http://www.cloudera.com/products/apache-hadoop/impala.htmlhttp://www.impala.i原创 2017-10-21 14:43:44 · 4446 阅读 · 0 评论 -
大数据CDH_10_01
CDH简介1、Apache Hadoop 不足之处 • 版本管理混乱 • 部署过程繁琐、升级过程复杂 • 兼容性差 • 安全性低2、Hadoop 发行版 • Apache Hadoop (原生版) • Cloudera’s Distribution Including Apache Hadoop(CDH)国内用的比较多。 • Hortonworks Data...原创 2017-10-15 19:33:45 · 1328 阅读 · 0 评论 -
IDEA下安装scala插件
Community Edition FREE 和 Ultimate Edition Free 30-day trial都支撑scala开发,我使用的Ultimate Edition当我们下载IDEA后 安装并启动后,我们需要安装一个scala Plugin,操作步骤如下:输入plugins会出现下面界面:点击 Install Jet转载 2017-10-27 21:50:12 · 983 阅读 · 0 评论 -
eclipse 配置scala问题-More than one scala library found in the build path
配置eclipse出错按照这篇博客http://dongxicheng.org/framework-on-yarn/spark-eclipse-ide/安装scalaIDE插件,但是并没有成功,当引入如下spark-assembly-1.5.1-hadoop2.6.0.jar(对应我自己的spark下的jar包)会报错,提示这个jar包与源环境中的jar包冲突(提示scala环境冲突)—-转载 2017-10-28 13:52:54 · 979 阅读 · 0 评论 -
大数据CentOs 下安装nginx_07
1、准备工作选首先安装这几个软件:GCC,PCRE(Perl Compatible Regular Expression),zlib,OpenSSL。Nginx是C写的,需要用GCC编译;Nginx的Rewrite和HTTP模块会用到PCRE;Nginx中的Gzip用到zlib;用命令“# gcc”,查看gcc是否安装;如果出现“gcc: no input files”信息,说明已经安原创 2017-09-30 09:56:06 · 259 阅读 · 0 评论 -
大数据01_高并发的处理Nginx
windows下安装以及配置nginx我们需要掌握一些基础的nginx命令,比如启动、停止nginx服务命令、配置改变时重载nginx、检查nginx配置文件命令等,下面来详细介绍一下nginx基础命令及其参数的含义。 说明:我的nginx命令的操作环境是Windows nginx命令:启动nginx 在Windows上安装好nginx后,我们需要原创 2017-08-21 11:34:39 · 760 阅读 · 0 评论