![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Linux
小飞猪666
这个作者很懒,什么都没留下…
展开
-
大数据Hive的操作_03_02
启动hadoop集群、启动hive的服务器端和客户端。在weekend12客户端上执行如下命令:创建表语句(默认是内部表)create table teacher(id int ,name String ) row format delimited fields terminated by '\t'; row format delimited fields termina原创 2017-09-06 23:16:20 · 605 阅读 · 0 评论 -
大数据Spark01简介
Spark简介Apache Spark 是一个大数据处理快速通用引擎,提供了分布式的内存抽象(这就是快速计算的原因之一)。Spark最初由美国加州伯克利大学(UCBerkeley)的AMP(Algorithms, Machines and People)实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。Spark在诞生之初属于研原创 2017-10-24 23:14:44 · 1877 阅读 · 1 评论 -
大数据Spark03_集群环境搭建及任务提交的方式
Spark四种部署方式Spark应用程序在集群上部署运行时,可以由不同的组件为其提供资源管理调度服务(资源包括CPU、内存等)。比如,可以使用自带的独立集群管理器(standalone),或者使用YARN,也可以使用Mesos。因此,Spark包括三种不同类型的集群部署方式,包括standalone、Spark on Mesos和Spark on YARN。1.Local模式:此模式...原创 2017-10-29 21:02:05 · 509 阅读 · 0 评论 -
大数据Spark07_SparkShell、SparkUI界面、SparkHA、SparkShuffle、Spark内存管理
在weekend10、weekend11、weekend12节点上启动spark standalone集群在weekend08、weekend09、weekend10、weekend11、weekend12、weekend13节点上启动hadoop集群在weekend08节点上上传本地文件 words.txt 到hdfs 的/spark/data 目录下(通过读取创建RDD)在HDFS原创 2017-11-11 15:36:32 · 617 阅读 · 0 评论 -
Hadoop集群的搭建
NameNode高可用方案要点这种情形:当一个NameNode当掉了,整个集群就无法运行了。Hadoop2.0后将NameNode进行了一个抽象,它把这个NameNode抽象为了一个NameService一个NameService下面有两个NameNode,这时候就得需要有个东西来协调,否则两个NameNode都是active的状态或者为standby状态(等待),这时候zo...原创 2017-06-20 21:43:39 · 465 阅读 · 0 评论 -
DbVisualizer配置连接hive
一、安装DbVisualizer下载地址http://www.dbvis.com/也可以从网上下载破解版程序,此处使用的版本是DbVisualizer 9.1.1具体的安装步骤可以百度,或是修改安装目录之后默认安装就可以二、配置DbVisualizer里的hive jdbc1、在DbVisualizer的安装目录jdbc文件夹下新建hive文件夹D:\Program F...原创 2018-12-03 17:24:42 · 776 阅读 · 0 评论 -
shell编程(一)
shell编程(一)如今,不会Linux的程序员都不意思说自己是程序员,而不会shell编程就不能说自己会Linux。说起来似乎shell编程很屌啊,然而不用担心,其实shell编程真的很简单。背景什么是shell编程高大上的解释,往往让人摸不住头脑。一句话概括就是:shell编程就是对一堆Linux命令的逻辑化处理。为什么要会shell编程举个简单的例子,我们做javaw...原创 2019-03-14 14:44:38 · 306 阅读 · 0 评论 -
shell编程(二)
shell编程(二)上篇我们学会了如何使用及定义变量。一般接下来就该学基本数据类型的运算了。没错,本篇就仍是这么俗套的来讲讲这无聊但又必学的基本数据类型的运算了。基本数据类型运算操作符符号 语义 描述 + 加 10+10,结果为20 - 减 10-3, 结果为7 * 乘 10*2,结果为20 / 除 10...转载 2019-03-14 15:08:37 · 225 阅读 · 0 评论 -
shell编程(三)
通过前两篇文章,我们掌握了shell的一些基本写法和变量的使用,以及基本数据类型的运算。那么,本次就将要学习shell的结构化命令了,也就是我们其它编程语言中的条件选择语句及循环语句。不过,在学习shell结构化命令的时候,我们又会发现它与其它编程的语言相比存在不小的区别。下面就开始看看吧:条件选择在条件选择语句中,主要包含以下几种写法:if-then语句if command...转载 2019-03-14 15:55:03 · 167 阅读 · 0 评论 -
shell编程(四)之循环语句-for, while, until
上篇我们学习了shell中条件选择语句的用法。接下来本篇就来学习循环语句。在shell中,循环是通过for, while, until命令来实现的。下面就分别来看看吧。forfor循环有两种形式:for-in语句基本格式如下:for var in list do commandsdonelist代表要循环的值,在每次循环的时候,会把当前的值赋值给var(变量名...转载 2019-03-14 16:13:17 · 221 阅读 · 0 评论 -
shell编程(五)
通过前几篇文章的学习,我们学会了shell的基本语法。在linux的实际操作中,我们经常看到命令会有很多参数,例如:ls -al 等等,那么这个参数是怎么处理的呢? 接下来我们就来看看shell脚本对于用户输入参数的处理。命令行参数处理根据参数位置获取参数bash shell可根据参数位置获取参数。通过$1到$9获取第1到第9个的命令行参数。$0为shell名。如果参数超过9个...转载 2019-03-14 16:31:03 · 149 阅读 · 0 评论 -
大数据10_02_SparkStreaming输入源、foreachRDD、transform、updateStateByKey、reduceByKeyAndWindow
基本数据源1.文件流 从文件中读取数据lines= ssc.textFileStream("file:///usr/local/spark/mycode/streaming/logfile")2.套接字流Spark Streaming可以通过Socket端口监听并接收数据,然后进行相应处理。JavaReceiverInputDStream lines = jsc原创 2018-01-18 22:55:21 · 2581 阅读 · 0 评论 -
大数据Hadoop Yarn 框架原理及运作机制_02_02
1.1 YARN 基本架构YARN是Hadoop 2.0中的资源管理系统,它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务:一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。其中ResourceManager负责整个系统的资源管理和分配,而ApplicationMaster负责单个应用程序的管理。转载 2017-08-29 22:20:44 · 276 阅读 · 0 评论 -
大数据Hadoop之HDFS和MapReduce_02_01
Hadoop主要由HDFS和MapReduce 引擎两部分组成。最底部是HDFS,它存储hadoop集群中所有存储节点上的文件。HDFS 的上一层是MapReduce 引擎,该引擎由JobTrackers 和TaskTrackers组成。分布式文件系统的理解:随着数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和原创 2017-08-29 22:16:25 · 746 阅读 · 0 评论 -
大数据Zookeeper_05
简介Zookeeper 是 Google 的 Chubby一个开源的实现,是 Hadoop 的分布式协调服务。分布式应用程序可以基于它实现数据同步服务,配置维护和命名空间服务等上图的讲解: Zookeeper本身就是一个集群(意味着有好多的机器),为了保证Zookeeper服务的高可靠性,所以我们搭建了多台机器。即使有多台机器宕掉了也不会影响Zookeeper服务原创 2017-09-18 22:21:24 · 392 阅读 · 0 评论 -
大数据Flume_06
Flume一、数据模型Flume的概念 flume是分布式的日志收集系统,它将各个服务器中的数据收集起来并送到指定的地方去,比如说送到图中的HDFS,简单来说flume就是收集日志的。Note:收集到的数据不一定直接到HDFS,还可以暂时存储到Kafka中,然后在存储到HDFS中。Event的概念 event的相关概念:flume的核心是把数据从数据源(sourc原创 2017-09-21 22:59:37 · 335 阅读 · 0 评论 -
大数据CentOs 下安装nginx_07
1、准备工作选首先安装这几个软件:GCC,PCRE(Perl Compatible Regular Expression),zlib,OpenSSL。Nginx是C写的,需要用GCC编译;Nginx的Rewrite和HTTP模块会用到PCRE;Nginx中的Gzip用到zlib;用命令“# gcc”,查看gcc是否安装;如果出现“gcc: no input files”信息,说明已经安原创 2017-09-30 09:56:06 · 256 阅读 · 0 评论 -
eclipse 配置scala问题-More than one scala library found in the build path
配置eclipse出错按照这篇博客http://dongxicheng.org/framework-on-yarn/spark-eclipse-ide/安装scalaIDE插件,但是并没有成功,当引入如下spark-assembly-1.5.1-hadoop2.6.0.jar(对应我自己的spark下的jar包)会报错,提示这个jar包与源环境中的jar包冲突(提示scala环境冲突)—-转载 2017-10-28 13:52:54 · 977 阅读 · 0 评论 -
大数据CDH_10_01
CDH简介1、Apache Hadoop 不足之处 • 版本管理混乱 • 部署过程繁琐、升级过程复杂 • 兼容性差 • 安全性低2、Hadoop 发行版 • Apache Hadoop (原生版) • Cloudera’s Distribution Including Apache Hadoop(CDH)国内用的比较多。 • Hortonworks Data...原创 2017-10-15 19:33:45 · 1324 阅读 · 0 评论 -
大数据CDH之Impala_10_02
Impala简介Cloudera公司推出,提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。基于Hive使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点是CDH平台首选的PB级大数据实时查询分析引擎.http://www.cloudera.com/products/apache-hadoop/impala.htmlhttp://www.impala.i原创 2017-10-21 14:43:44 · 4441 阅读 · 0 评论 -
大数据CDH之Oozie_10_03
Oozie是用于 Hadoop 平台的开源的工作流调度引擎。用来管理Hadoop作业。属于web应用程序,由Oozie client和Oozie Server两个组件构成。Oozie Server运行于Java Servlet容器(Tomcat)中的web程序。官网:https://oozie.apache.org/作用:统一调度hadoop系统中常见的mr任务启动、h原创 2017-10-21 15:31:37 · 465 阅读 · 0 评论 -
大数据项目一电商平台下的日志分析08
详细内容见文档原创 2017-10-10 15:21:48 · 3934 阅读 · 1 评论 -
Linux Shell编程第四章sed命令和awk编程
Sed简介sed是一种新型的,非交互式的编辑器。它能执行与编辑器vi和ex相同的编辑任务。sed编辑器没有提供交互式使用方式,使用者只能在命令行输入编辑命令、指定文件名,然后在屏幕上查看输出。sed编辑器没有破坏性,它不会修改文件,除非使用shell重定向来保存输出结果。默认情况下,所有的输出行都被打印到屏幕上。sed工作过程sed编辑器逐行处理文件(或输入)...原创 2019-03-19 18:03:39 · 576 阅读 · 0 评论