MySQL-5.6部署 1、RPM安装(简单,但无法定制)yum install -y mysql-server.x86_64yum install -y mysql.x86_64service mysqld start卸载:[root@hadoop001 ~]# rpm -qa | grep mysqlmysql-libs-5.1.73-8.el6_8.x86_64mysql-server-5....
jps命令详解 jps概述 jps是JDK提供的一个显示当前所有 java 进程 pid 的命令。 注: jps只能查看当前运行的Java进程 ,其他进程需要通过ps命令查看 jps使用usage: jps [-help] jps [-q] [-mlvV] [<hostid>]Definitions: <host...
Flume监控之Ganglia部署与使用 部署环境 CentOS 7.6 Flume 1.6.0-cdh5.15.1前置准备 1)安装httpd服务与php[js@bigdata001 flume]$ sudo yum -y install httpd php 2)安装其他依赖[js@bigdata001 flume]$ sudo yum -y install ...
Spark:理解闭包 什么是闭包? 闭包就是一个函数,这个函数可能会访问到函数外部的变量。 简单闭包(就是函数):def addOne = (i:Int) => 1 + i 访问外部变量的闭包,如 :var factor = 1def addOne = (i:Int) => factor + i 以上函数应用到函数外...
Redis 3.2.13 部署 目录部署环境前置准备开始部署 1、解压安装包 2、进入安装目录 ,并执行make命令 3、提示以下内容,则make完成: 4、执行make install 5、安装完成, 默认安装目录 : usr/local/bin 6、启动服务 7、启动客户端 8、关闭客户端 REmote ...
Scala :类型、控制结构和函数 目录标识符声明值和变量常用类型:Array伴生类对象中的两个方法option类型Symbol类型if/eleswhile循环for循环函数的定义过程(方法)懒值异常标识符 首字符为字母,后续字符任意字母和数字,美元符号,可后接下划线_ 首字符为操作符,后续字符为任意操作符 用反引号`....`包括的任意字符串,...
使用ScalikeJDBC操作MySQL 目录构建工程连接池Transaction1) readOnly2)autoCommit3)localTx查询API更新API(增删改)执行API(增删改)批处理API(batch) ScalikeJDBC是为Scala开发人员所打造的一款基于访问数据库的工具。提供易于使用且非常灵活的API。 ScalikeJDBC是一个实用且适合生...
Scala Loan Pattern 借贷模式 生产中会遇到需要 密集资源型对象, 即资源集中在一个对象中,那么用户代码就不能一直保持着获得的所有资源,而应该在需要时就向资源供给方进行借贷,使用完毕之后立即归还。 对于具有GC的程序设计语言,它仅仅实现了内存资源的自动回收,而对于诸如文件IO,数据库连接,Socket连接等资源需要程序员自行实现资源的回收。 这样就很容易出现一些 人为的错误 (human...
Hadoop 源码编译(CDH版) 本文使用的hadoop版本为 hadoop-2.6.0-cdh5.7.0为什么要源码编译? 直接使用的hadoop-2.6.0-cdh5.7.0.tar.gz包部署的hadoop集群对于许多的压缩格式都是不支持的(如下图),生产上是不可接受的,故需要重新编译hadoop使之支持压缩。源码包下载地址 : http://archive.cloudera.com/cdh5/cd...
Hadoop HA原理及架构 什么是HA?1)所谓HA(high available),即高可用(7*24小时不中断服务)。2)实现高可用最关键的策略是消除单点故障。Hadoop HA严格来说应该分成各个组件的HA机制:HDFS的HA和YARN的HA。HDFS HA官网:http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.15.1/hadoop-p...
大数据压缩与存储 压缩为什么要压缩? 1)减少磁盘的存储空间 2)减少网络和磁盘的IO 3)加快数据在磁盘和网络中的传输速度,从而提高系统的处理速度压缩的局限性每次使用数据时需要先将数据解压,加重CPU负荷。压缩格式 压缩格式 工具 算法 文件扩展名 ...
HIve:元数据表结构 Hive中的元数据信息默认是存储在derby中的,但是derby是单session的,一般都会修改成mysql。在mysql中的metastore库中存放着hive所有元数据信息的表(如下图)。本文将分别介绍他们各自的用途。VERSION表存储Hive版本的元数据表,如果该表出现问题,根本进入不了Hive-Cli,会报错”Table ‘hive.version’ doesn’t e...
Hive:分区&分桶 分区表 在Hive查询中一般会扫描整个表内容,当数据量比较大的时候,机器的负担是很重的,而且有时候只需要扫描表中关心的一部分数据,因此就引入了分区概念。 分区表实际上就是对应一个HDFS上独立的文件夹,该文件夹下是该分区所有的数据文件。Hive中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。在查询时通过WHERE子句中的表达式选择查询所需要的指...
HIve:DDL&DML 官网:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL基本数据类型 Hive数据类型(红色为常用) 长度 说明 TINYINT 1byte有符号整数 用INT替代 SMALINT ...
joda-time详解 在工作中经常会碰到需要对时间进行处理的情况。SimpleDateFormat被大量使用于处理时间格式化过程,由于时间转换过程遇到的多线程并发的使用场景并不多见,所以很难发现在该类的隐患,事实上,该类并非是线程安全的,在多线程使用format()和parse()方法时可能会遇到问题。 也就是说,使用同一个SimpleDateFormat实例,开若干线程做日期转换操作,得...
Git常用命令总结 命令 说明 git clone <url> 克隆远程仓库 git init 初始化本地版本库 git status 查看状态 git diff 查看变更内容 git add . 工作区所有内容添加到暂存区 ...
Hive概述 产生背景 1、MR编程不便性 2、传统的RDBMS人员的需求Hive是什么? Hive:由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序。 Hive处理的数据存储在H...
Hadoop系列深入优化 1、 操作系统调优 1)增大打开文件数据和网络连接上限,调整内核参数net.core.somaxconn,提高读写速度和网络带宽使用率 2)适当调整epoll的文件描述符上限,提高Hadoop RPC并发 3)关闭swap。如果进程内存不足,系统会将内存中的部分数据暂时写入磁盘,当需要时再将磁盘上的数据动态换置到内存中,这样会降低进程执行效率...
Yarn 调优 (内存、CPU) 在YARN集群中,平衡内存、CPU、磁盘的资源的很重要的。根据经验,每两个container使用一块磁盘以及一个CPU核的时候可以使集群的资源得到一个比较好的利用。内存配置YARN所有可用的内存资源应该要减去系统预留内存、各个进程内存的经验值。即:总共保留的内存=系统内存+各个进程内存的经验值。Hbase 、系统需要的内存(一般留总内存的20%左右)参考:每台...
Yarn 详解 Yarn(Yet Another Resource Negotiator 另一种资源协商者)它作为 Hadoop的一个组件,负责整个集群资源的管理和调度。 在Hadoop2.0的第一个版本2.0.0-alpha,Yarn 作为一个正式组件加入。 在hadoop 1.x时,JobTracker存在单点故障、节点压力大不容易扩展、不能够支持多种计算框架。Yarn...