年月日朝朝暮暮-CSDN博客

原创 hadoop集群的群起脚本

#!/bin/bashecho "==========================正在开启集群服务=========================="echo "========================正在开启Zookeeper节点========================"for i in admin@hlh001 admin@hlh002 admin@hlh003...

2019-09-02 16:37:14 471

原创 spark里面的RDD基本知识

一、spark core RDD：Resilient Distributed Dataset 弹性分布式数据集不可变如果需要在一个RDD进行转换操作则会生成一个新的RDD 可分区 RDD里面的具...

2019-09-02 09:47:20 324

原创 mongoDB的基本概念及安装部署及设置为系统服务

一、MongoDB的基本概念数据库 database - 一个服务器中可以有多个数据库 - 数据库用来保存集合集合 collection - 一个数据库中可以有多个集合 - 集合用来保存文档文档 document - 一个集合中有多个文档 - 文...

2019-08-31 14:57:54 300

原创完整elasticsearch安装及其插件安装

一、elasticsearch安装1、官网下载安装包并上传并解压2、es下建立data和logs目录3、编辑conf/elasticsearch.yml文件 cluster：cluster.name:hlh-app node：node.name:node-248 paths： path.data: path.logs: memory：bo...

2019-08-31 11:57:48 356

原创 Scala之协变、逆变、上界、下界

协变：如果A是B的父类，在你这个泛型这个类里面，那么你这个group[A]也是group[B]的父类 class Group[+T](t : T) val groupA:Group[A] = new Group[A](new A) val groupB:Group[B] = groupA逆变：如果A是B的父类，在你这个泛型这个类里面，那么你这个g...

2019-08-30 09:26:32 388

原创大数据开发之spark基础

spark 一、产生背景迭代式计算交互式数据挖掘二、安装部署 1、下载安装包 2、上传到linux 3、解压 4、配置 conf 复制cp ...

2019-08-29 15:52:43 257

原创 NoSql数据库redis基本知识

Redis一、NoSql介绍能干嘛 KV+Cache+Persistence NoSql=Not Only SQL 泛指非关系型的数据库这些类型的数据存储不需要固定的模式，无需多余的操作就可以横向扩展 CAP redis mong...

2019-08-28 18:36:54 215

原创大数据开发之MapReduce常用的调优参数

一、资源相关参数1）以下参数是在用户自己的mr应用程序中配置就可以生效（mapred-default.xml）配置参数参数说明 mapreduce.map.memory.mb 一个Map Task可使用的资源上限（单位:MB），默认为1024。如果Map Task实际使用的资源量超过该值，则会被强制杀死。 ...

2019-08-28 08:24:18 231

原创 Linux四剑客之awk和sed

awk 做数据统计，文件日志分析基本操作 1）打印文件中的某一列 awk '{print $1}' test.txt 2）打印文件的最后一列 awk '{print $NF}' test.txt 3）打印文件的第一列并且截取冒...

2019-08-26 17:51:28 172

原创 Linux四剑客之grep

grep一、基础操作 0）过滤查找，匹配文件里面的某个字符、内容 1）查找文件里面的某个内容 grep "root" /etc/passwd 2）查找文件里面的某个内容并且加颜色 grep ...

2019-08-26 17:16:57 148

原创大数据开发之storm基础知识点

storm 一、概述离线计算批量获取数据、批量传输数据、周期性批量计算数据、数据展示代表技术 Sqoop批量导入数据、HDFS批量存储数据、MapReduce批量计算数据、Hive批量计算数据流式计算...

2019-08-26 16:08:20 310

原创 Linux四剑客之find

Find命令一、寻找指定目录下的以txt结尾的文件find /home/test/upload -name "*.txt" find . (.代表当前目录)二、寻找类型为file的文件，如果需要找dir文件则将f变为dfind /home/test/upload -name "*.txt" -type f...

2019-08-25 22:41:08 142

原创大数据开发之JVM基础知识点

JVM认知熟悉jvm架构以及垃圾回收机制以及相应的参数调优，有过在linux进行系统优化的经验线程和操作系统有关过程 1）class文件通过类加载器加进内存区域---class loader类加载器负责加载class文件，class文件在文件开头有特定的文件标示，并且ClassLoad...

2019-08-25 15:58:35 250

原创大数据开发之kafka基础知识点

kafka一、理性认知在流式计算中，kafka一般用来缓存数据，Storm通过消费kafka的数据进行计算 1、Apache kafka是一个开源消息系统，由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目 2、kafka最初是由LinkedIn开发，并于2011年初开源。该项目的目标是为处理实时数据提供一个统...

2019-08-25 15:51:41 166

原创大数据开发之Oozie基本知识点

Oozie 一、理性认知英文释义驯象人简介一个基于工作流引擎的开源框架，由cloudera公司贡献给Apache，提供对hadoop，MapReduce，Pig jobs的任务调度与协调。Oozie需要部署到java Servlet容器中运行在集群中扮演的角色...

2019-08-23 16:03:44 261

原创大数据开发之hadoop HA配置

hadoop HA一、原理 HA高可用存储当editlog发生变化时，则直接写入JournalNode，以用来分享给其他的NameNode二、安装部署 step1、配置zookeeper step2、配置hadoop hadoop-env.sh core-site.xml...

2019-08-23 15:56:46 113

原创大数据开发之flume知识点总结

flume一、理性认知 1、flume在集群中扮演的角色 flume、kafka用来实时的进行数据收集，spark、storm用来实时处理数据，impala用来实时查询 2、flume框架简介 1）flume提供一个分布式的，可靠的，对大数据量的日志进行高效收集、聚集、移动的服务，flume只能在Unix环境下运行...

2019-08-22 17:27:09 243

原创大数据开发之hive知识点总结

hive一、认知数据库与数据仓库数据库 mysql,oracle,sqlserver,DB2,sqlite,MDB 数据仓库 hive 是M...

2019-08-22 10:35:05 293

原创大数据开发之zookeeper知识点总结

ZOOKEEPER 一、概述是一个开源的分布式的，为分布式应用提供协调服务的Apache项目基于观察者模式设计的分布式服务管理框架，它负责存储和管理大家都关心的数据，然后接受观察者的注册，一旦这些数据发送变化，zookeeper就将负责通知注册的观察者做出相应的反应，从而实现集群中类似Master/Slave管理模式...

2019-08-21 13:16:44 210

原创将namenode的编辑日志和镜像文件变成可读的xml

[root@hlh001 current]# hdfs oiv -p XML -i fsimage_0000000000000000269 -o ./fsimage.xml[root@hlh001 current]# hdfs oev -p XML -i edits_0000000000000000001-0000000000000000002 -o ./edits.xml然后就可...

2019-08-19 15:55:37 236

原创在idea中配置web程序执行

一、将web项目挂载到tomcat之上选择要运行的模块点ok二、向web工程中添加依赖，一般情况会自动添加，如果没有自动添加就手动添加进来三、做到这里就可以运行所做的web项目了...

2019-08-16 17:32:43 118

原创大数据之MapReduce并行算法简单概括

MapReduce重点程序员必须指定:map (k, v) → <k’, v’>*reduce (k’, v’) → <k’, v’>* 所有具有相同key的value被聚集到一起可选的操作：partition (k’,划分数) → k’的划分往往使用key的一个简单散列函数, e.g., hash(k’) mod n 为并行redu...

2019-08-15 18:06:28 1412

原创大数据开发之kafka配置信息

目录一、Broker配置信息二、Producer配置信息三、Consumer配置信息一、Broker配置信息属性默认值描述 broker.id 必填参数，broker的唯一标识 log.dirs /tmp/kaf...

2019-08-15 17:42:31 119

原创大数据之安装hive

一、按照自己的需要去下载相应的版本并传到centos中https://archive.apache.org/dist/hive/hive-1.2.1/二、解压并改名[root@hlh003 software]# tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /opt/module/[root@hlh001 module]# mv a...

2019-08-14 15:23:09 96

原创大数据开发之flume安装

下载需要的版本并且上传到centos这里我下载的是flume1.7.0，地址：http://www.apache.org/dyn/closer.lua/flume/1.7.0/apache-flume-1.7.0-bin.tar.gz解压并改名[root@hlh001 software]# tar -zxvf apache-flume-1.7.0-bin.tar.gz -C /o...

2019-08-14 12:37:12 103

原创大数据开发之kafka安装

安装kafka前需要安装zookeeper，参考https://blog.csdn.net/weixin_44772799/article/details/99545064一、按需求下载kafka并传到centos二、解压安装包[root@hlh001 software]# tar -zxvf kafka_2.11-0.11.0.0.tgz -C /opt/module...

2019-08-14 11:17:24 92

原创大数据开发之zookeeper集群搭建

一、下载zookeeper直接搜需要的版本进行下载，这里我下载的是3.4.10版本的二、将压缩包上传到centos之上三、解压[root@hlh003 software]# tar -zxvf zookeeper-3.4.10.tar.gz -C /opt/module/四、将配置文件中的zoo_sample.cfg改为zoo.cfg[root@hlh001 z...

2019-08-14 10:24:44 194

原创查看常用centos的版本信息

一、查看Linux--centos的版本[root@hadoop003 ~]# cat /etc/redhat-releaseCentOS Linux release 7.6.1810 (Core)二、查看Linux依赖的版本[root@hadoop003 ~]# cat /proc/versionLinux version 3.10.0-693.el7.x86_64 (bui...

2019-08-08 15:36:00 937

原创 centos7安装docker

操作环境：centos7内核版本：3.10.0-693.el7.x86_64一、安装docker需要centos内核版本在3.10之上，首先要知道自己的centos内核版本[root@hadoop001 ~]# uname -r3.10.0-693.el7.x86_64二、更新一下centos上的yum[root@hadoop001 ~]# yum update三...

2019-08-07 16:41:51 417

原创安装CDH时关于MySQL的配置

安装配置MySQLrpm -qa|grep mariadbrpm -e --nodeps mariadb-libs-5.5.56-2.el7.x86_64/usr/share/java驱动目录 mv mysql-connector-java-5.1.7-bin.jar mysql-connector-java.jar /usr/share/java启动MySQL：...

2019-08-07 11:53:34 2653

原创操作hadoop的基本命令

haddop fs -ls / (查询目录)hadoop fs -mkdir /test （在根目录下创建一个目录test）hadoop fs -put ./test.txt /test （将本地的test.txt文件上传到HDFS根目录下的test文件夹中去） hadoop fs -copyFromLocal ./test.txt /test （同上）h...

2019-08-07 11:44:10 255

原创物理机centos7配置静态IP和网关

一、设置主机名 1）vi /etc/hostname 2）vi /etc/hosts二、配置网关vi /etc/sysconfig/network三、配置IP地址 vi/etc/sysconfig/network-scripts/ifcfg-enp2s0四、reboot重启...

2019-08-04 14:24:35 8432 4

原创大数据学习之Linux服务器常用命令

线上查询、帮助命令（2个） man 查看命令帮助，命令词典，更复杂还有info，但不常用。 help 查看Linux内置命令的帮助，比如cd等命令。文件、目录操作命令（18个） ls 全拼为list，功能是列出目录的内容及其内容属性信息。...

2019-08-01 12:30:05 1794 2

原创 centos7由于将动态IP改成静态IP后导致无法连接外网的解决方法

环境：centos7/*如果是克隆的虚拟机那么要把UUID相关的步骤加上，如果只是因为把动态IP修改成静态IP导致重启之后ping不通外网就去掉UUID的步骤*/1、在cd /目录下执行uuidgen enp2s0复制下这个生成的UUIDuuidgen后面的看你自己电脑上ifconfig-后面是什么就输什么。68bd5da5-71a0-4f07-8ef8-ab5ad9c968...

2019-08-01 11:49:05 1262

原创大数据学习之hadoop伪分布式搭建过程

hadoop-2.7.1伪分布环境搭建1.准备Linux环境　　1.0 点击VMware快捷方式，右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 设置网段：192.168.8.0 子网掩码：255.255.255.0 -> apply -> ok　　回到windows -...

2019-07-31 17:53:38 202

原创 Linux最需要掌握的一部分常见命令

端口监听查看：ss -tln查看TCP的listen的端口ss -tlnp查看哪些进程使用了监听端口防火墙systemctl status iptables (或service iptables status)查看防火墙状态systemctl stop iptables(或service iptables stop)关闭防火墙系统信息...

2019-07-31 17:45:00 226

原创 centos7搭建zookeeper后启动好了却出现：Error contacting service. It is probably not running. 解决方法

我的环境是centos7，zookeeper3.5.5在搭建zookeeper完了之后会出现以下报错：可以看到在出现这个错误之后我的jps里面又显示有zookeeper这个进程启动着的，但是就是没有Mode出现。一般来说，如果只是出现这个错误但是进程没有启动好，可能是由于防火墙没关闭，或者是端口号被占用，或者给是配置文件出现了问题等等。这些这里不做讲解。我出现问题的原因是...

2019-07-31 16:07:14 4123

原创 Windows远程控制同一网段下的其它电脑

控制条件是在同一网段之下。一、进入控制面板（也可以右键计算机属性进入）二、进入用户账户和家庭安全三、选择密码这一项进入设置好密码四、右键计算机进入管理五、选择服务与应用程序下面的服务六、找到防火墙双击进入七、先选择手动项，然后应用，接着启动防火墙八、右键计算机选择属性，点击里面的远程控制...

2019-07-30 13:24:50 4847

原创大数据学习基础一之虚拟机安装

一、VMware安装1）直接在网上搜vmware workstation选择一个你需要的版本进行安装。2）运行下载下来的文件3）按照默认的选择安装就行了，安装路径可以按照自己的需求进行修改。二、虚拟机的安装1）启动已经安装好的VMware，点击文件选择新建虚拟机2）一般来说选择自定义3）下一步到如图所示，选择稍后安装操作系统，也可以直...

2019-07-29 14:24:35 406

做项目的时候免不了对数据库进行批量操作，比如说批量增加一批产品，批量增加一批工号。而这时候我们对于所增加的对象的自编号自然是不可能从页面由客户自己对一个个自编号进行手动输入，这样当所需要的编号达到一定数值之后就会造成极大的负担。但是将所需要增加的数量传过来由工具自动生成就很棒了。以下就是一个Id批量生成器，有需要的朋友直接拿去用就可以了：import java.text.SimpleDate...

2019-07-18 14:40:50 1455

空空如也

空空如也