2018年11月_ysjh0014

原创大数据项目之电信客服三

1.启动Kafaka集群这里的Kafka集群搭建就不再说了，如果不会搭建可以看我之前的博文首先启动Zookeeper集群，然后再启动Kafka集群bin/zkServer.sh startbin/kafka-server-start.sh config/server.properties2.创建Kafka主题bin/kafka-topics.sh --zookeeper...

2018-11-29 18:38:25 756

原创大数据项目之电信客服二

1.数据生产在实际生产中，这个环节并不会让你来做，更不会来模拟生产数据，但是这里是为了项目运行，也是为了让你连接每个环节2.项目创建在IDEA中先创建一个Java项目ct，然后在该项目中建立各个Module模块进行编写，这样比较清晰，比如这里的生产数据模块就可以建立一个ct_producer的Maven模块由于生产数据模块不是重点，只是作为实际生产环境中的一部分，所以这里不做过...

2018-11-29 18:25:39 1104

原创大数据项目之电信客服一

1.项目需求对通话运营商的通话记录数据进行离线的分析处理，通话记录信息包含通话的手机号码，通话时间，通话时长，是否为主叫等信息2.项目架构这里对整个项目架构进行简单的说明首先通话数据是自己写代码生产出来的，然后使用Flume，实时采集数据，将采集到的数据写入Kafka，将Kafaka中的数据消费到HBase，最后写MapReduce程序对HBase中的数据进行离线分析，将最终结果写...

2018-11-29 18:06:53 1843

原创在Centos中配置DNS服务

DNS（Domain Name System域名系统）是一种基于分布式的数据库系统，并采用C/S模式进行主机域名与IP地址之间的转换环境：centos系统主机一台 IP地址：192.168.220.137DNS软件包bind步骤一：查看是否安装DNS软件包bindrpm -qa|grep bind如果没有安装则安装yum install bind启动n...

2018-11-28 19:51:35 945

原创在IDEA中创建第一个Spring Boot应用

1.创建springboot项目Next后边的步骤都是平时用的，这里就不再放图出来了2.编写一个简单代码进行测试在SpringbootApplication.java中：package cn.ysjh.springboot2;import org.springframework.boot.SpringApplication;import org.springframew...

2018-11-23 19:43:03 261

原创 Spring的Java配置方式

Java配置方式是Spring4.x推荐的配置方式，可以完全替代xml配置文件Spring的Java配置方式是通过@Configuration和@Bean这两个注解实现的@Configuration：作用于类上，相当于一个xml配置文件@Bean：作用于方法上，相当于xml配置文件中的<bean>下面通过一个示例来具体了解一下Spring的Java配置...

2018-11-23 18:22:58 174

原创 Spring Boot初识

1.Spring Boot的产生随着动态语言的流行(Ruby，Scala，Node.js)，Java的开发显得越来越笨重，繁多的配置，低下的开发效率，复杂的部署流程以及第三方技术集成难度大因此，Spring Boot应运而生，它使用"习惯优于配置"的理念让你的项目快速运行起来，使用Spring Boot很容易创建一个独立运行，准生产级别的基于Spring框架的项目，使用Spring Boo...

2018-11-23 14:55:12 169

原创 Hadoop集群的ResourceManager HA高可用配置

ResourceManager HAyarn-site.xml：<configuration><property> <name>yarn.nodemanager.aux-services</name> ...

2018-11-21 21:27:26 1307 1

原创 Hadoop集群的Namenode HA高可用配置

HA配置首先要有zookeeper集群，这里就不再说明zookeeper集群的搭建了，可以在我的前面的文章中找到我这里是在之前Hadoop单点的基础上进行HA配置的集群HA规划：cdh0： Namenode Datanode JournalNode NodeManager ZKcdh1：Namenode Datanode JournalNode Resourc...

2018-11-21 21:16:48 704

原创 Storm的容错性(可靠性)

1.Worker挂掉当worker挂掉，supervisor将会重新启动它，如果supervisor启动连续失败并且无法对Nimbus进行心跳，Nimbus将会在其他机器上重新安排worker2.节点挂掉如果节点机器挂掉，分配给该机器的任务将超时，Nimbus会将这些任务重新分配给其他机器3.Nimbus或者Supervisor守护进程挂掉Nimbus和Supervisor守护...

2018-11-21 19:35:40 415

JeeSite 是一个 Java EE 企业级快速开发平台，基于经典技术组合（Spring Boot、Spring MVC、Apache Shiro、MyBatis、Beetl、Bootstrap、AdminLTE），在线代码生成功能，包括核心模块如：组织机构、角色用户、菜单及按钮授权、数据权限、系统参数、内容管理、工作流等。采用松耦合设计；界面无刷新，一键换肤；众多账号安全设置，密码策略；在线定...

2018-11-21 19:20:57 2223

原创 Storm整合HBase

跟之前Storm整合的一样，这里直接放代码了package cn.ysjh.drpc;import org.apache.storm.Config;import org.apache.storm.LocalCluster;import org.apache.storm.hbase.bolt.HBaseBolt;import org.apache.storm.hbase.bolt....

2018-11-21 15:58:04 385

原创 Storm整合HDFS

实现功能：将一个特定数组中的数据每隔0.2秒随机取出一个然后将这些数据实时的写入到HDFS中实现代码：package cn.ysjh.drpc;import org.apache.storm.Config;import org.apache.storm.LocalCluster;import org.apache.storm.hdfs.bolt.HdfsBolt;impo...

2018-11-16 11:18:32 375

原创 Storm整合JDBC

实现功能：将前面整合Redis的一样，只不过是将结果写入到Mysql数据库中运行环境跟前面的案例一样，只需要加上storm-jdbc的依赖包即可<dependency> <groupId>org.apache.storm</groupId> <artifactId>storm-jdbc</artifactI...

2018-11-16 10:45:27 702

原创 Storm整合Redis

实现功能：将之前的词频统计案例改编，将一个数组中的数据每隔1秒取出一个，通过Storm的Topology处理之后写入到Redis中首先要记得导入pom依赖<dependency> <groupId>org.apache.storm</groupId> <artifactId>storm-redis</art...

2018-11-15 20:23:00 1045

原创远程连接redis数据库

我这里的连接环境是redis数据库安装在腾讯云服务器上，使用Redis Desktop Manager软件来连接首先安装redis数据库就不在这里说明了，前面有详细的文章介绍Redis Desktop Manager官网下载是要收费的，可以在我的百度网盘下载：链接: https://pan.baidu.com/s/19yl0O3Mizbp4v5eSGdDRXA提取码: 93na...

2018-11-15 16:11:40 2233

原创 Storm本地模式下的DRPC开发

根据官方文档Local DRPC模式开发可以很容易的写出代码下面是我运行过的代码：package cn.ysjh.drpc;import org.apache.storm.Config;import org.apache.storm.LocalCluster;import org.apache.storm.LocalDRPC;import org.apache.storm.dr...

2018-11-14 20:57:28 1663

原创 Storm中的DRPC简单概述

前边我们基Hadoop实现了RPC，下面将一下Storm中的DRPCDRPC：分布式RPC，Storm中的DRPC是使用Storm实时并行计算真正强大的函数，Storm拓扑作为输入接收函数参数流，并为每个函数调用发出结果的输出流DRPC不是Storm的一个特征，因为它是Storm的streams spouts bolts和topologies表示的模式，DRPC本可以打包成Storm独立的...

2018-11-14 20:21:56 947

原创基于Hadoop的RPC原理实现

上一篇文章简单的讲解了一下RPC的概念和原理简单来说就是一台机器上的应用想调用另一台机器上的函数或者方法，由于不在同一个内存空间中，所以不能直接调用，要使用RPC协议来调用下边就来基于Hadoop来实现RPC调用1.加入Hadoop的依赖包<repositories> <repository> <id>cloudera&lt...

2018-11-14 19:55:10 1953

原创 RPC原理简介

什么是RPC百度百科介绍：RPC(Remote Procedure Call)——远程过程调用，它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发包括网络分布式多程序在内的应用程序更加容易RPC采用客户机/服务器模式...

2018-11-14 15:47:21 186

原创 Storm中并行度概念简介

当我们处理的数据量越来越大的时候，很少的节点处理起来就会变得困难，我们能想到的办法就是增加节点数，但是增加服务器节点有许多的限制，并不是首选方法，首选发放是增加Storm程序的并行度，进行代码的优化而并行度是要配置多个地方的，比如Work Executor Task，这三个之间又是互相影响的一个运行的Topology就是由集群中多台物理机上的多个worker进程组成...

2018-11-14 14:10:46 273

原创 Storm案例之词频统计

1.案例需求在本地模式下使用Storm实现统计指定文件中的词频个数统计2.需求分析Spout来读取指定文件的数据，并把每一行数据发送出去Bolt来实现具体逻辑，单词分割和统计将结果输出到控制台Spout——>Bolt——>Bolt3.导入Storm的依赖，在上一篇求和案例中有这个依赖，这里就不再重复了4.具体代码package cn.ysjh;...

2018-11-14 10:59:51 2744

原创 Storm案例之自增数字求和

1.案例需求实现自增数字相加的和 1+2+3+4+5+6+........2.需求分析Spout来发送数字作为input使用Bolt来实现求和逻辑将结果输出到控制台3.导入Storm的pom依赖<dependency> <groupId>org.apache.storm</groupId> <artif...

2018-11-12 21:05:43 215

转载深入理解Apache Flink核心技术

Apache Flink是继Spark之后又一个大数据流式处理引擎，虽然我还没有学过，但是对于IT行业来说就是不断学习嘛，所以在这里先借鉴一篇讲解的比较全面的关于Flink的文章供大家参考阅读原文地址：点我阅读原文 Apache Flink（下简称Flink）项目是大数据处理领域最近冉冉升起的一颗新星，其不同于其他大数据项目的诸多特性吸引了越来越多人的关注。本文将深入分析Flink...

2018-11-12 16:46:00 170

原创 Storm核心概念

简单讲解：Topology：计算拓扑，由Spouts和Bolts组成，将整个流程串起来Stream：流，数据流，水流，是一个抽象概念，由没有边界的Tuple组成Spout：产生数据/水的东西，消息流的源头，Topology的消息生产者Bolt：处理数据/水的东西水壶/水桶，消息处理单元，可以做过滤，聚合，查询/写数据库等操作Tuple：数据/水，传递的基本单元...

2018-11-12 16:38:34 285

原创 Storm集群部署详解

1.集群规划cdh0 storm zookeepercdh1 storm zookeepercdh2 storm zookeeper2.基础环境搭建jdk7+python2.6.6+3.配置文件的修改storm-env.shexport JAVA_HOME=你自己的jdk的目录storm.yamlstorm.zookee...

2018-11-09 20:01:50 310

原创 Storm单机版部署及讲解

1.部署前环境jdk7+python2.6.6+zookeeper(这里的单机版使用Storm自带的zookeeper)2.下载Storm压缩包，上传解压3.修改conf目录下的storm-env.shexport JAVA_HOME=你自己的jdk所在位置的目录4.启动Storm 1)在Storm目录下执行bin/storm就可以看到很多详细的命令 2...

2018-11-08 21:17:37 1445

原创 Storm初识

Storm官方网站： http://storm.apache.org/Github地址： https://github.com/apache/storm1.Storm是什么Apache Storm是一个免费的开源分布式实时计算系统，是由Twitter产生的，Storm可以轻松可靠地处理无限数据流，实现Hadoop对批处理所做的实时处理...

2018-11-08 19:53:48 124

原创 HBase的高可用

在HBase中HMaster负责监控RegionServer的生命周期，均衡 RegionServer 的负载，那么如果HMaster 挂掉了，那么整个 HBase 集群将不能正常工作，所以HBase中需要对HMaster进行高可用配置具体步骤如下：1.关闭HBase集群(如果已关闭则跳过这步)bin/stop-hbase.sh2.在HBase中conf目录下创建backup-m...

2018-11-08 16:26:21 321

原创 HBase与Sqoop的集成

之前学习Sqoop的时候都是Hadoop，Hive和RDBMS之间进行数据的导入与导出，并没有与HBase集成，下面就来讲解HBase与Sqoop的集成需求：利用 Sqoop 在 HBase 和 RDBMS 中进行数据的转储，将 RDBMS(Mysql) 中的数据抽取到 HBase 中1.在Sqoop中配置sqoop-env.sh，添加下边的内容export HBASE_HOME...

2018-11-08 15:52:56 702

原创我的个人网站

欢迎大家访问我的个人网站： ysjh0014.cn

2018-11-08 15:39:21 388

原创 Shell脚本运行的四种方式

1.通过chmod命令把文件的权限设置为可读，可执行，然后用./shell程序名来运行2.bash(或sh)+脚本所在路径+脚本程序名3.bash+<+脚本所在路径+脚本程序名4.source+脚本所在路径+脚本程序名 ...

2018-11-06 20:14:54 1655

原创 Linux中的shell编程初识

1.shell简介Shell是Linux的一个外壳，它包在Linux内核的外面，为用户和内核之间的交换提供一个接口2.Shell程序结构3.Shell编程——Hello World最简单的Shell程序就是不包含一条语句，但这是无意义的Hello World程序只包含一条代码：echo "Hello World"Shell程序就是包含一系列的Linux命令和控制语句...

2018-11-06 20:11:03 144

原创如何入门大数据

作为一名大数据的初学者，你可能会有很多疑惑如何入门？要学什么？要会什么？学到什么程度能找工作？能赚多少钱？这篇文章，写给：刚刚入门大数据的同学现在，大数据方向的大致分为以下几类：1.大数据工程师（平台开发）2.大数据运维（平台维护）3.数据分析师（算法、机器学习等）4.大数据科学家因为我的方向就是大数据工程师，所以在这里就介绍一下1.技能掌握2.如何入门3....

2018-11-06 19:51:03 424 3

原创 HBase常用的shell操作

1.status显示服务器状态hbase>status 'cdh0'2.whoami显示HBase当前用户hbase>whoami3.count统计指定表的记录数hbase>count 'test'4.describe展示表结构信息hbase>describe 'test'5.exist检查表是否存在，适用于表量特...

2018-11-05 21:32:52 229

原创 HBase与Hive的集成案例二

1.案例需求在 HBase 中已经存储了某一张表hbase_hive，然后在Hive中创建一个外部表来关联HBase中的hbase_hive这张表，使之可以借助 Hive来分析 HBase 这张表中的数据，案例二是紧接着案例一进行的，所以在做案例二之前应该先进行案例一2.在Hive中创建外部表并关联到HBase中的表CREATE EXTERNAL TABLE hbase_emp(e...

2018-11-05 17:44:13 325 1

原创 HBase与Hive的集成案例一

1.Hive与HBase的对比 Hive 1)数据仓库Hive 的本质其实就相当于将 HDFS 中已经存储的文件在 Mysql 中做了一个双射关系，以方便使用 HQL 去管理查询 2)用于数据分析、清洗Hive 适用于离线的数据分析和清洗，延迟较高 3)基于 HDFS、MapReduceHive 存储的数据依旧在 DataNode 上，编写的 HQL 语...

2018-11-05 17:36:33 405

原创 docker中的mysql数据库连接不上解决办法

1.在docker内部连接不上mysql数据库即在本地模式下不能连接这时候应该是docker容器重启过，mysql数据库没有启动的原因，可以使用service mysql restart来启动mysql数据库2.在宿主机上不能远程连接到docker容器中的mysql数据库这时候应该是mysql数据库经过重启之后，没有对root用户进行授权，所以不能远程连接可以在启动m...

2018-11-05 17:05:15 36170 2

原创 HBase之自定义HBase-Mapreduce案例一

1.需求场景将HBase中的ys表中的一部分数据通过Mapreduce迁移到ys_mr表中2.代码编写 1)构建ReadysMapreduce类，用于读取ys表中的数据package cn.ysjh;import java.io.IOException;import org.apache.hadoop.hbase.Cell;import org.apache.hado...

2018-11-04 11:09:30 499

原创 Hbase之官方Hbase-Mapreduce案例

Hbase是一个非关系型的数据库，可以分布式部署，擅长存储数据，但是不能分析数据，所以通过 HBase 的相关 JavaAPI，我们可以实现伴随HBase 操作的 MapReduce 过程，比如使用MapReduce 将数据从本地文件系统导入到 HBase 的表中，比如我们从 HBase 中读取一些原始数据后使用 MapReduce 做数据分析Hbase-Mapreduce官方案例(统计有多少...

2018-11-03 10:00:41 1467

空空如也

空空如也