March

卫庆的博客

Mysql 到 Hbase 数据如何实时同步,强大的 Streamsets 告诉你

很多情况大数据集群需要获取业务数据,用于分析。通常有两种方式: 业务直接或间接写入的方式 业务的关系型数据库同步到大数据集群的方式 第一种可以是在业务中编写代码,将觉得需要发送的数据发送到消息队列,最终落地到大数据集群。 第二种则是通过数据同步的方式,将关系型数据同步到大数据集群,可以是存储在...

2019-01-26 11:54:39

阅读数 23

评论数 0

【Hbase】掌握这些常用 hbase shell 命令,工作更轻松

本文将介绍一些开发以及运维工作中经常用到的 Hbase Shell 命令。作为开发以及运维人员这些常用命令是需要了解并经常使用的,当然可以不必将他们死记硬背下来。如果在某些场景下想到需要使用某个命令,但是又不知道具体的使用方法时,可以扫一眼这篇文章(熟练使用 mysql 命令的用户可能会觉得 h...

2019-01-05 15:40:58

阅读数 17

评论数 0

Apache Flume 入门教程

概要 Apache Flume 是一个分布式,可靠且可用的系统,用于有效地从许多不同的源收集、聚合和移动大量日志数据到一个集中式的数据存储区。 Flume 的使用不只限于日志数据。因为数据源可以定制,flume 可以被用来传输大量事件数据,这些数据不仅仅包括网络通讯数据、社交媒体产生的数据、电子邮...

2018-11-09 09:47:01

阅读数 101

评论数 0

当制造业说需要 AI 时,其实是在说需要数据

人工智能(AI)和机器学习(ML)将要(正在)对制造业产生巨大影响。利用这些技术,制造商将获得非常可观实用的计算能力,这些能力帮助制造商解决以往人工无法有效解决的问题。它们将为制造商一直在寻求的生产问题提供更加理想的答案。这意味着能帮助我们尽可能高效地生产产品,减少资源浪费。 AI 以及 ML ...

2018-10-24 21:44:23

阅读数 44

评论数 0

Apache Storm系列 之二( 轻松搞定 Storm 安装与启动)

Storm 是开源免费的分布实时计算系统(Apache Storm is a free and open source distributed realtime computation system)。这里提到了两个关键词: 分布式 实时 1、分布式意味着 Storm 是部署在多台主机上,它解...

2018-10-22 16:09:22

阅读数 66

评论数 0

【译】Apache Storm系列 之一(概念)

本文列出 Storm 的几个主要概念,并会给出相关资源的链接以便你获取更多信息,概念主要如下: Topologies Streams Spouts Bolts Stream groupings Reliability Tasks Workers 拓扑(Topologies) 实时应用程序的逻...

2018-10-17 23:03:12

阅读数 25

评论数 0

Cloudera Manager 之四(管理控制台)

Cloudera 管理控制台是一个网站页面,你可以用它来配置、管理以及监控 CDH。 如果服务已经配置,控制台头部的导航栏将显示如下: 导航栏显示以下信息: 集群(Clusters > cluster_name) 服务(Services) - 展示个别服务,以...

2018-10-11 14:08:22

阅读数 207

评论数 0

Cloudera Manager 之三(安装)

操作系统: CentOs6.4 虚拟机(4核 3G) 主机: cdh01(server & agent) + cdh02( agent ) CDH版本:cdh5.7.1 jdk8 准备工作 关闭防火墙 在两台主机上都运行一下命令 ser...

2018-10-01 14:27:42

阅读数 74

评论数 0

Cloudera Manager 之二 (架构)

架构(Architecture) 如下图所示,Cloudera Manager 的核心是 Cloudera Manager Server(一下简称Server)。Server 托管管理控制台 web 服务和应用程序逻辑,并负责软件的安装、配置、服务的启动与关闭以及管理集群。 Server 和其他...

2018-09-30 22:47:36

阅读数 192

评论数 0

Cloudera Manager 之一 (概述)

Cloudera Manager 是一个端到端用于管理CDH集群的程序。Cloudera Manager提供了CDH群集很多细节的可视化和控制,因此它为企业化部署提供了一个标准。它使得企业能够高效、合理地管理集群。使用Cloudera Manager,用户可以轻松部署和集中操作完整的CDH堆栈和...

2018-09-29 16:08:32

阅读数 187

评论数 0

Apache Hadoop文档翻译之四(Edits Viewer指南)

概述 离线Edits查看器是一个解析Edits日志文件的工具。目前的程序用于不同格式之间的转换,包括xml(比二进制文件更易读且容易修改)。 这个工具可以解析formats -18及以后的版本。这个工具只操作文件,并不需要Hadoop集群处于运行状态。 输入格式支持: 1、二进制 2、xml格式 ...

2018-09-27 17:35:36

阅读数 37

评论数 0

Apache Hadoop文档翻译之三(用户指南)

目的 该文档是用户使用Hadpoop分布式文件系统(HDFS)的起点,不管是作为hadoop集群的一部分来使用还是独立的通用分布式文件系统。虽然在很多场景下HDFS被设计成“正常工作”即可,但是掌握更多的HDFS工作机制将有利于更好的配置以及诊断。 概述 HDFS是使用Hadoop程序来实现的分布...

2018-09-27 17:34:52

阅读数 59

评论数 0

Apache Hadoop文档翻译之二(HDFS命令指南)

概要 所有的HDFS命令使用bin/hdfs脚本来调用。空参数运行该脚本将展示所有命令的介绍。 使用方法: hdfs [SHELL_OPTIONS] COMMAND [GENERIC_OPTIONS] [COMMAND_OPTIONS] Hadoop有一个选项解析框架,它采用解析通用选项以及运行类...

2018-09-26 11:43:28

阅读数 50

评论数 0

Apache Hadoop文档翻译之一(HDFS架构)

Apache Hadoop项目为高可用、可扩展、分布式计算开发开源软件。Apache Hadoop软件库是一个平台,它使用简单的编程模型让跨机器上大数据量的分布式计算变得简单。 它旨在从单个服务器扩展到数千台计算机,每台计算机都提供本地计算和存储。库本身被设计用来在软件层面检测和处理故障,而不...

2018-09-20 21:46:03

阅读数 65

评论数 0

Apache Spark文档翻译之一 (快速入门)

英文版原文 本教程为使用spark的快速入门介绍。首先我们会通过Spark的交互式shell(Python或者Scala)来介绍API,然后展示如何使用java、scala以及python来编写spark程序。 跟随这个指导,首先从Spark官网下载spark软件包。因为我们未必正在使用HDFS...

2018-09-18 15:29:50

阅读数 252

评论数 0

Elasticsearch(二)基础API

集群健康 curl localhost:9200/_cat/health?v epoch timestamp cluster status node.total node.data shards pri relo init unassign pending_tasks m...

2018-09-18 15:28:39

阅读数 33

评论数 0

Elasticsearch(一)介绍及安装

初识 A Distributed RESTful Search Engine 它能让你以一个之前从未有过的速度和规模,去探索你的数据 “A Distributed RESTful Search Engine” 翻译过来就是一个分布式Restful搜索引擎,这句话基本能大致概括Ela...

2018-09-18 15:27:56

阅读数 58

评论数 0

Spring boot(二)使用redis实现session共享

默认 HttpSession 是通过 Servlet 容器创建和管理,保存在内存中,这种情况无法做到多个服务之间的 session 共享。 使用 Redis 将 session 剥离服务进程,多个服务的进程便可以共享 session。 不做自定义配置情况下,spring boot 使用默认的 ...

2018-09-18 15:26:18

阅读数 36

评论数 0

Spring boot(一) IDEA热部署设置

make project automatically ⌘ + ⇪ + A 输入make project automatically 并打钩 compiler.automake.allow.when.app.running ⌘ + ⇪ + A 输入Registry,找到 ...

2018-07-20 23:54:19

阅读数 41

评论数 0

程序员之设计、编程思考

设计 设计工作 无论软件工程中的哪一个步骤,工作的开展都是为了解决一些实际问题 架构设计、子系统设计、功能模块设计,甚至类的设计,这些都是设计工作。 原则 设计工作的开展是在一定的环境下进行,有很多的耳熟能详的规范或者原则(可扩展、高可用、高性能)。个人经历...

2018-07-09 11:26:25

阅读数 56

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭