我是小坏

你若盛开,蝴蝶自来!

删除hive 分区

  hive> ALTER TABLE flow_kafka_spark DROP PARTITION(year="2018",month="09",day="18&q...

2018-12-07 16:03:11

阅读数:33

评论数:0

批量Kill yarn 任务

# 删除处于ACCEPTED状态的任务for i in  `yarn application  -list | grep -w  ACCEPTED | awk '{print $1}' | grep application_`; do yarn  application -kill $i; do...

2018-12-04 19:11:45

阅读数:51

评论数:0

Kafka生产者——向 Kafka写入数据

转载: https://www.jianshu.com/p/26532247d4cc 不管是把 Kafka 作为消息队列、消息、总线还是数据存储平台来使用 ,总是需要有一个可以往 Kafka 写入数据的生产者和一个可以从 Kafka读取数据的消费者,或者一个兼具两种角 色的应用程序。 例如,在...

2018-11-06 16:26:06

阅读数:70

评论数:0

Zabbix 离线安装

本文使用的zabbix 版本是4.0版本.(https://www.zabbix.com/download)   一、离线yum源搭建。 场景:平台的服务器物理机无法连接外网,此时你无法直接用yum 按照zabbix ,你需要搭建一个本地的yum源。 本文采用虚拟机模拟搭建, 虚拟机操...

2018-11-04 10:12:56

阅读数:500

评论数:1

Kafka 杂记

http://kafka.apache.org/0101/documentation.html 1、Kafka 存储数据是有期限的.  The Kafka cluster retains all published records—whether or not they have been ...

2018-09-19 11:30:50

阅读数:49

评论数:0

Spark Window 代码片段整理

参考地址: http://spark.apache.org/docs/2.3.0/structured-streaming-programming-guide.html#operations-on-streaming-dataframesdatasets Window Operations o...

2018-09-18 15:33:57

阅读数:57

评论数:0

Flume 、 Kafka 和SparkStreaming 简单整合

flume 传递数据给Kafka ,然后Spark 从Kafka 中接收数据进行处理. 本文使用netcat 工具作为flume 的输入源 , 话不多说,直接贴代码. 1、flume 配置文件配置: a1....

2018-09-15 21:01:37

阅读数:83

评论数:0

yum离线安装 Maridb

1、首先搭建本地Maridb yum 源  如下是我从Maridb官网下载的安装文件,搭建的一个特定版本的maridb yum 源. 文件下载地址如下: https://pan.baidu.com/s/1pASUWQnp9FbYRcuG6MP6lg 2、在/var/www/html 目...

2018-09-14 18:05:28

阅读数:107

评论数:0

Spark SQL 在SparkStreaming中的运用

文章内容参考地址:  http://spark.apache.org/docs/2.3.0/streaming-programming-guide.html#dataframe-and-sql-operations 你可以使用SparkStreaming 中使用的SparkContext 来创...

2018-09-14 12:08:46

阅读数:179

评论数:0

Spark 检查点

1、设置检查点的代码基本如下,供参考.  public static void main(String[] args) throws Exception { Function0<JavaStreamingContext> cont...

2018-09-14 10:11:09

阅读数:71

评论数:0

扩展虚拟机磁盘分区

本文是扩展虚拟机 根目录(/ )磁盘空间。 操作系统是CentOS7 1、首先使用 fdisk  新建一个磁盘分区,然后重启虚拟机. [root@s201 ~]$fdisk /dev/sda Welcome to fdisk (util-linux 2.23.2). Changes wi...

2018-09-13 10:58:29

阅读数:70

评论数:0

Spark SQL

1、读取外部配置文件 package com.study; import org.apache.spark.sql.Dataset; import org.apache.spark.sql.Row; import org.apache.spark.sql.SparkSession; /**...

2018-09-10 14:27:48

阅读数:47

评论数:0

Spark 杂记--- 键值对操作RDD

1、 将一个普通的RDD转换为键值对RDD时,可以通过调用map()函数来实现,传递的函数需要返回键值对。   scala 版: scala> val lines =sc.parallelize(List("pandas",&...

2018-09-07 16:36:03

阅读数:69

评论数:0

Spark杂记

  参考spark2.3.0文档  http://spark.apache.org/docs/2.3.0/quick-start.html  1、从spark 2.0开始,官网强烈推荐Dataset ,它比RDD拥有更好的性能.    2、启动spak-shell  [spark@big-...

2018-09-06 17:03:37

阅读数:47

评论数:0

Flume 传递数据到HDFS上

使用瑞士军刀(netcat 作为输入源) ,hdfs 作为flume 的输出源(sink) flume 配置文件内容如下: a1.sources = r1 a1.channels = c1 a1.sinks = k1 a1.sources.r1.type = netcat a1.sourc...

2018-09-06 08:54:42

阅读数:273

评论数:0

java -cp 的使用

今天看一些教学视频,加上搜索了一些资料,记录下java -cp 命令的使用. 首先使用maven 的mvn 命令将工程所依赖的jar包 下载到 pom.xml 当前目录下的lib目录下. 可以参考我的另一篇文章:使用mvn命令,下载工程的所有依赖软件包  其中,CallLogConsum...

2018-09-05 15:04:02

阅读数:1787

评论数:1

使用mvn命令,下载工程的所有依赖软件包

工程对应的pom内容如下: <?xml version="1.0" encoding="UTF-8"?> <project xmlns="...

2018-09-05 07:45:58

阅读数:541

评论数:0

HDFS操作

1、使用oiv命令查看hadoop 的镜像文件 [hadoop@s201 ~/hadoop/dfs/name/current]$hdfs oiv Usage: bin/hdfs oiv [OPTIONS] -i INPUTFILE -o OUTPUTFILE 在我的hdfs名称节点存放目录...

2018-09-04 07:28:26

阅读数:47

评论数:0

手动强制将名称节点标记为Active 状态

HA 模式下,当一台虚拟机挂掉( 不是kill 掉namenode进程,kill掉好使)的时候,standby 机子不能主动切换到active 状态 . 此时,手工强制启用active 命令如下: hdfs haadmin  -transitionToActive  --forceactive...

2018-09-03 09:22:48

阅读数:92

评论数:0

HBase 比较过滤器

一、行过滤器(RowFilter) /** * 测试RowFilter过滤器 */ @Test public void testRowFilter() throws IOException { Configuration conf ...

2018-08-31 17:07:27

阅读数:137

评论数:0

提示
确定要删除当前文章?
取消 删除