![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
Song_MJ
这个作者很懒,什么都没留下…
展开
-
阿里云大数据组件零碎点总结(不定时更新)
1 ADS1.1 简介云原生数据仓库AnalyticDB MySQL版(简称ADB,原分析型数据库MySQL版),是阿里巴巴自主研发的海量数据实时高并发在线分析云计算服务,使得您可以在毫秒级针对千亿级数据进行即时的多维分析透视和业务探索。云原生数据仓库AnalyticDB又称ADB又被称为ADS,以下仅用ADS。1.2 UPDATE_TYPE相关UPDATE_TYPE可设置数据的更新方式,可设置为batch(批量更新数据)和realtime(实时更新数据),默认值是batch,当设.原创 2020-07-07 17:10:59 · 5337 阅读 · 0 评论 -
Spark Streaming 整合 Kafka(Direct方式)在本地运行以及在集群中运行
Direct方法与Receiver方法对比及优势1 简化并行度:简化并行度不需要创建多个输入流然后再进行合并。使用Direct方法Spark Streaming创建的RDD分区数与Kafka的分区一样多,这些RDD分区都从Kafka并行读取数据。因此,Kafka分区和RDD分区存在存在一对一的映射关系,这更已于理解和调整2 提升效率:Receiver方法为了实现数据零丢失,需要将数据存储在预写...原创 2020-04-08 18:44:39 · 455 阅读 · 0 评论 -
Spark Streaming 整合 Kafka(Receiver方式)在生产集群运行
Spark Streaming 整合 Kafka(Receiver方式)在生产集群运行步骤概述1 启动zookeeper2 启动Kafa3 创建kafka topic4 通过控制台测试本kafka topic是否能够正常的生产和消费信息5 写Spark Streaming代码6 使用mvn命令打包7 下载spark-streaming-kafka-0-8-assembly_2.11...原创 2020-04-08 12:34:30 · 202 阅读 · 0 评论 -
Spark Streaming 整合 Flume (Spark Streaming Pull Flume sink 数据) 在集群运行
概述/*SparkStreaming拉取Flume数据flume source -> flume sink(stays buffered) -> Spark Streaming(pull data from sink)pull比push方法好很多,有事务保障,工作中优先使用pull1 写Flume配置文件2 写Spark程序3 启动Flume(Pull方法需要先启动Fl...原创 2020-04-03 16:47:25 · 238 阅读 · 0 评论 -
Spark Streaming 整合 Flume (Spark Streaming Pull Flume sink 数据) 在本地运行
概述SparkStreaming拉取Flume数据flume source -> flume sink(stays buffered) -> Spark Streaming(pull data from sink)pull比push方法好很多,有事务保障,工作中优先使用pull1 写Flume配置文件2 写Spark程序3 启动Flume(Pull方法需要先启动Flum...原创 2020-04-03 12:15:56 · 276 阅读 · 5 评论 -
SparkStreaming 整合 Flume (Flume Push 到 SparkStreaming) 在集群运行
步骤:// 1 编写flume配置文件// 2 编写sparkstreaming程序// 3 打包// 4 启动sparkstreaming程序// 5 启动flume agent// 6 通过nc -lk 44444向flume source发送数据,查看sparkstreaming程序是否正常输出flume配置文件// flume source 是 hadoop000:...原创 2020-03-27 18:46:13 · 187 阅读 · 0 评论 -
SparkStreaming 整合 Flume (Flume Push 到 SparkStreaming) 本地测试
步骤:// 1 编写flume配置文件// 2 编写spark程序,启动sparkstreaming作业// 3 启动flume agent// 4 通过telnet输入数据,观察IDEA控制台的输出flume配置文件simple-agent.sources = netcat-sourcesimple-agent.sinks = avro-sinksimple-agent...原创 2020-03-27 17:20:25 · 230 阅读 · 0 评论 -
用SQL查询SparkStreaming DStream数据
pom文件<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.o...原创 2020-03-26 18:56:44 · 312 阅读 · 0 评论 -
SparkStreaming 实现黑名单过滤功能
pom 文件<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache....原创 2020-03-26 16:31:50 · 784 阅读 · 0 评论 -
SparkStreaming updateStateByKey 历史数据累加
pom文件:<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache...原创 2020-03-26 11:41:15 · 246 阅读 · 0 评论 -
SparkStreaming 处理端口数据,输出到MySQL
pom文件:<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache....原创 2020-03-26 10:40:21 · 180 阅读 · 0 评论 -
Scala Spark Streaming 读取 HDFS 文件 WordCount
pom文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="h...原创 2020-03-18 17:09:04 · 533 阅读 · 0 评论 -
使用 Spark Java Api 进行 WordCount
pom文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="...原创 2020-03-18 10:47:46 · 372 阅读 · 0 评论 -
linux安装redis以及配置redis desktop manager可视化工具
选择在Linux下安装redis,现在采用虚拟机安装的centos7 进行安装的1.安装gcc redis是c语言编写的 yuminstallgcc-c++2.下载redis安装包,在root目录下执行 wget http://download.redis.io/releases/redis-5.0.8.tar.gz3.解压redis安装包 tar...原创 2020-03-16 18:12:50 · 1073 阅读 · 0 评论 -
hive建分区表、建导入数据格式为csv的表、加载数据、删表、清空表语句、查询结果导出为csv格式、运行sql文件
//建分区表CREATE TABLE 表名( host STRING, uri STRING, x_online_host STRING, user_agent STRING)PARTITIONED BY (day STRING);//加载数据LOAD DATA LOCAL INPATH './文件名' OVERWRITE INTO TABLE 表...原创 2020-02-25 18:44:49 · 434 阅读 · 0 评论 -
Hadoop简介
原文链接:http://www.bigdata-startups.com/BigData-startup/what-is-hadoop-and-five-reasons-organisations-use-hadoop-infographic/http://www.duozhishidai.com/article-63581-1.htmlHadoop原是Hadoop开发者的孩子给自己的...转载 2019-05-11 11:00:12 · 88 阅读 · 0 评论 -
Centos_设置网络_复制虚拟机_修改虚拟机名
原创 2019-05-05 20:55:48 · 122 阅读 · 0 评论