spark_kafka
张金玉
这个作者很懒,什么都没留下…
展开
-
一 Spark与kafka基本特点
spark与kafka的介绍一 spark是什么hadoop MapReduce:从集群中读取数据,分片读取 进行一次处理,将结果写到集群,从集群中读取更新后的数据,进行下一次的处理,将结果写到集群Spark :从集群中读取数据,把数据放入到内存种,完成所有必须的分析处理,将结果写回集群。数据挖掘要比hadoop快100倍Spark的数据对象存储在分布于数据集群中的叫做弹性分布式数据集,...原创 2018-12-27 15:38:47 · 1157 阅读 · 0 评论 -
十六Spark机器学习后存储到Mysql
a原创 2019-01-04 23:07:24 · 240 阅读 · 0 评论 -
十七Spark读取Kafka流构建Als模型
啊原创 2019-01-04 23:07:53 · 186 阅读 · 0 评论 -
十八Spark处理Kafka流构建Als模型
啊原创 2019-01-05 08:41:20 · 263 阅读 · 2 评论 -
二十Spark1和Spark2的区别
学习Spark的方法dblab.xmu.edu.cn/blog/spark-quick-start-guide/spark.apache.org/docs/1.6.2/mllib-collaborative-filtering.html1 开始去spark官网下载源码2 安装步骤3 运行Spark自带的例子4 根据业务来5 了解RDD原理 MASTER,WORKER6 了解Spa...原创 2019-01-05 08:41:05 · 7918 阅读 · 0 评论 -
二十一 Spark Kafka操作集合
spark-env.shexport SPARK_DIST_CLASSPATH=$(/opt/hadoop/bin/hadoop classpath)export SPARK_MASTER_IP=hmasterslaveshslave1hslave2http://www.powerxing.com/spark-quick-start-guide/./spark-submit ...原创 2019-01-05 09:57:50 · 321 阅读 · 0 评论 -
二十二 Spark与Kafka数据互相访问
啊原创 2019-01-05 10:08:51 · 280 阅读 · 0 评论 -
二十四 HDP介绍
(1)HDP3.1.0 VS apache 版本https://docs.hortonworks.com/HDPDocuments/HDP3/HDP-3.0.1/index.html -> 点击Release Noteshttps://docs.hortonworks.com/HDPDocuments/HDP3/HDP-3.1.0/release-notes/content/co...原创 2019-01-05 22:34:17 · 1207 阅读 · 0 评论 -
kafka gradlew编译环境搭建
kafka源码编译java -version #必须先安装jdkbrew install gradle安装的为gradle-5.0-bin.zip #MAC系统需要安装gradle安装完成之后没有gradlew 命令https://downloads.gradle.org/distributions/gradle-5.0-all.zip查找gradlew可执行文件.//gra...原创 2019-01-01 21:59:59 · 1560 阅读 · 0 评论 -
六 Spark API介绍
Spark机器学习,API浏览Spark官方APIhttp://spark.apache.org/docs/1.6.2/api/java/index.htmlhttp://spark.apache.org/docs/2.2.0/api/java/index.html1 RDD的支持,是Spark的基础,2根据需求来查看API一Spark的功能模块SparkSQL SparkGr...原创 2019-01-02 14:54:45 · 792 阅读 · 0 评论 -
七 Kafka集群安装
2、Kafka集群安装1)修改配置文件config/server.properties2)启动服务器bin/kafka-server-start.sh config/server.properties &3)测试创建topicbin/kafka-topics.sh --create --zookeeper localhost:2181/kafka --replication-f...原创 2019-01-02 15:28:40 · 134 阅读 · 0 评论 -
十五Spark ALS 用户推荐产品
啊原创 2019-01-04 23:06:54 · 378 阅读 · 0 评论 -
十四Spark ALS协同过滤java
APIhttp://spark.apache.org/docs/1.6.2/api/java/index.html机器学习里面包含两个包org.apache.spark.ml #输入是dataframe,sql . org.apache.spark.sql.catalogorg.apache.spark.mllib用户产品订单表,里面包含字段 用户id, 产品id, 是否购买来预...原创 2019-01-04 23:01:27 · 579 阅读 · 1 评论 -
二 hadoop与Spark环境搭建(集群版)
Spark下载地址JDK: http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.htmladoop2.6.5:http://archive.apache.org/dist/hadoop/common/hadoop-2.6.5/Scala2.11.8:https://www.scala-...原创 2018-12-27 17:31:50 · 165 阅读 · 0 评论 -
三 Spark RDD函数讲解
一 运维hadoop sparkhttp://192.168.229.133:50070/dfshealth.html#tab-overviewhttp://192.168.229.133:8080停掉hadoopcd /usr/local/hadoop-2.6.5/sbin停掉dfs[root@testceph sbin]# stop-dfs.sh启动dfs[root@test...原创 2018-12-28 15:43:46 · 266 阅读 · 0 评论 -
HDP安装mysql及问题解决
yum update opensslhadoopwget http://dev.mysql.com/get/mysql57-community-release-el7-7.noarch.rpmrpm -ivh mysql57-community-release-el7-7.noarch.rpmyum install mysql-community-server -ymsyql 连接器...原创 2019-01-03 23:45:36 · 569 阅读 · 0 评论 -
九 kafka消费者
http://kafka.apache.org 查找到CLIENTS 这里的客户端是0.8https://cwiki.apache.org/confluence/display/KAFKA/Clients如果是最新版本的只能看到API,在uses里面http://kafka.apache.org/documentation.html#uses如果0.10.1版本则是如下链接http...原创 2019-01-04 15:49:20 · 125 阅读 · 0 评论 -
十 kafka复杂消费者
注意:对于多个partition和多个consumer1、如果consumer比partition多,是浪费,因为kafka的设计是在一个partition上是不允许并发的,所以consumer数不要大于partition数 。2、如果consumer比partition少,一个consumer会对应于多个partitions,这里主要合理分配consumer数和partition数,...原创 2019-01-04 15:52:39 · 224 阅读 · 1 评论 -
十一 kafka数据安全,以及Spark Kafka Streaming API
一基本网址http://spark.apache.org/docs/1.6.2/api/java/index.html在API中搜索org.apache.spark.streaming.kafka二spark对接kafka流两种方案在org.apache.spark.streaming.kafka中有个KafkaUtils ,里面有两种方案其中获取kafka的流有两种方案2.1其中...原创 2019-01-04 16:00:04 · 247 阅读 · 0 评论 -
十二 Spark+Kafka+Mysql 整合
如果程序缺少包,需要导入到系统中去,采用如下方法for i in `ls /data/spark-workspace/lib/*.jar`do LIBJAR=$i,$LIBJARdoneexport LIBJARS=${LIBJAR%?}/* mvn dependency:copy-dependencies https://blog.csdn.net/u013514928/...原创 2019-01-04 16:34:42 · 1129 阅读 · 0 评论 -
四 Spark Spark的Java操作实现
编译Spark源码一 centos7 mav安装wget http://mirrors.hust.edu.cn/apache/maven/maven-3/3.3.9/binaries/apache-maven-3.3.9-bin.tar.gztar -zxvf apache-maven-3.3.9-bin.tar.gzmv apache-maven-3.3.9 /usr/local...原创 2018-12-30 23:01:43 · 1377 阅读 · 0 评论 -
五 Spark RDD的使用原理
transformation与actiontransformation函数: map, filter,flatMap, groupByKey,reduceByKey distinct,sortByKey,join,cogroup,cartesiantransformation:只是做一个简单的记录,对RDD做一个标注即要执行什么操作action函数有: count() first()...原创 2018-12-30 23:16:23 · 222 阅读 · 0 评论 -
十三 Spark机器学习ALS设计
ALS:协同过滤推荐算法一 通过kafka的日志来做分析处理二 SparkSQL 离线场景,把数据存入到msyql当中,然后处理三 SparkScreaming: 一般情况下,只拿最近几天(例如淘宝)ALS设计之优化方案推荐系统需要基于Spark用ALS算法对近一天的数据进行实时训练,然后进行推荐,输入的数据有114G,但是训练时间+预测时间近1个小时,业务需要在10分钟左右,...原创 2019-01-04 22:42:52 · 575 阅读 · 0 评论 -
十四Spark ALS协同过滤java实例
啊原创 2019-01-04 22:44:00 · 521 阅读 · 2 评论 -
八 kafka生产者
kafka官网 http://kafka.apache.orghttps://cwiki.apache.org/confluence/display/KAFKA/Clients查找index 里面包含0.7, 0.8, 0.9, 0.10版本的API选择相应的版本,用Eclipse打开进行编译项目例子结合APIkafka启动 cd bin && ./kafka-...原创 2019-01-02 15:29:54 · 172 阅读 · 0 评论