spark
Jaming R
这个作者很懒,什么都没留下…
展开
-
spark on yarn 时,使用rest api 查看job的信息,然而看官方文档,没有明确告诉url到底是什么
首先,打开sparkstreaming的web页面,按F12打开控制台,点击Executors,发现有一个allexecutors请求,暴露出了rest api的地址http://ip:8088/proxy/application_1591406335661_0005/api/v1/applications/application_1591406335661_0005/allexecutors...原创 2020-06-06 14:24:50 · 1014 阅读 · 0 评论 -
sparkmllib交替最小二乘法
http://spark.apache.org/docs/2.2.0/ml-collaborative-filtering.html不需要用户和商品属性的信息,这类算法通常称为协同过滤算法例子:根据两个用户的年龄相同来判断他们可能有相似的偏好,这不叫协同过滤。相反,根据两个用户播放过许多相同歌曲来判断他们可能都喜欢某首歌,这才叫协同过滤。SparkMLlib 的ALS算法 要求用户和产品ID必须是...原创 2018-01-17 17:01:22 · 449 阅读 · 0 评论 -
sparksql 从oracle读取数据然后整合到elasticsearch
pom.xm<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="ht原创 2017-11-16 14:54:45 · 3433 阅读 · 1 评论 -
flume到kafka,structuredStreaming从kafka消费
flume配置a1.sources = r1a1.sinks = k1a1.channels = c1# Describe/configure r1a1.sources.r1.type = netcata1.sources.r1.bind = localhosta1.sources.r1.port = 44444# Describe k1#a1.sinks.k1.type = loggera1.s...原创 2017-07-14 17:34:33 · 1217 阅读 · 0 评论 -
spark2.2 structured Streaming
其实官方文档都说明了:http://spark.apache.org/docs/latest/structured-streaming-kafka-integration.htmlpackage com.renjiaming.spark2T2import java.util.concurrent.TimeUnitimport org.apache.log4j.{Level, Logger}i...原创 2017-07-14 11:03:38 · 735 阅读 · 1 评论 -
spark restful api 启动任务,运行完之后到historyserver
首先1、 spark-env.sh中添加export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080 -Dspark.history.retainedApplications=3 -Dspark.history.fs.logDirectory=hdfs://xiaoqi0:9000/sparkeventlog"2、spark-defaults.c...原创 2018-04-11 13:26:02 · 2521 阅读 · 2 评论 -
spark2.0 读取本地json数据到Elasticsearch时,过滤非法json
package esimport net.minidev.json.parser.JSONParserimport org.apache.spark.SparkConfimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.{Dataset, SparkSession}import scala.collection.Map...原创 2019-03-18 14:59:26 · 557 阅读 · 0 评论