- 博客(7)
- 收藏
- 关注
原创 saprk的udtf函数一列转多列应用
saprk的udtf函数一列转多列应用需求:查分outresult字段生成多个列代码:1.udtf部分import com.alibaba.fastjson.JSONException;import org.apache.commons.lang3.StringUtils;import org.apache.hadoop.hive.ql.exec.UDFArgumentException;import org.apache.hadoop.hive.ql.exec.UDFArgumentLeng
2021-04-09 17:36:31 199
原创 用户画像-算法实例:朴素贝叶斯算法
##利用朴素贝叶斯算法来预测明星出轨概率package cn.doitedu.ml.bayesimport org.apache.spark.ml.linalg.Vectorsimport cn.doitedu.commons.util.SparkUtilimport org.apache.log4j.{Level, Logger}import org.apache.spark.sql....
2020-02-21 17:12:24 853 1
原创 用户画像-算法实例KNN
import cn.doitedu.commons.util.SparkUtilimport org.apache.spark.ml.linalgimport org.apache.spark.ml.linalg.{Vector, Vectors}import org.apache.spark.sql.{DataFrame, Dataset, SparkSession}object Kn...
2020-02-19 20:56:19 464 2
原创 hive中的窗口函数
函数 + over()over() :开窗口1.Row_Number,Rank,Dense_Rank 这三个窗口函数的使用场景非常多1.1 row_number()对分区内的数据排序,多出来一列数据,从1到分区结尾多用来求 连续天数,会用到date_sub函数例子:– 求有连续4天销售记录的店铺1)select*,row_number() over(partition b...
2020-01-08 16:38:47 251
原创 flume的核心组件及概念
1. agent: 核心的角色2. Event:flume内部数据传输的封装形式3. Transaction:事务控制机制4. 拦截器5. 选择器
2020-01-03 20:33:00 1732
原创 DataFrame数据运算操作
一. SQL风格操作核心要义:将DataFrame 注册为一个临时视图view,然后就可以针对view直接执行各种sql临时视图有两种:session级别视图,global级别视图;session级别视图是Session范围内有效的,Session退出后,表就失效了;全局视图则在application级别有效;注意使用全局表时需要全路径访问:global_temp.people// ap...
2020-01-02 22:33:38 1069 3
原创 Spark SQL中创建 DataFrame 方法
在Spark SQL中SparkSession是创建DataFrames和执行SQL的入口创建DataFrames有三种方式:(1) 从一个已存在的RDD进行转换(2) 从JSON/Parquet/CSV/ORC/JDBC等结构化数据源直接创建(3) 从Hive Table进行查询返回核心:创建DataFrame,需要创建 “RDD + 元信息schema定义”rdd来自于数据...
2020-01-02 21:53:34 399 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人