秃头士的自我救赎
码龄5年
关注
提问 私信
  • 博客:5,804
    动态:46
    5,850
    总访问量
  • 7
    原创
  • 2,372,100
    排名
  • 11
    粉丝
  • 0
    铁粉

个人简介:越努力越幸运

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2019-09-25
博客简介:

weixin_45687351的博客

查看详细资料
个人成就
  • 获得7次点赞
  • 内容获得8次评论
  • 获得19次收藏
创作历程
  • 1篇
    2021年
  • 6篇
    2020年
成就勋章
TA的专栏
  • 工具使用
  • SparkSQL
    3篇
  • hive
    2篇
  • 用户画像
    2篇
  • Java基础---API
  • flume
    1篇
兴趣领域 设置
  • 大数据
    hadoophivestormsparketl
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

saprk的udtf函数一列转多列应用

saprk的udtf函数一列转多列应用需求:查分outresult字段生成多个列代码:1.udtf部分import com.alibaba.fastjson.JSONException;import org.apache.commons.lang3.StringUtils;import org.apache.hadoop.hive.ql.exec.UDFArgumentException;import org.apache.hadoop.hive.ql.exec.UDFArgumentLeng
原创
发布博客 2021.04.09 ·
271 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

若似月轮终皎洁,不辞冰雪为卿热。

发布动态 2020.08.24

用户画像-算法实例:朴素贝叶斯算法

##利用朴素贝叶斯算法来预测明星出轨概率package cn.doitedu.ml.bayesimport org.apache.spark.ml.linalg.Vectorsimport cn.doitedu.commons.util.SparkUtilimport org.apache.log4j.{Level, Logger}import org.apache.spark.sql....
原创
发布博客 2020.02.21 ·
930 阅读 ·
0 点赞 ·
1 评论 ·
7 收藏

用户画像-算法实例KNN

import cn.doitedu.commons.util.SparkUtilimport org.apache.spark.ml.linalgimport org.apache.spark.ml.linalg.{Vector, Vectors}import org.apache.spark.sql.{DataFrame, Dataset, SparkSession}object Kn...
原创
发布博客 2020.02.19 ·
567 阅读 ·
1 点赞 ·
2 评论 ·
3 收藏

hive中的窗口函数

函数 + over()over() :开窗口1.Row_Number,Rank,Dense_Rank 这三个窗口函数的使用场景非常多1.1 row_number()对分区内的数据排序,多出来一列数据,从1到分区结尾多用来求 连续天数,会用到date_sub函数例子:– 求有连续4天销售记录的店铺1)select*,row_number() over(partition b...
原创
发布博客 2020.01.08 ·
286 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

flume的核心组件及概念

1. agent: 核心的角色2. Event:flume内部数据传输的封装形式3. Transaction:事务控制机制4. 拦截器5. 选择器
原创
发布博客 2020.01.03 ·
2014 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

DataFrame数据运算操作

一. SQL风格操作核心要义:将DataFrame 注册为一个临时视图view,然后就可以针对view直接执行各种sql临时视图有两种:session级别视图,global级别视图;session级别视图是Session范围内有效的,Session退出后,表就失效了;全局视图则在application级别有效;注意使用全局表时需要全路径访问:global_temp.people// ap...
原创
发布博客 2020.01.02 ·
1162 阅读 ·
2 点赞 ·
3 评论 ·
3 收藏

Spark SQL中创建 DataFrame 方法

在Spark SQL中SparkSession是创建DataFrames和执行SQL的入口创建DataFrames有三种方式:(1) 从一个已存在的RDD进行转换(2) 从JSON/Parquet/CSV/ORC/JDBC等结构化数据源直接创建(3) 从Hive Table进行查询返回核心:创建DataFrame,需要创建 “RDD + 元信息schema定义”rdd来自于数据...
原创
发布博客 2020.01.02 ·
548 阅读 ·
2 点赞 ·
2 评论 ·
1 收藏