大数据【企业级360°全方位用户画像】标签开发代码抽取

最新推荐文章于 2024-08-05 10:42:24 发布

大数据梦想家

最新推荐文章于 2024-08-05 10:42:24 发布

阅读量5.3k

点赞数 23

分类专栏：大数据实战项目文章标签：云计算/大数据 Hadoop 用户画像大数据实战项目

本文链接：https://blog.csdn.net/weixin_44318830/article/details/106750925

版权

本文介绍了如何使用Scala的特质进行代码抽取，简化大数据环境下企业级360°全方位用户画像的标签开发过程。通过创建特质和调用特质，降低了统计型标签开发的工作量。博主分享了具体代码示例，并已完成15个标签的开发，期待进一步学习挖掘算法以扩展标签库。

摘要由CSDN通过智能技术生成

写在前面： 博主是一名大数据的初学者，昵称来源于《爱丽丝梦游仙境》中的Alice和自己的昵称。作为一名互联网小白，写博客一方面是为了记录自己的学习历程，一方面是希望能够帮助到很多和自己一样处于起步阶段的萌新。由于水平有限，博客中难免会有一些错误，有纰漏之处恳请各位大佬不吝赐教！个人小站:http://alices.ibilibili.xyz/ , 博客主页:https://alice.blog.csdn.net/
尽管当前水平可能不及各位大佬，但我还是希望自己能够做得更好，因为一天的生活就是一生的缩影。我希望在最美的年华，做最好的自己！

在之前的几篇关于标签开发的博客中，博主已经不止一次地为大家介绍了开发代码书写的流程。无论是匹配型标签还是统计型标签，都涉及到了大量的代码重用问题。为了解决这个问题，本篇博客，我们将开始将对代码进行抽取，简便我们的开发!

在这里插入图片描述

1、创建一个特质

对于scala基础语法不太熟悉的朋友们可能有疑惑了。什么是特质呢？

其实关于scala中特质的介绍，博主在前几个月写scala专栏的时候就科普过了。感兴趣的朋友可以👉《scala快速入门系列【特质】》

简单来说就是，scala中没有Java中的接口（interface），替代的概念是——特质。

特质是scala中代码复用的基础单元，特质的定义和抽象类的定义很像，但它是使用trait关键字。

我们先在IDEA中创建一个特质

在这里插入图片描述

然后咱们就可以开始写代码。

因为在前面的几篇具体讲解标签开发的博客中，博主已经将流程讲了好几遍，算得上是非常透彻了。所以本篇博客，博主在这直接贴上代码，并不做过多的过程说明。每一步具体的含义，都已经体现在了代码中，如果各位朋友们看了有任何的疑惑，可以私信我，也可以在评论区留言。

package com.czxy.base

import java.util.Properties
import com.czxy.bean.HBaseMeta
import com.typesafe.config.{
   Config, ConfigFactory}
import org.apache.spark.sql.expressions.UserDefinedFunction
import org.apache.spark.sql.{
   DataFrame, Dataset, Row, SparkSession}

/*
 * @Author: Alice菌
 * @Date: 2020/6/13 08:49
 * @Description: 

    此代码用户编写用户画像项目可以重用的代码
 */
trait BaseModel {
   
  // 所有重复的代码(功能)都抽取到这里


  // 设置任务的名称
  def setAppName:String

  // 设置四级标签id
  def setFourTagId:String

  /* 1. 初始化SparkSession对象  */
  private val spark:SparkSession = SparkSession.builder().appName(setAppName).master("local[*]").getOrCreate()

  //导入隐式转换
  import org.apache.spark.sql.functions._
  import spark.implicits._

  /* 2. 连接MySQL  */
  // 读取application.conf 内的配置
  private val config: Config = ConfigFactory.load()
  // 获取url
  private val url : String = config.getString("jdbc.mysql.url")
  // 获取tableName
  private val tableName : String = config.getString("jdbc.mysql.tablename")

  
  def getMySQLDF = {
   
    // 连接MySQL数据库
    spark.read.jdbc(url,tableName,new Properties)
  }

  
  /* 3. 读取MySQL数据库的四级标签  */

  def getFourTag (mysqlCoon: DataFrame): HBaseMeta ={
   
    //读取HBase中的四级标签
    val fourTagsDS: Dataset[Row] = mysqlCoon.select("id","rule").where("id="+setFourTagId)
    //切分rule
    val KVMap: Map[String, String] = fourTagsDS.map(row => {
   
      // 获取到rule值
      val RuleValue: String = row.getAs("rule").t