![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
广告业务系统
_东极
少年锦时
展开
-
自定义bean对象实现日志转换parquet
样式对象 package com.dmp.beans import com.dmp.utils.NumFormat class Log(val sessionid: String, val advertisersid: Int, val adorderid: Int, val adcreativeid: Int, va...原创 2019-08-24 13:57:14 · 494 阅读 · 0 评论 -
批量将标签数据写入hbase中
文章目录引入pom文件依赖将标签按日输出到hbase表中 引入pom文件依赖 <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-server</artifactId> <...原创 2019-08-27 00:50:35 · 655 阅读 · 0 评论 -
日志类型转换Bzip转换为Parquet文件
对于日志类型的字段,默认都是String类型,但是有的本身是Int类型,需要转换 //对于数字类型的日志数据字段转换 object NumFormat { def toInt(str: String): Int = { try { str.toInt } catch { //其他类返回0 case _: Exception => 0 ...原创 2019-08-23 00:35:08 · 571 阅读 · 0 评论 -
用户标签库的管理
文章目录需求实现TagsUtils统一接口类广告位和渠道标签媒体类标签设备和地域标签关键词标签总处理类 需求 过滤数据,将每天数据打上以下标签 广告位类型(标签格式: LC03->1 或者 LC16->1)xx 为数字,小于 10 补 0 App 名称(标签格式: APPxxxx->1)xxxx 为 App 名称,使用缓存文件 appname_dict 进行名称转换; 渠道(...原创 2019-08-25 22:14:45 · 1986 阅读 · 0 评论 -
基于媒体报表实现
文章目录分析指标通过广播变量的方式实现日志分析通过redis实现日志分析 分析指标 通过广播变量的方式实现日志分析 package com.dmp.report import com.dmp.beans.Log import com.dmp.utils.RptUtils import org.apache.commons.lang.StringUtils import org.apache.s...原创 2019-08-25 13:39:39 · 310 阅读 · 0 评论 -
广告业务中关键词
文章目录广告行业常见名词Ad NetworkAd Exchange (ADX):RTB(Real Time Bidding):程序化购买(Programmatic Buying):DSP(demand-Side Platform):SSP(supply side platform):DMP(Data-Management Platform): 广告行业常见名词 Ad Network 广告网络,聚合...原创 2019-08-21 00:09:51 · 397 阅读 · 0 评论 -
sparksql和spark core 实现地域报表分析
文章目录计算逻辑spark sql实现代码spark core实现代码读取的普通日志文件读取parquet文件 计算逻辑 spark sql实现代码 package com.dmp.report import org.apache.spark.sql.{DataFrame, SQLContext} import org.apache.spark.{SparkConf, SparkContex...原创 2019-08-24 23:32:32 · 966 阅读 · 0 评论 -
读取日志parquet文件省市数据量采用SparkRDD方式
package com.dmp.report import org.apache.hadoop.fs.{FileSystem, Path} import org.apache.spark.sql.SQLContext import org.apache.spark.{SparkConf, SparkContext} object ProCityRptRdd { def main(args:...原创 2019-08-24 15:48:21 · 631 阅读 · 0 评论 -
scala快速读取配置类,读取日志parquet文件省市数据量输出json和mysql,
文章目录转换为json格式将结果输出到mysql中添加pom.xml主要类application.propertiesProCityRptMysql 转换为json格式 import org.apache.hadoop.fs.{FileSystem, Path} import org.apache.spark.sql.SQLContext import org.apache.spark.{Spar...原创 2019-08-24 15:17:41 · 586 阅读 · 0 评论 -
基于地理位置算法GeoHash核心原理解析
文章目录认知GeoHash算法步骤根据经纬度计算GeoHash二进制编码组码GeoHash Base32编码长度与精度具体应用使用注意点 认知GeoHash GeoHash将二维的经纬度转换成字符串,如北京9个区域的GeoHash字符串,分别是WX4ER,WX4G2、WX4G3等等,每一个字符串代表了某一矩形区域 因此 这个矩形区域内所有的点(经纬度坐标)都共享相同的GeoHash字符串, 左上角...原创 2019-09-01 11:01:51 · 1949 阅读 · 0 评论