广告业务系统
_东极
少年锦时
展开
-
自定义bean对象实现日志转换parquet
样式对象package com.dmp.beansimport com.dmp.utils.NumFormatclass Log(val sessionid: String, val advertisersid: Int, val adorderid: Int, val adcreativeid: Int, va...原创 2019-08-24 13:57:14 · 503 阅读 · 0 评论 -
批量将标签数据写入hbase中
文章目录引入pom文件依赖将标签按日输出到hbase表中引入pom文件依赖 <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-server</artifactId> <...原创 2019-08-27 00:50:35 · 665 阅读 · 0 评论 -
日志类型转换Bzip转换为Parquet文件
对于日志类型的字段,默认都是String类型,但是有的本身是Int类型,需要转换//对于数字类型的日志数据字段转换object NumFormat { def toInt(str: String): Int = { try { str.toInt } catch { //其他类返回0 case _: Exception => 0 ...原创 2019-08-23 00:35:08 · 580 阅读 · 0 评论 -
用户标签库的管理
文章目录需求实现TagsUtils统一接口类广告位和渠道标签媒体类标签设备和地域标签关键词标签总处理类需求过滤数据,将每天数据打上以下标签广告位类型(标签格式: LC03->1 或者 LC16->1)xx 为数字,小于 10 补 0App 名称(标签格式: APPxxxx->1)xxxx 为 App 名称,使用缓存文件 appname_dict进行名称转换;渠道(...原创 2019-08-25 22:14:45 · 2005 阅读 · 0 评论 -
基于媒体报表实现
文章目录分析指标通过广播变量的方式实现日志分析通过redis实现日志分析分析指标通过广播变量的方式实现日志分析package com.dmp.reportimport com.dmp.beans.Logimport com.dmp.utils.RptUtilsimport org.apache.commons.lang.StringUtilsimport org.apache.s...原创 2019-08-25 13:39:39 · 316 阅读 · 0 评论 -
广告业务中关键词
文章目录广告行业常见名词Ad NetworkAd Exchange (ADX):RTB(Real Time Bidding):程序化购买(Programmatic Buying):DSP(demand-Side Platform):SSP(supply side platform):DMP(Data-Management Platform):广告行业常见名词Ad Network广告网络,聚合...原创 2019-08-21 00:09:51 · 403 阅读 · 0 评论 -
sparksql和spark core 实现地域报表分析
文章目录计算逻辑spark sql实现代码spark core实现代码读取的普通日志文件读取parquet文件计算逻辑spark sql实现代码package com.dmp.reportimport org.apache.spark.sql.{DataFrame, SQLContext}import org.apache.spark.{SparkConf, SparkContex...原创 2019-08-24 23:32:32 · 977 阅读 · 0 评论 -
读取日志parquet文件省市数据量采用SparkRDD方式
package com.dmp.reportimport org.apache.hadoop.fs.{FileSystem, Path}import org.apache.spark.sql.SQLContextimport org.apache.spark.{SparkConf, SparkContext}object ProCityRptRdd { def main(args:...原创 2019-08-24 15:48:21 · 643 阅读 · 0 评论 -
scala快速读取配置类,读取日志parquet文件省市数据量输出json和mysql,
文章目录转换为json格式将结果输出到mysql中添加pom.xml主要类application.propertiesProCityRptMysql转换为json格式import org.apache.hadoop.fs.{FileSystem, Path}import org.apache.spark.sql.SQLContextimport org.apache.spark.{Spar...原创 2019-08-24 15:17:41 · 598 阅读 · 0 评论 -
基于地理位置算法GeoHash核心原理解析
文章目录认知GeoHash算法步骤根据经纬度计算GeoHash二进制编码组码GeoHash Base32编码长度与精度具体应用使用注意点认知GeoHashGeoHash将二维的经纬度转换成字符串,如北京9个区域的GeoHash字符串,分别是WX4ER,WX4G2、WX4G3等等,每一个字符串代表了某一矩形区域因此 这个矩形区域内所有的点(经纬度坐标)都共享相同的GeoHash字符串,左上角...原创 2019-09-01 11:01:51 · 1963 阅读 · 0 评论