域外探索编程大赛学习总结

最新推荐文章于 2022-07-04 19:22:24 发布

zeb_perfect

最新推荐文章于 2022-07-04 19:22:24 发布

阅读量326

点赞数

分类专栏：时间笔记文章标签： java

本文链接：https://blog.csdn.net/zeb_perfect/article/details/113097259

版权

时间笔记专栏收录该内容

11 篇文章 0 订阅

订阅专栏

简单背景

智能营销，精准触达，相似用户挖掘。假设营销业务方需要基于一定数量（1万）的种子用户，从58备选用户集（1000万）中，扩展出一定数量（10万）的最相似用户人群，进行营销触达，用户可用的特征为256维。这里假设余弦相似度越高，营销响应效果越好，最终筛选出来的目标用户为备选用户集合与种子用户计算相似度后，取去重后相似度最高的10万用户（求相似度，全排序，取Top10万）。

程序输入

程序输入为种子用户ID数据集合，每一行包括用户ID和256维用户特征，用户特征数据类型为浮点型数据（存在部分数据用科学计数法表示的情况，比如1.4283673760891302E-4），所有数据分隔符为逗号，ID处于第1个位置，其它256维特征按照顺序处于2-257个位置。其中1-128维为连续性特征，数据都大于等于0小于等于1，余下129-256维为分类型特征经过one-hot处理过后的稀疏数据，数据都为0或者1。如下格式：
ID0001,0.1,0,0.56,…,0,1

程序输出

程序输出为确定数量ID集合，每个ID占一行，代表扩展的最相似的用户人群（不需要考虑ID的次序），要求输出的ID满足评分标准才会被判为输出正确

实现优化点

文件读取优化

采用RandomAccessFileChannel方式提升大文件读取时间消耗，以及将io读取和任务处理并发执行，加快执行速度。

130M File
commonUtil按行读取花费：782毫秒
BufferedReader按行读取花费：489毫秒
BufferedInputStream按行读取花费：508毫秒
RandomAccessFileMap按块读取花费：573毫秒
RandomAccessFileChannel按块花费：340毫秒

1.2G File
commonUtil按行读取花费：39037毫秒
BufferedReader按行读取花费：38873毫秒
BufferedInputStream按行读取花费：39464毫秒
RandomAccessFileMap按块读取花费：1615毫秒
RandomAccessFileChannel按块花费：1598毫秒