自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 Task4_天池新闻推荐特征工程

文章目录前言一、监督学习问题数据的梳理:二、监督学习问题数据的制作:五、总结六、参考前言本文针对天池有关推荐系统的赛题进行特征工程部分大致梳理一、监督学习问题数据的梳理:我们知道监督学习的主要特点是有标签,所以我觉得这次推荐赛题的难点之一就是如何把用户有关点击新闻的历史行为数据处理为带标签的监督学习问题。Datawhale组队学习新闻推荐的特征工程部分捋了一下现有的特征等数据1.文章的自身特征, category_id表示这文章的类型, created_at_ts表示文章建立的时间, 这个

2020-12-03 09:56:09 180

原创 Task3_天池新闻推荐多路召回

文章目录前言一、导包及不同模式数据的读取:二、数据的处理与提取1、文章数据2、用户数据3、点击数据三、多路召回字典的定义四、召回效果评估函数五、总结六、参考前言本文针对天池有关推荐系统的赛题进行多路召回部分的理解及大致梳理,不当之处还望指正。顺便简单提一下多路召唤策略:指采用不同的策略、特征或简单模型,分别召回一部分候选集,然后把候选集混合在一起供后续排序模型使用,是一种在“计算速度”和“召回率”之间进行权衡的结果,但召回策略与真实业务强相关一、导包及不同模式数据的读取:1.导包导入需要用到

2020-11-30 19:30:21 270

原创 Task2_天池新闻推荐数据分析

文章目录前言一、导包及相关数据的读取:二、数据的预处理和概况浏览三、数据分析1. 用户角度2. 文章角度四、总结五、参考前言本文针对天池有关推荐系统的赛题进行数据分析部分的理解及大致梳理,不当之处还望指正一、导包及相关数据的读取:1.导包由于此次分析主要是熟悉了解整个数据集的基本情况,包括每个文件里的数据、每个字段所表示的实际含义、数据集中特征之间的相关性以及用户和文章交互的一些分布,所以进行数据分析前要导入读取相关格式文件以及可视化的包%matplotlib inlineimport

2020-11-27 20:32:52 259 1

原创 Task1_天池新闻推荐赛题理解+Baseline

这里写自定义目录标题前言一、赛题简介和数据概况:二、对赛题的理解1.明确目标:2.疑问:回归题目:预测用户未来的点击行为, 即用户的最后一次(可能)点击的新闻文章三、对Baseline的探索1.分析历史数据:2.Baseline:采用基于物品的协同过滤四、总结导出与导入导出导入提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、赛题简介和数据概况:二、对赛题的理解1.明确目标:2.疑问:回归题目:预测用户未来的点击行为, 即用户的最后一次(可能)点击的新闻文章三、对Base

2020-11-25 22:01:35 611

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除