Harold_Ran-CSDN博客

原创 2020DCIC智慧海洋建设算法赛学习03-特征工程

序：特征工程往往是算法比赛中最至关重要的一环，一个好的特征工程能够让你的分数有大幅的提升，而如何做好特征工程、从哪些方面入手构建特征就需要经验积累和学习TOP选手的优秀方案。通过学习TOP选手开源代码的特征工程部分，我们可以发现，对于智慧海洋这样一个包含时序和空间信息的赛题，通常可以从以下几方面来构造特征。0 基本预处理在进行特征工程之前，我们需要对原始数据做一些基本的预处理。部分原始训练数据是这样的：通过上一篇博客的数据分析，我们知道数据中没有缺失值，因此不用做缺失值填充。对于这份数据，我们需

2021-04-20 22:21:16 960

原创 2020DCIC智慧海洋建设算法赛学习02-数据分析

序：这篇博客旨在对赛题数据做一些初步的探索，包括查看数据中的缺失值、异常值等，以及通过可视化来观察各个特征的分布情况，为之后进行特征工程提供一些思路。1. 查看数据整体情况对于一份数据集，首先要对它的整体情况做一些基本的了解。导入数据库首先导入必要的库：import warningswarnings.filterwarnings('ignore')import numpy as npimport pandas as pdfrom matplotlib import pyplot as

2021-04-17 01:36:38 1259 3

原创 2020DCIC智慧海洋建设算法赛学习01-赛题北京及地理数据分析常用工具

序：本系列的博客旨在学习2020DCIC智能算法赛-智慧海洋建设的优秀方案，对地理数据分析问题积累一些思路和经验。作为这一系列博客的开篇，这篇博客主要内容包括对赛题的解析和对项目中会用到的一些常用的地理数据分析工具的简要介绍。1 赛题背景1.1 问题陈述智慧海洋建设比赛是一个时序数据的分类问题，任务就是要通过给出的渔船轨迹的北斗数据判断渔船的生产作业行为。渔船的生产作业行为包括三类：拖网作业、围网作业和流刺网作业。(1) 拖网作业拖网作业是依靠渔船的动力拖动渔具将所经之处的鱼虾捕捞入网的一种捕

2021-04-15 02:51:49 1174

原创 datawhale深度推荐模型组队学习Task05-DIN模型

序言：不同于之前几个模型各种拼接的画风，阿里巴巴提出的DIN模型着眼于电商广告推荐的具体场景，具有浓厚的商业气息。在电商广告推荐场景中，如何捕捉用户的兴趣，根据用户兴趣推荐相关的商品是一个关键问题。用户的兴趣往往可以通过他历史购买过的商品来获得，因此，如何利用用户历史购买的商品来考察当前候选商品用户是否会感兴趣，就是DIN模型所要解决的问题。1 模型原理DIN模型的构造思路就是以常规的MLP模型作为基准模型，在其上引入注意力机制，考察当前候选商品与每个用户历史购买的商品之间的关联性，如果关联性强，则

2021-03-28 02:33:50 499 1

原创 datawhale深度推荐模型组队学习Task04-NFM模型

序言：在Task03中学习的DeepFM模型是将DNN与FM横向拼接，这次，我们换一个姿势，将DNN与FM纵向拼接，就得到了NFM模型。于是，问题就来了：DNN模型与FM模型是怎么纵向拼接的呢？纵向拼接相比于横向拼接有哪些优势呢？这些问题我们将在接下来展开讨论。1 模型原理一切还得从FM模型开始说起。FM模型的特点就在于，它在线性模型的基础上加上了交叉项，使得模型能够自动学习二阶特征：y^FM(x)=w0+∑i=1nwixi+∑i=1n−1∑j=i+1nwijxixj\hat{y}_{

2021-03-24 22:16:16 288

原创 datawhale深度推荐模型组队学习Task03-DeepFM模型

序言：在Task02中，我们说到，Wide&Deep模型是Wide模型和Deep模型的结合，其中Wide部分采用线性模型，Deep部分采用DNN模型。其中Wide模型的输入特征是原始的数值型特征、Embedding处理后的类别型特征以及人工构造的交叉特征。因此，Wide模型必须要有人工参与，需要有经验的工程师做好特征工程，构造出实用的交叉特征。然而，特征工程对工程师的要求很高，同时日益庞大的特征量也使得人工构造特征变得越来越困难。在实际应用中，我们希望能够尽量避免人工参与，构造端到端模型，让模型

2021-03-22 02:21:56 347

原创 datawhale深度推荐模型组队学习Task02-Wide&Deep模型

序言：Wide&Deep模型是围绕模型的泛化与记忆能力提出的。一方面，我们希望推荐系统模型具有较强的记忆能力，能够发现一些直白的、显而易见的关联信息。例如那个著名的啤酒与尿布的故事，人们发现年轻的父亲买尿布的时候总会顺带为自己购买啤酒，因此，我们就希望模型能够记住这种模式，在看到尿布的时候，就将其与啤酒关联起来。这种记忆能力可以通过简单的线性模型来实现。另一方面，我们又希望模型具有较强的泛化能力，能够挖掘一些不直观的、难以察觉的信息。这就需要深度神经网络对输入的特征进行层层地交叉与组合。那么

2021-03-18 18:11:16 265

原创 datawhale深度推荐模型组队学习Task01-DeepCrossing模型

序言：DeepCrossing模型是由微软提出的应用于Bing搜索广告推荐的模型，作为datawhale深度推荐模型的开篇，DeepCrossing模型结构并不复杂，原理也很简单，可谓是相当新手友好了。1 模型原理DeepCrossing模型的结构设计是明确以问题为导向的：问题1：推荐系统中存在大量的类别特征，例如广告ID等，这些特征编码之后会形成大型稀疏矩阵，不利于神经网络学习。解决办法：采用Embedding将稀疏向量稠密化。问题二：如何让特征自动交叉组合。解决办法：采用多层残差网络。神经

2021-03-17 02:09:14 372

原创天池时间序列竞赛——AI助力精准气象和海洋预测学习笔记其二：CNN baseline

逛论坛的时候发现对于这个题目，CNN似乎是个不错的解题思路。因为给出的数据是多维的，每条数据的维度是[year, month, lat, lon]，在这四个维度下给出了SST、T300、Ua、Va四个指标的值。month的取值是36个月，lat是-55~60间隔5取值，即24个值，lon是0 ~180间隔5取值，即72个值。考虑到有四个指标，也就是说，数据的shape是[year, 36, 24, 72, 4]。目标是根据前12个月的数据预测后24个月的数据，因此取数据的前12个月作为训练集，后24个月作为

2021-02-25 20:31:39 918

原创天池时间序列竞赛——AI助力精准气象和海洋预测学习笔记其一：赛题分析

序：最近参加了天池的气象和海洋预测竞赛，希望能够借此机会学习时间序列的相关模型，接下来会通过系列博客记录并梳理自己在竞赛过程中的一些心得体会。作为系列学习笔记的第一章，这篇文章旨在梳理和分享我对赛题的一些理解。1. 项目背景问题陈述这个竞赛是一个自然科学相关的时间序列预测问题，要求基于历史气候观测和模式模拟数据，准确预测厄尔尼诺-南方涛动(ENSO)现象。具体来说，我们的任务就是根据过去12个月的气象及时空数据，预测未来24个月的Nino3.4指数。对于这样一个题目，我们可以考虑以下三个问题：

2021-02-21 23:12:15 3951 4

原创推荐系统基础之GBDT+LR

1 简介用户的自身特征、物品的特征以及上下文是推荐系统中极其重要的数据，其中往往包含着大量的信息。因此，如何利用这些原始的特征信息并构建新的信息是非常重要的。GBDT+LR模型是Facebook在2014年提出的模型，顾名思义，这个模型是GBDT模型与LR模型的组合。为什么要采用这两个模型的组合？我们知道，LR是用于CTR预测的一个经典模型，这个模型形式十分简单，只需在输出加上sigmoid函数就可以很好地应用于二分类问题，而LR模型预测的好坏与输入特征有着很大的关系。在机器学习领域，我们通常说，输入特征

2020-10-30 23:37:13 581

原创推荐系统基础之wide&deep模型

1 背景对于一个推荐系统，我们可以采用协同过滤、矩阵分解等算法来预测用户对物品的评分，根据评分取前N个进行推荐。然而，在实际应用场景中，要计算所有用户对所有物品的评分，计算量十分庞大，并且需要占据巨大的内存，因此，通常的做法是先对所有物品进行召回，以召回的这一部分物品作为候选，再对这些候选物品进行评分或点击率预测，根据预测结果排序，取前N个进行推荐。wide&deep模型就是点击率预测的一个经典模型。2 wide&deep模型我们知道，线性模型以给定的原始特征和一些人为设计的交互特征作

2020-10-27 22:37:54 1408

原创推荐系统基础之矩阵分解

1 隐语义模型与矩阵分解隐语义模型最早在文本领域被提出，用于挖掘文本的隐含语义。在推荐系统中，隐语义模型的核心思想就是基于用户的行为挖掘用户和物品的潜在特征。那么，如何找出用户和物品的潜在特征呢？矩阵分解就是一个广泛应用的方法。2 矩阵分解算法(MF)原理对于一个U×IU \times IU×I的用户-物品矩阵，我们选择F作为潜在特征数，将用户-物品矩阵分解成为一个U×FU \times FU×F的用户矩阵P和一个F×IF \times IF×I的物品矩阵Q，这就是矩阵分解算法。如何理解矩阵分解呢

2020-10-25 22:16:15 622

原创推荐系统基础之协同过滤算法

1 什么是协同过滤算法协同过滤算法是指根据用户过去的喜好或兴趣相近的用户的选择来进行推荐。根据用户过去的喜好来推荐，简单来说就是，如果用户过去购买过物品A，而物品B与物品A有着相似的特点（注意这里的特点与物品本身的属性无关，指的是不同用户对物品A和物品B的行为是相似的，例如各个用户对物品A和物品B的评分相似），那么我们就把物品B推荐给该用户，这就是基于物品的协同过滤算法（ItemCF）。根据兴趣相近的用户的选择来推荐，就是指如果用户A和用户B对于各个物品的行为（例如评分或浏览时长等）是相似的，而用户A喜欢

2020-10-22 23:37:47 1543

原创推荐系统基础之推荐系统简介

1.推荐系统概述什么是推荐系统？字面意义上理解，推荐系统就是向他人进行推荐的系统。当我们每天打开B站，首页上推送的视频并非是经过我们搜索得到的，而是由背后的算法以一定的方式（例如根据你的浏览历史分析你的兴趣，或是参考近期的热门视频）选择的其中一些我们可能会感兴趣的视频，这就是一个推荐系统。也就是说，推荐系统是沟通用户与商品之间的桥梁，是实现用户-商品-供应商之间利益最大化的手段。如今，推荐系统已经得到了广泛应用，例如音乐推荐、电影推荐、短视频推荐、商品推荐等等。从中我们可以发现推荐系统应用的两个条件，一

2020-10-19 23:07:02 543

原创 Kaggle经典项目——房价预测

写在前面：这篇文章旨在梳理kaggle回归问题的一个基本流程。博主只是一个数据分析刚入门的新手，有些错漏之处还请批评指正。很遗憾这个项目最后提交的Private Score只达到了排行榜的TOP13%，我目前也还没有更好的方法去进一步提高分数，不过整个项目做完之后对kaggle回归预测项目的解题思路有了一套比较完整清楚的认识，总结出来和大家分享，欢迎共同探讨。1.项目背景问题陈述房价预测是kaggle的一个经典Data Science项目，作为数据分析的新手，这是一个很好的入门练习项目。任务很明确

2020-07-19 18:35:38 50641 44

zenghr的博客