文章目录
前言
经过上一篇依据Datawhale的针对天池赛中零基础入门推荐系统 - 新闻推荐Task01的文章,接下来本文将对此次赛题中的数据进行分析,希望能够加深对推荐算法的一些认知。
| 打卡记录NO.2
一、关于数据分析
数据分析的目的:
- 熟悉整个数据集的基本情况及其特征之间的相关性;
- 熟悉文件中包含的数据及文件中每个字段的含义;
数据分析的作用:
- 在推荐场景下,分析用户和文章的基本属性,以及用户和文章交互的一些分布,这些都有利于后面的召回策略的选择,以及特征工程;
- 当特征工程和模型调参已经很难继续提高分数时,可以试着从新的角度去分析这些数据。
二、实现步骤
1.引入库
代码如下:
%matplotlib inline
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
plt.rc('font', family='SimHei', size=13)
import os,gc,re,warnings,sys
warnings.filterwarnings("ignore")
2.读取数据:
其中,path为保存原数据的存储路径。
path = './data_raw/'
#####train
trn_click = pd.read_csv(path+'train_click_log.csv')
item_df = pd.read_csv(path+'articles.csv')
item_df