数据分析与预测
无
卿本佳人-
性别男~,爱好女~。
展开
-
简单的数据清洗
数据清洗1.数据描述df.head()df.info()df.describe() #只统计数据型数据df.shape2.去除前后空格3.重复值处理df.duplicated() #返回bool数据,所有的数据都相等df.duplicated().sum() #返回重复值的数目 df[df.duplicated()] # 返回所有重复值的记录###删除重复值###df.drop_duplicates() #只在显示上修改df.drop_duplicates(inplace原创 2020-07-31 16:40:06 · 439 阅读 · 0 评论 -
缺点(基于协同过滤的推荐)
冷启动问题(新产品,新用户)一.推荐系统需要根据用户的历史行为和兴趣来预测用户未来的行为和兴趣,如何在没有大量用户数据的情况下设计个性化推荐系统并让用户对推荐结果满意从而愿意使用推荐系统,就是冷启动问题。二.分类:用户冷启动:如何给新用户做个性化推荐物品冷启动:如何将新物品推荐给可能对其感兴趣的用户。在新闻网站等时效性很强的网站中非常重要。系统冷启动:如何在一个新开发的网站上设计个性化推荐,从而在网站刚发布时就让用户体验到个性化推荐服务。新网站没有用户,没有用户行为,只有一些物品信息。三.解原创 2020-08-04 16:42:29 · 3068 阅读 · 0 评论 -
简单的相似度计算
相似度就是比较两个事物的相似性。一般通过计算事物的特征之间的距离,如果距离小,那么相似度大;如果距离大,那么相似度小。欧氏距离计算两个点的空间距离,距离越小,越相似。二维平面:三维平面:n维向量:例:a(1,1,2,0,1,1,0,0,0);b(1,1,1,0,1,1,1,0,0);c(0,0,0,1,0,0,1,1,1);余弦相似度也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。余弦值越接近1,就表明夹角越接近0度,也就是两个向量原创 2020-08-03 17:40:29 · 2789 阅读 · 0 评论 -
小费预测
from sklearn import linear_modelfrom sklearn.model_selection import train_test_splitimport numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsfrom scipy.stats import pearsonrdata=pd.DataFrame(pd.read_csv('d:/tips.csv'原创 2020-07-31 17:24:04 · 135 阅读 · 0 评论