数据挖掘竞赛—Kaggle
文章平均质量分 86
mmい
这个作者很懒,什么都没留下…
展开
-
kaggle——Influencers in Social Networks
Dataset 数据存储在csv文件中,每一行数据包含两个对象A,B的特征向量以及类标签 数据的第0列是类标签:类标签为1,表示A比B更有影响力,为0表示B比A更有影响力 特征向量是11个从twitter中获取的已预处理好的非负的数值型数据,1~11列是A的特征,12~22列是B的特征。 这是训练集中的一个特例,意味着每行的节点不是只出现一次,例如,A跟B比较,A还原创 2016-04-06 08:41:40 · 3708 阅读 · 0 评论 -
ML2016-PM2.5 Prediction
问题根据气象局网站下载的真实观测数据,使用线性回归或者其它方法预测PM2.5的数值。数据数据分为train.csv和test_X.csv:train.csv:下面是原始数据 # 注:我把原始数据的列标签换成了英文,显示如下import pandas as pdtrain = pd.read_csv("train.csv")print train.head(1)''' Date Loc原创 2016-10-13 19:15:24 · 5280 阅读 · 0 评论