数据挖掘之科比投球案例分析

最新推荐文章于 2022-11-28 21:23:43 发布

淮南草

最新推荐文章于 2022-11-28 21:23:43 发布

阅读量2.9k

点赞数 1

分类专栏：数据挖掘

本文链接：https://blog.csdn.net/zhuisaozhang1292/article/details/81486815

版权

为了弥补在特征工程中的不足，学习一下如何从数据获取以后进行数据处理分析，以下为数据处理学习内容：

在学习过程中遇到问题：

原因1：后来发现是学习视频中介绍导包的文件不对，下面这两个都是KFold交叉验证的包，但是用法不同

原因2：某些特征中存在字符串没法将其转换为float或int计算，如上面错误中的’IND‘ 就是其中一个特征中的值，

在后面的交叉验证前进行了相关特征剔除，保证了验证的顺利运行，但是肯定会导致精度下降，后期再将其进行map映射或这one-hot编码

# from sklearn.model_selection import KFold
from sklearn.cross_validation import KFold

'''
Created on 2018年8月8日

@author: hcl
'''
'''
Created on  

@author: hcl
'''
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

file_path = 'data.csv'

raw = pd.read_csv(file_path)
#看一下样本的分布情况 及样式
# print(raw.shape)
# # print(raw.head())
# print(raw.tail())

#查找空值 在这里直接把它当成需要预测的目标
# kobe = raw[pd.isnull(raw['shot_made_flag'])]
# kobe = raw[pd.notnull(raw['shot_made_flag'])]
# print(kobe.shape)

#数据可视化 可能可以用来分析 是否存在相关性较高的特征
# alpha = 0.02 #点的透明程度
# plt.figure(figsize=(10,10))
# plt.subplot(121)
# plt.scatter(kobe.loc_x,kobe.loc_y,color= 'blue',alpha=alpha)
# plt.title('loc_x and loc_y')
# plt.subplot(122)
# plt.scatter(kobe.lon,kobe.lat,color= 'green',alpha=alpha)
# plt.title('lat and lon')
# plt.show()

#通过unique()去获取某一特种中不重复的属性
# print(kobe.action_type.unique())
# print(kobe.combined_shot_type.unique())
# print(kobe.shot_type.unique())

#通过value_counts() 特征中不同属性出现的次数,且貌似是默认降序排列
# print(kobe.shot_type.value_counts())
# print(kobe.action_type.value_counts())

#因为机器学习算法不认识特殊字符串 所以需要进行处理 这边处理为字符串的右半边并转换为整型 具体情况具体调整策略
# print(kobe.season.unique()) #和下面的效果一样
# print(kobe['season'].unique())
# raw['season'] = raw['season'].apply(lambda x : int(x.split('-')[1])) #因为这边的season中的内容是例如 2018-01
# print(raw['season'].unique())

#查看与哪队打比赛 并生成DataFrame
# kd = pd.DataFrame({

最低0.47元/天解锁文章

淮南草

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘之科比投球案例分析

为了弥补在特征工程中的不足，学习一下如何从数据获取以后进行数据处理分析，以下为数据处理学习内容：在学习过程中遇到问题：原因1：后来发现是学习视频中介绍导包的文件不对，下面这两个都是KFold交叉验证的包，但是用法不同原因2：某些特征中存在字符串没法将其转换为float或int计算，如上面错误中的’IND‘ 就是其中一个特征中的值，在后面的交叉验证前进行了相关特征剔除，保证了...
复制链接

扫一扫