9.17学习笔记(重复值处理、数据清洗)

pandas的duplicated()判断重复值记录
pandas的drop_duplicates()删除数据记录,可指定特定列或全部
numpy中unique()返回所有不同的值,且按照从小到大的顺序
set(),python自带内置函数,也能返回唯一元素的集合

示例:重复值处理

import pandas as pd
data1=['a',1]
data2=['a',1]
data3=['b',2]
data4=['b',2]
data=pd.DataFrame([data1,data2,data3,data4],columns=['col1','col2'])
print(data)
#判断
isduplicated=data.duplicated()
print(isduplicated)
#删除
new_1=data.drop_duplicates()
new_2=data.drop_duplicates(['col1'])
new_3=data.drop_duplicates(['col1','col2'])
print(new_1)
print(new_2)
print(new_3)

结果:
col1 col2
0 a 1
1 a 1
2 b 2
3 b 2
0 False
1 True
2 False
3 True
dtype: bool
col1 col2
0 a 1
2 b 2
col1 col2
0 a 1
2 b 2
col1 col2
0 a 1
2 b 2

示例:数据清洗

import re
#加载正则表达式库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn import preprocessing
from sklearn import model_selection
from sklearn.preprocessing import LabelEncoder
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import GradientBoostingRegressor

#特征工程处理
train_df_org=pd.read_csv('train.csv')
test_df_org=pd.read_csv('test.csv')
test_df_org['Survived']=0
combined_train_test=train_df_org.append(test_df_org,sort=True)

#---Pclass字段---建立PCalss Fare Category
def pclass_fare_category(df,pclass1_mean_fare,pclass2_mean_fare,pclass3_mean_fare):
    if df['Pclass']==1:
        if df['Fare']<=pclass1_mean_fare:
            return 'Pclass1_Low'
        else:
            return 'Pclass1_High'
    elif df['Pclass']==2:
        if df['Fare']<=pclass2_mean_fare:
            return 'Pclass2_Low'
        else:
            return 'Pclass2_High'
    elif df['Pclass']==3:
        if df['Fare']<=pclass3_mean_fare:
            return 'Pclass3_Low'
        else:
            return 'Pclass3_High'

Pclass1_mean_fare=combined_train_test['Fare'].groupby(by=combined_train_test['Pclass']).mean().get([1]).values[0]		//取Pclass=1的舱的平均票价
Pclass2_mean_fare=combined_train_test['Fare'].groupby(by=combined_train_test['Pclass']).mean().get([2]).values[0]
Pclass3_mean_fare=combined_train_test['Fare'].groupby(by=combined_train_test['Pclass']).mean().get([3]).values[0]
combined_train_test['Pclass_Fare_Category']=combined_train_test.apply(pclass_fare_category,args=(Pclass1_mean_fare,Pclass2_mean_fare,Pclass3_mean_fare),axis=1)
print('# Pclass_Fare_Category...')
print(combined_train_test.groupby(['Pclass_Fare_Category','Survived'])['Survived'].count())

结果:
#/ Pclass_Fare_Category…
Pclass_Fare_Category Survived
Pclass1_High 0 49
1 48
Pclass1_Low 0 138
1 88
Pclass2_High 0 68
1 43
Pclass2_Low 0 122
1 44
Pclass3_High 0 174
1 42
Pclass3_Low 0 416
1 77
Name: Survived, dtype: int64

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Intel HD Graphics Family 9.17.10.4229是英特尔的一款图形处理器驱动程序版本号。该版本的驱动程序是用来控制Intel HD Graphics系列显卡运行的软件。这些显卡通常嵌入在英特尔的处理器中,用于处理图形和视频的显示。 该驱动版本9.17.10.4229可能是在2014年发布的,所以它可能已经过时。后续版本的驱动程序往往包含更多的优化和新的功能,以提升图形处理性能和兼容性。 驱动程序的更新可以通过访问英特尔官方网站来获取。更新驱动程序可能会解决一些已知的问题和错误,并提供更好的图形性能。同时,驱动程序的更新还可以支持新的技术和功能,例如更高的分辨率、更流畅的视频播放和新的游戏效果。 安装驱动程序的过程相对简单。用户可以下载最新版本的驱动程序,并按照提示进行安装。通常需要重启计算机以使驱动程序生效。在安装过程中,可能需要解压缩文件并运行安装程序。英特尔还提供了一些工具,用于检测当前显卡驱动程序的版本和进行驱动程序的自动更新。 在使用计算机时,出现一些图形相关问题,例如画面模糊、闪烁或黑屏等,可能与旧版本的显卡驱动程序有关。这时可以尝试更新驱动程序以解决问题。 总之,Intel HD Graphics Family 9.17.10.4229是一款旧版本的显卡驱动程序,建议用户升级到最新版本以获得更好的图形性能和兼容性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值