![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据科学
文章平均质量分 54
卡仕达酱
这个作者很懒,什么都没留下…
展开
-
数据分析笔记5:建模评估
我们采用sklearn这个库来进行建模和评估1.分割训练集和测试集先来简单介绍一下数据分割的函数:train_test_split,资料来源于sklearn的官方文档X_train,X_test,y_train,y_test=sklearn.model_selection.train_test_split(train_data,train_target, test_size=None,train_size=None, random_state=None, shuffle=True, stratify原创 2021-08-25 20:38:03 · 286 阅读 · 0 评论 -
数据分析笔记4:数据可视化
1.可视化展示泰坦尼克号数据集中男女中生存人数分布情况(用柱状图)sex=data.groupby('Sex')['Survived'].sum()sex.plot.bar()plt.title('survived_count')plt.show()2.可视化展示泰坦尼克号数据集中男女中生存人与死亡人数的比例图group=data.groupby(['Sex','Survived'])['Survived'].count().unstack().plot(kind='bar',stacked=原创 2021-08-21 12:36:55 · 366 阅读 · 0 评论 -
数据分析笔记3:数据重构
1.数据合并(DataFrame)1.1 使使用concat方法:将数据train-left-up.csv和train-right-up.csv横向合并为一张表,并保存这张表为result_up)#先把两张表放进列表里,再用concat函数list=[data_left_up,data_right_up]result_up=pd.concat(list)result_up.head(3)1.2 将train-left-down和train-right-down横向合并为一张表,并保存这张表为r原创 2021-08-21 09:58:38 · 222 阅读 · 0 评论 -
数据分析笔记2:数据清洗及特征处理
1.缺失值观察#方法一:data.isnull().sum()#方法二:data.info()#方法三:data[['Age','Cabin','Embarked']].head(3)2.缺失值处理#方法一:data[data['Age']==None]=0#方法二:data[data['Age'].isnull()]=0#方法三:data[data['Age'] == np.nan] = 0data.isnull().sum()#方法四:data.dropna(原创 2021-08-18 21:13:50 · 112 阅读 · 0 评论 -
数据分析笔记1:Pandas的使用
本文采用的例子:kaggle上的泰坦尼克号预测一.1.载入数据import pandas as pddata=pd.read_csv("C:/Users/45168/Desktop/hands-on-data-analysis-master/第一单元项目集合/train.csv")2.每1000行为 一个数据模块,逐块读取chunker=pd.read_csv('C:/Users/45168/Desktop/hands-on-data-analysis-master/第一单元项目集原创 2021-08-17 10:26:12 · 242 阅读 · 0 评论