- 博客(5)
- 收藏
- 关注
原创 动手学数据分析第三章笔记
然后,说说分层抽样的好处。:混淆矩阵的每一列表示预测类别,每一列的总数表示预测为该类别的数据的数目;每一行表示数据的真实归属类别,每一行的数据总数表示该类别的数据实例的数目;:线性模型的输出是实数,不一定在区间[0,1]内,但分类任务需要概率测度。:混淆矩阵是一个N×N的矩阵,其中N表示分类标签的个数。:线性回归模型可以通过引入一个单调可微的函数来连接分类任务的真实标签(类别)和线性回归模型的预测值。总之,如果数据集本身已经足够随机,或者数据集非常大且不需要全部数据进行实验,那么就不需要进行随机选取。
2024-03-21 16:51:49 1201 1
原创 动手学数据分析第二章第四节笔记
显式创建figure和axes,在上面调用绘图方法,也被称为OO模式(object-oriented style)三. 数据可视化还可以学习pyecharts,bokeh,seaborn等包的用法。依赖pyplot自动创建figure和axes,并绘图。是常用的Pandas函数。一.matplotlib提供了两种最常用的绘图接口。二. 当处理数据时,
2024-03-18 23:58:17 629
原创 动手学数据分析第二章第二、三节笔记
是 Pandas 中的一个方法,用于将数据帧(DataFrame)中的列转换为行的索引。一.concat、merge、join、append方法的不同以及相同。三.pandas.core.series.Series和字典的区别。二.stack()函数的作用。
2024-03-16 21:46:43 911
原创 动手学数据分析第二章第一节笔记
7.pd.cut(df['Age'], 5,labels = [1,2,3,4,5]),分箱操作,均分为五个年龄段,并分别打上1,2,3,4,5标签,其中5也可以改为自定义区间,如输入[0,5,15,30,50,80]则代表分为(0,5] (5,15] (15,30] (30,50] (50,80]这五个区间。5.df[df.duplicated()]查看重复行,df.duplicated()返回一个重复行行号构成的Series(不包括第一次出现的那行)。8.保存为csv文件df.to_csv。
2024-03-14 18:09:00 485 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人