- 博客(3)
- 收藏
- 关注
原创 shiyan6title
数据集的数量可能很大,在执行机器学习任务时会给数据存储和处理带来困难,而并非每个模型都需要大量的数据来训练。另外,尽管数据可能具有很多属性,但可能存在不相关的特征以及特征的相互依赖性。数据降维是一种有助于减少数据集数据量的技术,从而使模型的学习过程更加有效,并帮助模型获得更好的性能,防止过度拟合问题并修复不均匀的数据分布。降维技术本质是通过减少数据样本的维数,由于减少了样本的属性数量,因此其中包含的信息减少,从而减少数据量的大小。
2024-05-29 19:51:06 325 1
原创 shiyan4
sns.heatmap(data.corr(), annot=True, fmt='.2f', cmap='PuBu')# 通过dataframe的loc方法取出size特征和标签Price,但是注意,如果要放入scikit-learn中的模型拟合数据的话,特征必须是向量,X非向量,需要进行转换。data = pd.read_csv('./housing_price.csv',sep = ',',encoding = 'utf-8') #加载数据。print('回归系数为:',LR1.coef_)
2024-05-14 16:58:01 385
原创 timutitle
工作机制非常简单:它通过将每一个测试集样本点与训练集中每一个样本之间测算欧氏距离,然后取欧氏距离最近的K个点(k是可以人为划定的近邻取舍个数,K的确定会影响算法结果),并统计这K个训练集样本点所属类别频数,将其中频数最高的所属类别化为该测试样本点的预测类别。K-近邻算法,直接作用与带标记的样本,属于有监督的算法,既可用于分类,也可以用于预测。这份数据集共有3个文件,分别为零食.txt,包.txt 电器.txt,商品包含两个属性:价格和评价: 下面是3个不同的.txt内容,每一行分别为价格和评价。
2024-03-21 19:41:03 235 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人