机器学习
夏目家的小妖精
这个作者很懒,什么都没留下…
展开
-
K近邻算法之电影分类(二)
分类过程数据准备阶段读取数据特征抽取数据切割数据的训练数据的测试数据的模拟sklearn调用API进行电影分类import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsfrom sklearn.neighbors import KNeighbo...原创 2020-03-06 22:17:49 · 614 阅读 · 1 评论 -
k近邻算法(KNN)预测入住位置(一)
定义如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。算法实例数据来源:kaggle数据分享:9fwr步骤:数据预处理分割数据集对数据集进行标准化进行分类预测数据预处理特征值:row_id:等级的idx,y:坐标accuracy:准确度time:时间戳place_id:位置import panda...原创 2020-03-05 14:44:24 · 675 阅读 · 0 评论 -
数据降维之特征选择——Filter(过滤式)
特征选择就是单纯地从提取到的所有特征中选择部分特征作为训练集特征,特征在选择前和选择后可以改变值、也不改变值,但是选择后的特征维数肯 定比选择前小,毕竟我们只选择了其中的一部分特征。流程初始化VarianceThreshlod,指定阀值方差调用fit_transformVariance Threshold 语法VarianceThreshold(threshold = 0.0)删...原创 2020-03-04 21:50:19 · 1426 阅读 · 0 评论 -
sklearn数据集介绍
数据集sklearn.datasets加载获取流行数据集datasets.load_*()获取小规模数据集,数据包含在datasets里datasets.fetch_*(data_home=None)获取大规模数据集,需要从网络上下载,函数的第一个参数是data_home,表示数据集下载的目录,默认是 ~/scikit_learn_data/获取数据集返回的类型load和fet...原创 2020-03-04 21:44:38 · 594 阅读 · 0 评论 -
数据降维之特征选择——PCA(二)
kaggle案例分析数据来源:kaggle网站百度云分享:提取码:bt3t说明:products.csv 商品信息order_products__prior.csv 订单与商品信息orders.csv 用户的订单信息aisles.csv 商品所属具体物品类别import sklearn.decomposition import PCAimport pandas as pd...原创 2020-03-04 11:33:46 · 404 阅读 · 0 评论 -
数据降维之特征选择——PCA(一)
主成分分析特征数量达到上百的时候 考虑数据的简化 数据会改变 特征会减少目的 数据维数压缩,尽可能降低原数据的维数(复杂度),损失少量信息。作用 可以削减回归分析或者聚类分析中特征的数量PCA流程初始化PCA 指定减少后的维度PCA(n_components=None)将数据分解为较低维数空间n_components小数 0~1 90%整数 减少后的特征数量...原创 2020-03-04 10:52:03 · 373 阅读 · 0 评论