机器学习实战--笔记
xie_qiuqiu
小白学生汪
展开
-
K近邻算法(二)--约会网站配对
问题描述:一姑娘相亲无数,并且给相亲对象进行了评分123分别表示很喜欢的,一般般的和不喜欢的,这里也给出了被约过的1000位男士的个人信息包括飞行里数,玩游戏视频所耗时间比,和每周消费的冰激凌公升数。要求建立一个分类器使得一个新的男士出现时能以最大概率进行分类。这里我们用KNN算法。 一、准备数据 所给txt文档有1000行,大概长这样: 40920 8.326976 0.9翻译 2017-02-20 14:47:38 · 1999 阅读 · 0 评论 -
K近邻算法(一) python实现,手写数字识别(from机器学习实战)
k近邻法(KNN)算法概述算法概述优点 精度高、对异常值不敏感、无数据输入假定。 缺点 计算复杂度高、空间复杂度高。 试用数据范围 数值型和标称型工作原理:将新数据的每个特征与样本集中数据对应特征进行比较,计算之间的距离值,选取样本数据集中前k个最相似的数据。伪代码: 1. 计算已知类别数据集中的点与当前点之间的距离 2. 按照距离递增次序排序 3. 选取与当前点距离最小的k个点翻译 2017-02-19 22:07:44 · 1459 阅读 · 0 评论 -
K近邻算法(三)--kaggle竞赛之Titanic
小白好难得会用python做第分类,实践一下用于kaggle入门赛之泰坦尼克生还预测 问题介绍:泰坦尼克电影大家都看过,大灾难过后有些人生还了,有些人却遭遇了不信,官方提供了1309名乘客的具体信息以及提供了其中891名乘客的最后的存活情况,让我们去预测另外418乘客的存活情况。是很基本的二分类问题。 一、数据分析 官方所给的数据长这样: Survived:是否存活(0原创 2017-02-20 18:40:49 · 2224 阅读 · 0 评论 -
Historical Sales and Active Inventory kaggle
本题数据集是来自kaggle的Historical Sales and Active Inventory数据集,该数据集包含了历史销售记录数据和当前活跃库存的数据,在原始数据集中通过FileType特征进行区分(取值分别为Historical和Active),并且在当前活跃库存数据中不存在SoldFlag和SoldCount的值,所以无法用于训练或验证模型。我们去除了当前活跃库存数据,只保留了历史原创 2017-09-03 21:32:36 · 1042 阅读 · 0 评论