自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 GitHub使用入门

Step 1 创建文件首先本地创建文件mkdir Democd Demogedit 文件创建完成后,这时Demo目录还是一个普通的目录,需要进行初始化操作,置于Git的控制管理之下。git init再ls -la 命令,会发现一个名叫 .git 的目录被创建了,这意味着仓库初始化成功。可以进入到 .git 目录查看下有哪些内容Step 2 提交代码Git 提交代码的基本流程是...

2020-04-02 18:07:58 95

原创 特征工程

特征工程常用方法:标准化:xi−uσ\frac{x_i -u}{\sigma}σxi​−u​归一化:xi−min(x)max(x)−min(x)\frac{x_i - min(x)}{max(x) - min(x)}max(x)−min(x)xi​−min(x)​多项式:Label Encodel:One-hot Encoder:为什么要进行feature scaling?1.特征...

2020-03-25 09:58:29 85

翻译 sklearn中SVM算法的使用

import numpy as npimport matplotlib.pyplot as pltfrom sklearn import svm,datasets def make_meshgrid(x,y,h=0.02): """ x:data to base x-axis meshgrid on y:data to base y-axis meshgrid ...

2019-11-24 16:21:05 576

原创 机器学习实战第五章 Logistic回归

Logistic回归主要思想:根据现有数据对分类边界线建立回归公式,以此进行分类。5.1 基于Logistic回归和Sigmoid函数的分类我们想要的函数是,能接受所有输入然后预测出类别。例如,在两类的情况下,上述函数输出0或1。单位阶跃函数具有这种性质,但是该函数在跳跃点上从0瞬间跳跃到1,这个瞬间跳跃过程有时很难处理。幸好,另一个函数Sigmoid也有类似性质。$$...

2019-11-13 20:46:31 183

原创 机器学习实战第四章 朴素贝叶斯

4.1 基于贝叶斯决策理论的分类方法贝叶斯决策理论的核心思想:选择高概率对应的类别假设用p1(x,y)代表数据点(x,y)属于类别1的概率,p2(x,y)代表数据点(x,y)属于类别2的概率,如果p1(x,y)>p2(x,y),那么类别为1,反之为2.4.2 条件概率方法一:条件概率公式:P(A|B)=P(AB)/P(B)方法二:贝叶斯准则:...

2019-11-10 22:02:01 248

原创 机器学习实战第三章 决策树

内容简介:决策树的构造在Python中使用Matplotlib注解绘制树形图测试和存储分类器示例:使用决策树判断隐形眼镜类型Part 1 决策树的构造决策树优缺点:优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据缺点:可能会产生过度匹配问题算法流程:在构造决策树时,我们首先要解决的问题是,当前数据集上哪个特征在划分数据分类时起决定性作用...

2019-10-20 12:02:48 324

原创 机器学习实战第二章K-近邻算法

概述k近邻算法:采用测量不同特征值之间距离的方法进行分类优缺点:优点:精度高,对异常值不敏感,无数据输入假定缺点:计算复杂度高,空间复杂度高适用数据范围:数值型和标称型工作原理:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征比较,然后算法提取...

2019-10-14 12:55:36 157

原创 2018年北京积分落户数据分析

首先,读入数据集,共包含6019条数据,4个变量:姓名name,出生年月birthday,公司company,落户分数score`luohu_data = pd.read_csv('bj_luohu.csv',index_col='id')luohu_data.head() 看一下落户分数的大致情况,可以看出2018年积分落户最低分为90.75分,最高分为122.59分,平均分为95.6...

2019-09-28 21:08:48 964

原创 西瓜书学习笔记 第3章 线性模型

2019-09-09 15:01:28 112

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除