自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)

原创 数据分类——决策树算法(文章较长,请耐心,欢迎指导!)

1.什么是决策树?分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点和有向边组成。结点有两种类型:内部结点和叶结点。内部结点表示一个特征或属性,叶结点表示一个类。决策树(DecisionTree),又称判定树,是一种以树结构(包括二叉树和多叉树)形式来表达的预测分析模型。通过把实例从根节点排列到某个叶子节点来分类实例叶子节点即为实例所属的分类树上每个节点说明了对实例的某个属性的...

2020-02-18 18:10:45 262

原创 数据分类KNN算法

监督就是给的样本都有标签,分类的训练样本必须有标签,所以分类算法都是有监督算法。监督机器学习无非就是“minimize your error while regularizing your parameters”,也就是在规则化参数的同时最小化误差。最小化误差是为了让我们的训练数据,而规则化参数是防止我们的模型过分拟合我们的训练数据,提高泛化能力KNN(k 最邻近分类算法)1.算法思路通过计...

2020-02-03 12:33:20 102

原创 数据预处理——相似度计算

相似度计算在数据挖掘和推荐系统中有着广泛的应用场景。1.在协同过滤算法中,可以利用相似度计算用户之间或物品之间的相似度。2.在利用k-means进行聚类时,利用相似度计算公式计算个体到簇类中心的距离,进而判断个体所属的类别。3.利用KNN进行分类时,利用相似度计算个体与已知类别之间的相似度,从而判断个体所属的类别等。下面介绍一些常见的相似度计算方法。1.欧氏距离欧式距离指的是在m维空间...

2020-02-03 12:08:04 350

原创 数据预处理——数据清理

“脏数据”对算法模型的直接影响是不能被使用,间接影响是降低模型的精度。这种情况下就需要对数据进行清理,包含(但不局限于):不合格数据修正、缺失值填充、噪声值处理、离群点处理。1.不合格数据修正不合格数据泛指一切不符合直观期望的数据。例如一份CSV文件数据Name, sex, ageJack, male, 23Lucy**;**female, 22Tom, $%%^^, 24...

2020-02-02 12:35:22 139

原创 数据科学——概述(专栏)

图灵奖得主Richard Hamming先生有这样一句名言:The purpose of computing is insight, not numbers.(计算的目的不在于数字,而在于洞察事物)数据科学,是大数据和云计算浪潮冲击出来的一块宝玉!“一千个人眼里有一千个哈姆雷特”,对于数据科学有很多不同的解读,相关概念很多:数据驱动(data driven)、分布式计算(distribute...

2020-02-01 17:14:34 56

原创 数据预处理——数据降维(主成分分析)

数据降维在构建机器学习模型时,有时特征是极其复杂,当特征的维度达到几千维时,模型训练将会耗费大量的时间。另外,如果特征较多,还会出现多重共线性、稀疏性的问题。因此,需要简化属性、去噪、去冗余,以求取更典型的属性,但同时又不希望不损失数据本身的意义,这时就需要对特征进行降维。1.降维的方法数据降维分为线性降维和非线性降维。(1)线性降维:分为主成分分析(PCA)、线性判断分析(LDA)。...

2020-02-01 14:30:16 748

原创 机器学习——鸢尾花实例(附数据集资源)

# 这个项目是针对鸢尾花(Iris Flower)进行分类的一个项目,数据集是含鸢尾花的三个亚属的分类信息# 通过机器学习算法生成一个模型,自动分类新数据到这个三个亚属的某一个中# 该数据集的特点:# 1.所有特征数据都是数字,不考虑如何导入和处理数据# 2.这是一个分类问题,可以很方便地通过有监督地通过有监督学习算法来解决问题# 3.这是一个多分类问题,也许需要一些特殊处理# 4.所...

2020-02-01 14:22:43 1335 8

原创 数据预处理——数据抽样

数据抽样今天我们来聊一聊数据抽样!数据抽样也叫数据采样。数据抽样是选择数据子集对象的一种常用方法。值得注意的是:1.在统计学中,抽样的目的是实现数据的调查和分析。2.在数据挖掘中,抽样的目的是压缩数据量,减小数据挖掘算法的资源开销。3.在数据挖掘中,抽样主要是从海量数据中产生训练集(Train Set)、测试集(Test Set)和验证集(Validation Set)。训练集用来模...

2020-01-31 12:49:37 111

原创 数据预处理——数据离散化处理

数据离散化数据离散化(也叫数据分组)是指将连续的数据进行分组,使其变为一段段离散化的区间。根据离散化过程中是否考虑类别属性,可以将离散化算法分为有监督算法和无监督算法两类。由于有监督算法(如基于信息熵进行数据的离散化)充分利用了类别属性的信息,所以在分类中能获得较高的正确率。以下介绍的数据分组方法均需要对数据进行排序,且假设待离散化的数据按升序排列。1.等宽分组等宽分组的原理是:根据分组...

2020-01-30 12:09:23 1110

原创 数据预处理——数据标准化

在家没事梳理下数据标准化的东西在这里插入代码片```# 数据标准化(Normalization)是指:将数据按照一定的比例进行缩放,使其落入一个特定的小区间。最经典就是数据的归一化处理,即将数据统一映射到【0,1】之间。# 常用的数据标准化有6种# 1.Min-Max 标准化# Min-Max 标准化是指对原始数据进行线性变换,将值映射到【0,1】之间。# 公式为: X' = (X-X...

2020-01-29 12:42:42 68

原创 推荐系统——协同过滤

简单的一个推荐系统,有bug,用户相关性系数跑不出来,走过路过的大佬麻烦优化一下!import pandas as pdfrom scipy.stats import pearsonrimport matplotlib.pyplot as pltuserRatings ={'Dave':{'Dark Side of Moon': 9.0,'Hard Road':6.5,'Sympho...

2019-11-09 10:16:18 70

原创 推荐系统基本概念

推荐系统基本概念协同过滤推荐这些系统的基本思想是,如果用户在过去有相同的偏好(比如他们浏览或买过相同的书),那么他们未来也会有相似的偏好。举例来说,如果用户A和用户B的购买经历非常重叠,而且用户A最近买了一本用户B还不知道的书,那么这时基本的逻辑就是向B推荐这本书。由于选择可能感兴趣的书涉及从大量集合中过滤出最有希望的书,而且用户是在隐式地与其他人相互协作,因此这种技术也被称为协同过滤!(CF...

2019-10-28 16:10:32 53

原创 Python环境搭建 Anaconda + pycharm 安装包

今天看见有同事 装个环境都笨手笨脚的,忍不住帮了她一把!直接上干货: Anaconda 官网下载比较慢,这里提供的是:清华大学Anaconda镜像开源网站:https://mirrors.tuna.tsinghua.edu.cn/anaconda./archive/ 任何操作系统,任何版本都有!Pycharm:我用的是2018 3. 7这里推荐 微信公众号:软件安装管家(对着天发誓没打广...

2019-08-13 17:44:07 65 1

原创 winform GET/POST请求某网页并解析:

winform GET/POST请求并解析:最近在学习这方面内容,利用winform 特定请求某网页数据并反馈给客户。我的思想是,直接请求页面html源代码,利用正则表达式指定截取数据(没学过正则表达式,有些尴尬),另附json数据解析,和图片的请求,当然,都只是思想,希望有大佬路过能点进来给予指导,也欢迎各路大佬前来指导!代码如下:using System;using System.Co...

2019-08-09 09:43:40 240

原创 利用C#语言做一个简单的计算器(新手福利,大侠勿笑)

利用C#语言做一个简单的计算器(手把手指导,新手福利,大侠勿笑)直接说干货!我使用的VS2013第一步,启动vs2013,选择C#语言下的windows窗体应用程序,新建一个项目取名为计算器第二步,添加控件。窗体控件属性及设置如下所示:第三步:右击窗体,在弹出的快捷菜单里选择“查看代码”命令,出现代码编辑器,在窗体类Form1的顶部字段声明处,进行一下声明:private bool ...

2019-07-19 13:12:26 385

空空如也

空空如也

空空如也
提示
确定要删除当前文章?
取消 删除