自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 线性回归小代码

import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom sklearn import linear_modelfrom sklearn.model_selection import train_test_split,cross_val_scorefrom sklearn import metric...

2018-08-27 20:32:33 326

原创 交叉验证(Cross Validation)

交叉验证是在机器学习建立模型和验证模型参数时常用的方法。交叉验证就是重复使用数据,把得到的样本数据进行切分,组合为不同的训练集和测试集,用训练集来训练模型,用测试集来评估模型预测的好坏。在此基础上可以得到多组不同的训练集和测试集,某次训练集中的某样本在下次可能成为测试集中的样本,即所谓的‘交叉’。1.简单交叉验证所谓的简单,是和其他交叉验证方法相对而言的。首先,我们随机的将样本数据分为两部...

2018-08-27 15:54:22 5889

原创 最小二乘法

最小二乘法是用来做函数拟合或求函数极值的方法,在机器学习,尤其是回归模型中,经常可以看到最小二乘法的身影。它通过最小化误差和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法实质就是最小化“均方误差”,而均方误差就是残差平方和的1/m(m为样本数),同时均方误差也是回归任务中最常用的性能度量。1.最小二乘法的原理...

2018-08-27 15:03:02 788

原创 梯度下降 Gradient Descent

1.梯度在微积分里面,对多元函数的参数求∂偏导数,把求得的各个参数的偏导数以向量的形式写出来,就是梯度。比如函数f(x,y), 分别对x,y求偏导数,求得的梯度向量就是(∂f/∂x, ∂f/∂y)T,简称grad f(x,y)或者▽f(x,y)。对于在点(x0,y0)的具体梯度向量就是(∂f/∂x0, ∂f/∂y0)T.或者▽f(x0,y0),如果是3个参数的向量梯度,就是(∂f/∂x, ∂f...

2018-08-27 12:00:20 281

原创 中医证型关联规则

背景:恶性肿瘤俗称癌症,当前已成为危害我国居民生命健康的主要杀手。应用中医治疗恶性肿瘤已成为公认的综合治疗方法之一,且中医治疗乳腺癌有着广泛的适应症和独特的优势。从整体出发,根据不同的临床证候进行辩证论治。确定‘先证后治’的方向:即后续证候尚未出现之前,需要截断恶化病情的那些后续证候。发现中医症状间的关联关系和诸多症状间的规律性,并且依据规则分析病因、预测病情发展以及为未来临床诊治提供有效借鉴...

2018-08-24 20:51:22 2935

原创 python数据分析与挖掘实战——协同过滤——关联算法——Apriori算法菜品推荐

客户在餐厅点餐时,面对着菜单中大量的菜品信息,往往无法迅速的找到满意的菜品,既增加了点菜的时间,也降低了客户的就餐体验。实际上,菜品的合理搭配是有规律可循的:顾客的饮食习惯,菜品的荤素和口味,有些菜品之间是互相关联的,而有些菜品之间是对立或竞争关系(负关联)。这些规律都隐藏在大量的历史菜单数据中,如果能够通过数据挖掘发现客户点餐的规律,就可以快速识别客户的口味,当他下了某个菜品的订单时推荐相关联的...

2018-08-24 15:46:10 4890 4

原创 协同过滤推荐算法

推荐算法介绍:1.个性化推荐基于用户推荐:根据用户的注册信息对用户进行分类,给用户推荐她所属分类中的用户喜欢的物品基于内容推荐:根据用户过去的浏览记录,向用户推荐用户没有接触过的推荐项。协同过滤推荐:协调过滤是推荐算法中目前最主流的种类,花样繁多,在工业界已经有了很多广泛的应用。它的优点是不需要太多特定领域的知识,可以通过基于统计的机器学习算法来得到较好的推荐效果。最大...

2018-08-23 20:13:07 1823

原创 机器学习算法——决策树(Decision Tree)

决策树在分类、预测、规则提取等方面有着广泛应用,是一种基本的分类与回归方法。包括ID3 、c4.5、CART算法。决策树的生成是一个递归的过程。在分类问题中,表示基于特征对实例进行分类的过程。它可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。与其他算法相比,决策树的原理浅显易懂,计算复杂度较小,而且输出结果易于理解。分类决策树模型是一种描述对实例进行分类...

2018-08-22 21:25:44 1290

原创 机器学习算法——逻辑回归

原理:逻辑回归处理的是分类问题,具体来说,是处理二分类问题。为了实现逻辑回归分类器,我们可以在线性回归的基础上。添加一个sigmoid函数,进而得到一个范围在0~1之间的数值。任何大于0.5的数据会被分为1类,小于0.5即被分为0类。至于为什么会用到sigmoid函数,简单来说,是为了将标签归类为[0,1]的范围内;深层原因,sigmoid函数的使用是由指数分布族决定的。预测值为:...

2018-08-21 21:47:52 506

原创 机器学习算法——线性回归

线性回归一般用来做连续值的预测,预测结果为一个连续值。因训练时学习样本不仅要提供学习的特征向量,而且还要提供样本的实际结果,所以他是一种有监督学习。当特征向量X中只有一个特征时,需要学习到的函数应该是一个一元线性函数y=a+bx当情况复杂时,考虑X存在n个特征的情形时,我们往往需要得到更多的系数。我们将X到y的映射记做h(x)=θtX在通过学习得到的映射函数h(x)中,需要通过训练集得...

2018-08-21 21:18:25 308

原创 Spark MLlib 特征抽取、转化和选择 -- 特征选取:卡方选择器

这一部分主要介绍和特征处理相关的算法,大体分为以下三类:1)特征抽取:从原始数据中抽取特征2)特征转换:特征的维度、特征的转化、特征的修改3)特征选取:从大规模特征集中选取一个子集特征选择(feature Selection)指的是在特征向量中选择出那些优秀的特征,组成新的、更精简的特征向量的过程。它在高维数据分析中十分常用,可以剔除掉‘冗余’和‘无关’的特征,提升学习器的性能。...

2018-08-21 15:31:38 753

原创 Spark MLlib 特征抽取、转化和选择 -- 特征抽取3 CountVectorizer

这一部分主要介绍和特征处理相关的算法,大体分为以下三类:1)特征抽取:从原始数据中抽取特征2)特征转换:特征的维度、特征的转化、特征的修改3)特征选取:从大规模特征集中选取一个子集特征提取:CountVectorizerCountVectorizer旨在通过计数来将一个文档转换为向量。当不存在先验字典时,CountVectorizer作为Estimator提取词汇进行训练,并...

2018-08-21 14:57:44 330

原创 Spark MLlib 特征抽取、转化和选择 -- 特征变换: 标签和索引的转化

这一部分主要介绍和特征处理相关的算法,大体分为以下三类:1)特征抽取:从原始数据中抽取特征2)特征转换:特征的维度、特征的转化、特征的修改3)特征选取:从大规模特征集中选取一个子集在机器学习处理过程中,为了方便相关算法的实现,经常需要把标签数据(一般是字符串)转化成整数索引,或是在计算结束后将整数索引还原为相应的标签。Spark ML包中提供了几个相关的转换器,例如:String...

2018-08-21 14:47:49 935

原创 Spark MLlib 特征抽取、转化和选择 -- 特征抽取2 Word2Vec

这一部分主要介绍和特征处理相关的算法,大体分为以下三类:1)特征抽取:从原始数据中抽取特征2)特征转换:特征的维度、特征的转化、特征的修改3)特征选取:从大规模特征集中选取一个子集特征提取:Word2VecWord2Vec是一种著名的词嵌入(Word Embedding)方法,是google在2013年推出的一个NLP工具,他可以计算每个单词在其给定的语料库环境下的分布式词向...

2018-08-21 10:17:00 665

原创 Spark MLlib 特征抽取、转化和选择 -- 特征抽取1 TF-IDF(HashingTF and IDF)

这一部分主要介绍和特征处理相关的算法,大体分为以下三类:1)特征抽取:从原始数据中抽取特征2)特征转换:特征的维度、特征的转化、特征的修改3)特征选取:从大规模特征集中选取一个子集特征提取:TF-IDF(HashingTF and IDF)“词频-逆向文件频率”(TF-IDF)是一种在文本挖掘中广泛使用的特征向量化方法,它可以体现一个文档中词语在语料库中的重要程度。词语由...

2018-08-21 09:12:13 1548

原创 spark 基于MLlib的机器学习 Spark MLlib

MLlib是Spark中提供机器学习学习函数的库。它是专为在集群上并行运行的情况而设计的。MLlib的设计理念十分简单:把数据以RDD的形式表示,然后在分布式数据集上调用各种算法。MLlib引入了一些数据类型(比如点和向量),不过归根结底,MLlib就是RDD一系列可供调用的的函数的集合。MLlib由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等,同时还包括底层的优化...

2018-08-20 20:47:51 1513 3

原创 航空公司客户价值分析——K-Means

背景与挖掘目标背景:信息时代的来临使得企业营销焦点从产品中心变为客户中心针对不同类型的客户,进行精准营销,实现企业利润最大化准确分类是企业优化营销资源分配的重要依据目标:借助航空公司客户数据,对客户进行分类对不同的客户类别进行特征分析,比较不同类客户的客户价值对不同价值的客户类别提供个性化服务,制定相应的营销策略分析方法与过程本案例目标是客户价值识别,即通过...

2018-08-19 17:34:39 9324 3

原创 汽车销售

先对数据进行处理,用了Lagrange插值法进行了缺失值处理,然后对文本数据进行了转数字处理enumerate()函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列,同时列出数据和数据下表,一般用在for循环当中,enumerate(sequence, [start=0]) sequence -- 一个序列、迭代器或其他支持迭代对象。start -- 下标起始位...

2018-08-18 08:09:55 698

原创 电力窃漏电用户识别

利用拉格朗日插值法补全数据LM神经网络模型 CART决策树模型

2018-08-17 08:52:31 362

原创 keras 神经网络模型 Sequential模型

Sequential模型,就是多个网络层的线性堆叠。它建立模型有两中方式,一种是向layer中添加list,一种是通.add()的方式一层层的天添加。from keras.models import Sequentialfrom keras.layers.core import Dense,Activation#list方式model = Sequential([Dense(32,in...

2018-08-16 14:20:16 3337

原创 python数据挖掘与分析实战 神经网络预测销量代码勘误

修改后的代码 混淆矩阵结果显示

2018-08-16 10:04:23 998

原创 python数据分析与挖掘实战 决策树预测销量高低

按照源代码编写会出现以下错误后来发现是因为源代码在截取数据时将属性值转为了矩阵,所以我们不要转,就可以成功运行

2018-08-15 21:21:12 1753

原创 python数据分析与挖掘实战 逻辑回归代码勘误

不气不气就不气,发现这本书的代码真的是错误多啊,但是理解思路就可以了,学习本来就是不断改错的过程啊在运行源代码时,报错感觉是下标越界的样子,后来发现,,原来源代码筛选特征时整体的数据,所以只要把最后一列数据drop掉就好了。。。修改后的代码在此 好了,完美解决 ,看一眼结果吧...

2018-08-15 17:40:25 762

原创 python数据分析与挖掘实战数据离散化代码勘误

在运行梳理的代码时,发现了许多错误,经过不懈努力,终于跑通了代码发现在跑源代码时,会出现如下错误只有可能是这里出了问题,所以我将data改为了数组形式。然后又报错所以将sort改为了sort_values()结果又出现了新错误然后只能修改为 好了,终于出结果了...

2018-08-15 17:32:11 559

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除