studiousq-CSDN博客

原创线性回归小代码

import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom sklearn import linear_modelfrom sklearn.model_selection import train_test_split,cross_val_scorefrom sklearn import metric...

2018-08-27 20:32:33 381

原创交叉验证（Cross Validation）

交叉验证是在机器学习建立模型和验证模型参数时常用的方法。交叉验证就是重复使用数据，把得到的样本数据进行切分，组合为不同的训练集和测试集，用训练集来训练模型，用测试集来评估模型预测的好坏。在此基础上可以得到多组不同的训练集和测试集，某次训练集中的某样本在下次可能成为测试集中的样本，即所谓的‘交叉’。1.简单交叉验证所谓的简单，是和其他交叉验证方法相对而言的。首先，我们随机的将样本数据分为两部...

2018-08-27 15:54:22 6102

原创最小二乘法

最小二乘法是用来做函数拟合或求函数极值的方法，在机器学习，尤其是回归模型中，经常可以看到最小二乘法的身影。它通过最小化误差和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据，并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法实质就是最小化“均方误差”，而均方误差就是残差平方和的1/m(m为样本数)，同时均方误差也是回归任务中最常用的性能度量。1.最小二乘法的原理...

2018-08-27 15:03:02 1088

1.梯度在微积分里面，对多元函数的参数求∂偏导数，把求得的各个参数的偏导数以向量的形式写出来，就是梯度。比如函数f(x,y), 分别对x,y求偏导数，求得的梯度向量就是(∂f/∂x, ∂f/∂y)T,简称grad f(x,y)或者▽f(x,y)。对于在点(x0,y0)的具体梯度向量就是(∂f/∂x0, ∂f/∂y0)T.或者▽f(x0,y0)，如果是3个参数的向量梯度，就是(∂f/∂x, ∂f...

2018-08-27 12:00:20 324

原创中医证型关联规则

背景：恶性肿瘤俗称癌症，当前已成为危害我国居民生命健康的主要杀手。应用中医治疗恶性肿瘤已成为公认的综合治疗方法之一，且中医治疗乳腺癌有着广泛的适应症和独特的优势。从整体出发，根据不同的临床证候进行辩证论治。确定‘先证后治’的方向：即后续证候尚未出现之前，需要截断恶化病情的那些后续证候。发现中医症状间的关联关系和诸多症状间的规律性，并且依据规则分析病因、预测病情发展以及为未来临床诊治提供有效借鉴...

2018-08-24 20:51:22 3059

原创 python数据分析与挖掘实战——协同过滤——关联算法——Apriori算法菜品推荐

客户在餐厅点餐时，面对着菜单中大量的菜品信息，往往无法迅速的找到满意的菜品，既增加了点菜的时间，也降低了客户的就餐体验。实际上，菜品的合理搭配是有规律可循的：顾客的饮食习惯，菜品的荤素和口味，有些菜品之间是互相关联的，而有些菜品之间是对立或竞争关系（负关联）。这些规律都隐藏在大量的历史菜单数据中，如果能够通过数据挖掘发现客户点餐的规律，就可以快速识别客户的口味，当他下了某个菜品的订单时推荐相关联的...

2018-08-24 15:46:10 5246 4

原创协同过滤推荐算法

推荐算法介绍：1.个性化推荐基于用户推荐：根据用户的注册信息对用户进行分类，给用户推荐她所属分类中的用户喜欢的物品基于内容推荐：根据用户过去的浏览记录，向用户推荐用户没有接触过的推荐项。协同过滤推荐：协调过滤是推荐算法中目前最主流的种类，花样繁多，在工业界已经有了很多广泛的应用。它的优点是不需要太多特定领域的知识，可以通过基于统计的机器学习算法来得到较好的推荐效果。最大...

2018-08-23 20:13:07 1925

原创机器学习算法——决策树（Decision Tree）

决策树在分类、预测、规则提取等方面有着广泛应用，是一种基本的分类与回归方法。包括ID3 、c4.5、CART算法。决策树的生成是一个递归的过程。在分类问题中，表示基于特征对实例进行分类的过程。它可以认为是if-then规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布。与其他算法相比，决策树的原理浅显易懂，计算复杂度较小，而且输出结果易于理解。分类决策树模型是一种描述对实例进行分类...

2018-08-22 21:25:44 1354

原创机器学习算法——逻辑回归

原理:逻辑回归处理的是分类问题，具体来说，是处理二分类问题。为了实现逻辑回归分类器，我们可以在线性回归的基础上。添加一个sigmoid函数，进而得到一个范围在0~1之间的数值。任何大于0.5的数据会被分为1类，小于0.5即被分为0类。至于为什么会用到sigmoid函数，简单来说，是为了将标签归类为[0,1]的范围内；深层原因，sigmoid函数的使用是由指数分布族决定的。预测值为：...

2018-08-21 21:47:52 596

原创机器学习算法——线性回归

线性回归一般用来做连续值的预测，预测结果为一个连续值。因训练时学习样本不仅要提供学习的特征向量，而且还要提供样本的实际结果，所以他是一种有监督学习。当特征向量X中只有一个特征时，需要学习到的函数应该是一个一元线性函数y=a+bx当情况复杂时，考虑X存在n个特征的情形时，我们往往需要得到更多的系数。我们将X到y的映射记做h(x)=θtX在通过学习得到的映射函数h(x)中，需要通过训练集得...

2018-08-21 21:18:25 373

原创 Spark MLlib 特征抽取、转化和选择 -- 特征选取：卡方选择器

这一部分主要介绍和特征处理相关的算法，大体分为以下三类：1）特征抽取：从原始数据中抽取特征2）特征转换：特征的维度、特征的转化、特征的修改3）特征选取：从大规模特征集中选取一个子集特征选择（feature Selection）指的是在特征向量中选择出那些优秀的特征，组成新的、更精简的特征向量的过程。它在高维数据分析中十分常用，可以剔除掉‘冗余’和‘无关’的特征，提升学习器的性能。...

2018-08-21 15:31:38 840

原创 Spark MLlib 特征抽取、转化和选择 -- 特征抽取3 CountVectorizer

这一部分主要介绍和特征处理相关的算法，大体分为以下三类：1）特征抽取：从原始数据中抽取特征2）特征转换：特征的维度、特征的转化、特征的修改3）特征选取：从大规模特征集中选取一个子集特征提取：CountVectorizerCountVectorizer旨在通过计数来将一个文档转换为向量。当不存在先验字典时，CountVectorizer作为Estimator提取词汇进行训练，并...

2018-08-21 14:57:44 380

原创 Spark MLlib 特征抽取、转化和选择 -- 特征变换：标签和索引的转化

这一部分主要介绍和特征处理相关的算法，大体分为以下三类：1）特征抽取：从原始数据中抽取特征2）特征转换：特征的维度、特征的转化、特征的修改3）特征选取：从大规模特征集中选取一个子集在机器学习处理过程中，为了方便相关算法的实现，经常需要把标签数据（一般是字符串）转化成整数索引，或是在计算结束后将整数索引还原为相应的标签。Spark ML包中提供了几个相关的转换器，例如：String...

2018-08-21 14:47:49 1019

原创 Spark MLlib 特征抽取、转化和选择 -- 特征抽取2 Word2Vec

这一部分主要介绍和特征处理相关的算法，大体分为以下三类：1）特征抽取：从原始数据中抽取特征2）特征转换：特征的维度、特征的转化、特征的修改3）特征选取：从大规模特征集中选取一个子集特征提取：Word2VecWord2Vec是一种著名的词嵌入（Word Embedding）方法，是google在2013年推出的一个NLP工具，他可以计算每个单词在其给定的语料库环境下的分布式词向...

2018-08-21 10:17:00 742

原创 Spark MLlib 特征抽取、转化和选择 -- 特征抽取1 TF-IDF(HashingTF and IDF)

这一部分主要介绍和特征处理相关的算法，大体分为以下三类：1）特征抽取：从原始数据中抽取特征2）特征转换：特征的维度、特征的转化、特征的修改3）特征选取：从大规模特征集中选取一个子集特征提取：TF-IDF(HashingTF and IDF)“词频－逆向文件频率”（TF-IDF）是一种在文本挖掘中广泛使用的特征向量化方法，它可以体现一个文档中词语在语料库中的重要程度。词语由...

2018-08-21 09:12:13 1625

原创 spark 基于MLlib的机器学习 Spark MLlib

MLlib是Spark中提供机器学习学习函数的库。它是专为在集群上并行运行的情况而设计的。MLlib的设计理念十分简单：把数据以RDD的形式表示，然后在分布式数据集上调用各种算法。MLlib引入了一些数据类型（比如点和向量），不过归根结底，MLlib就是RDD一系列可供调用的的函数的集合。MLlib由一些通用的学习算法和工具组成，包括分类、回归、聚类、协同过滤、降维等，同时还包括底层的优化...

2018-08-20 20:47:51 1617 3

原创航空公司客户价值分析——K-Means

背景与挖掘目标背景：信息时代的来临使得企业营销焦点从产品中心变为客户中心针对不同类型的客户，进行精准营销，实现企业利润最大化准确分类是企业优化营销资源分配的重要依据目标：借助航空公司客户数据，对客户进行分类对不同的客户类别进行特征分析，比较不同类客户的客户价值对不同价值的客户类别提供个性化服务，制定相应的营销策略分析方法与过程本案例目标是客户价值识别，即通过...

2018-08-19 17:34:39 9470 3

原创汽车销售

先对数据进行处理，用了Lagrange插值法进行了缺失值处理，然后对文本数据进行了转数字处理enumerate()函数用于将一个可遍历的数据对象（如列表、元组或字符串）组合为一个索引序列，同时列出数据和数据下表，一般用在for循环当中，enumerate(sequence, [start=0]) sequence -- 一个序列、迭代器或其他支持迭代对象。start -- 下标起始位...

2018-08-18 08:09:55 752

原创电力窃漏电用户识别

利用拉格朗日插值法补全数据LM神经网络模型 CART决策树模型

2018-08-17 08:52:31 399

原创 keras 神经网络模型 Sequential模型

Sequential模型，就是多个网络层的线性堆叠。它建立模型有两中方式，一种是向layer中添加list，一种是通.add()的方式一层层的天添加。from keras.models import Sequentialfrom keras.layers.core import Dense,Activation#list方式model = Sequential([Dense(32,in...

2018-08-16 14:20:16 3416