- 博客(44)
- 收藏
- 关注
转载 利用MATLAB 2016a进行BP神经网络的预测(含有神经网络工具箱)
最近一段时间在研究如何利用预测其销量个数,在网上搜索了一下,发现了很多模型来预测,比如利用回归模型、时间序列模型,GM(1,1)模型,可是自己在结合实际的工作内容,发现这几种模型预测的精度不是很高,于是再在网上进行搜索,发现神经网络模型可以来预测,并且有很多是结合时间序列或者SVM(支持向量机)等组合模型来进行预测,本文结合实际数据,选取了常用的BP神经网络算法,其算法原理,因网上一大堆,所以在此...
2018-03-19 09:21:58 49545 23
转载 MATLAB中神经网络工具箱的使用
1.打开MATLAB,在命令行输入nntool,将出现如下界面:图1 神经网络工具箱主界面其中最主要的分为6个部分:第1部分中显示的是系统的输入数据;第2部分是系统的期望输出;第3部分是网络的计算输出;第4部分是网络的误差,即2和3之间的差异;第5部分呈现的是已经建立的神经网络实例;第6部分的两个按钮分别负责数据的导入和网络模型的建立。2.点击“Import”按钮,分别导入输入数据与目标输出数据(...
2018-03-19 09:19:18 18027 5
转载 ArcGIS之3D Analyst
目录 一、简介 3 二、三维可视化应用程序 4 三、ArcGIS 3D 分析地理处理工具 5 四、实例操作 6 4.1导入3D文件 6 4.2 3D 缓冲区 7 4.3 3D Analyst工具条 9 4.4创建LAS数据集 10 4.5离散点生成TIN 10 4.6 表面坡度 12 4.7 表面坡向 13 4.8 表面等值线 14 4.9面插值
2017-11-17 21:57:58 9451 1
转载 Python 读取csv的某行
站长用Python写了一个可以提取csv任一列的代码,欢迎使用。Github链接csv是Comma-Separated Values的缩写,是用文本文件形式储存的表格数据,比如如下的表格:就可以存储为csv文件,文件内容是:No.,Name,Age,Score1,Apple,12,982,Ben,13,973,Celia,14,964,Dave,15,95
2017-09-29 20:13:23 6183 2
原创 python xlrd读取datetime类型数据
使用xlrd读取出来的时间字段是类似41410.5083333的浮点数,在使用时需要转换成对应的datetime类型,下面代码是转换的方法:首先需要引入xldate_as_tuple函数from xlrd import xldate_as_tuple使用方法如下:#d是从excel中读取出来的浮点数xldate_as_tuple(d,0)xldate_as_tup
2017-09-28 21:56:02 5656
转载 python pprint模块
简介pprint模块 提供了打印出任何python数据结构类和方法。模块方法:1.class pprint.PrettyPrinter(indent=1,width=80,depth=None, stream=None) 创建一个PrettyPrinter对象 indent --- 缩进,width --- 一行最大宽度, depth --
2017-09-27 16:08:34 361
原创 10 财政收入影响因素分析及预测模型
4 10 财政收入影响因素分析及预测模型10.1背景与挖掘目标 本案例通过研究发现影响目前以及未来地方财源建设的因素,并对其进行深入分析,提出对该市地方财源优化的具体建议,供政府决策参考,同时为其他发展较快的城市提供借鉴。本案例对1994-2013年财政收入以及相关因素的数据,数据来自统计年鉴。目标:(1) 梳理影响地方财政收入的关键特征,分析识别影响地方财政收入的关键特征的选择
2017-09-15 15:48:04 30329 22
原创 9 应用系统负载分析与磁盘容量预测
9.1背景与挖掘目标 本案例通过分析存储设备中磁盘容量预测,通过对磁盘容量的预测,可预测磁盘未来的负载情况,避免应用系统因出现存储容量耗尽的情况而导致应用系统负载率过高,最终引发系统故障。针对历史磁盘数据,采用时间序列分析方法,预测应用系统服务器磁盘空间已使用的大小。9.2分析方法 在不考虑其他因素下,磁盘空间时随时间变化的,与时间存在很大的关联性,并且历史数据对未来发展存在一
2017-09-14 17:02:03 6085
原创 通俗易懂遗传算法小例子
遗传算法的手工模拟计算示例为更好地理解遗传算法的运算过程,下面用手工计算来简单地模拟遗传算法的各 个主要执行步骤。 例:求下述二元函数的最大值: (1) 个体编码 遗传算法的运算对象是表示个体的符号串,所以必须把变量 x1, x2 编码为一种 符号串。本题中,用无符号二进制整数来表示。
2017-09-11 19:58:20 544
原创 8热水器用户行为分析与事件识别
8热水器用户行为分析与事件识别8.1背景与挖掘目标国内某智能热水器,在状态发生改变或有水流状态时会采集数据,该厂商根据采集到的数据进行用户行为分析,热水器不仅可以用来细雨还可以洗手、洗脸、刷牙、洗菜等。本案例基于热水器采集的时间序列数据,将顺序排列的离散的用水时间节点根据水流量和停顿时间间隔划分不同大小的时间区间,每个时间区间可以理解成一次完整用水事件。挖掘目标:第一,根据热水器采集到
2017-09-11 18:37:29 6636 1
原创 6 利用决策树模型预测天气质量
背景:客观评价一个区域的环境质量状况,需要综合考虑各种因素之间以及影响因素与环境质量之间错综复杂的关系,此次目的是根据空气质量中SO2,NO,NO2,NOx,PM10和PM2.5的含量建立分类预测模型,实现对空气质量的评价。采用C4.5决策树进行模型构建,并评价模型效果。6.1数据探索首先对各个属性的数据进行可视化,看看之间是否存在某种联系。#空气质量图import matplot
2017-09-06 18:59:15 13414 3
原创 5 基于水色图像的水质评价
5.1数据预处理5.1.1 图像切割采集到的水样图像包含盛水 容器,容器的颜色与水体颜色差异较大,同时水体位于图像中央,为了提取水色的特征,需要提取水样图像中央部分具有代表意义的图像,具体的提取方式是提取水样图像中央101*101像素的图像。此案例以给出 处理好的数据……5.1.2特征提取本案例采用颜色矩来提取水样图像的特征,5.2 模型的构建对特征提取后的样本
2017-09-06 10:51:48 4047
原创 4 泰坦尼克号问题
背景:泰坦尼克号估计都耳熟能详了,讲的故事是一个游艇倒了,大家都急忙逃生,但是救生艇的数量是有限的,没法分配一人一个,船长此时说:lady and kid first!我们设计的模型的目的是根据游客的这些个人信息及其存活状况,建立合适的模型,并预测其他人的存活状况。(这是kaggle中的一个案例)4.1数据探索数据的获取可以从kaggle官网上下载,首先我们先看看数据的情况,初步探索。
2017-09-06 08:55:29 1604
转载 有关Matplotlib的一些技巧
出处:点击打开链接http://www.yeolar.com/note/2011/04/28/matplotlib-tips/中文设置首先是中文字体的设置问题。开始的时候不太会用,后来才发现Matplotlib对字体的支持其实是很完善的。有些输出如.eps等格式不支持中文,和格式有些关系。Matplotlib绘图输出为.png和.pdf格式时都能很好地支持中文。主要有三种设
2017-09-04 11:02:59 672
原创 3航空公司客户价值分析
3航空公司客户价值分析目标将客户进行分类分群,分析对比不同客户群体的客户价值,将营销资源集中于高价值客户,实现企业利润最大化。(通过航空公司的数据识别不同价值的客户。)3.1 数据的探索性分析探索性分析的目的是对数据进行缺失值分析和异常值分析,分析数据的规律。查找每列属性的最大最小值以及空值个数。代码如下:# coding=utf-8#数据探索分析import pa
2017-09-01 16:39:09 4927 3
原创 python 不以科学计数法输出
其实很简单只需两个语句:import numpy as npnp.set_printoptions(suppress=True)这样就可以搞定
2017-09-01 15:26:59 66778 23
原创 2 汽车销售行业行为识别
1 汽车销售行业行为识别背景汽车销售行业在税收上存在少开发票金额、少记收入,上牌、按揭、保险不入账,不及时确认保修索赔款等情况,导致政府损失大量税收。汽车销售企业的部分经营指标数据能在一定程度上评估企业的偷漏税倾向。样本数据提供了汽车销售行业纳税人的各种属性和是否偷漏税标识,提取纳税人经营特征可以建立偷漏税行为识别模型,识别偷漏税纳税人。分析方法的主要流程:
2017-08-31 20:45:56 2719 3
原创 电力窃漏电用户自动识别
电力窃漏电用户自动识别1 数据预处理1.1 数据清洗主要目的是筛选出需要的数据,将多余的数据过滤(1) 将初始数据进行分布可视化分析后发展非居民用电类别不存在漏电窃电的行为,故将这一部分数据过滤;(2) 结合实际情况,节假日用电比工作日用电明显偏低,为了避免将其认为是漏电现象,将此部分数据过滤。1.2 缺失值处理经观察原始数据发展存在数据缺失
2017-08-31 15:55:27 2365 8
原创 RandomForestClassifier、RandomForestRegressor、GradientBoostingClassifier、GradientBoostingRegressor的参数
2017-08-17 11:15:17 1838
转载 Bagging与随机森林算法原理小结
本文就对集成学习中Bagging与随机森林算法做一个总结。随机森林是集成学习中可以和梯度提升树GBDT分庭抗礼的算法,尤其是它可以很方便的并行训练,在如今大数据大样本的的时代很有诱惑力。1. bagging的原理 在集成学习原理小结中,我们给Bagging画了下面一张原理图。 从上图可以看出,Bagging的弱学习器之间的确没有boosting
2017-08-17 10:33:41 535
原创 flat,flatten,revel将数组变为一维的
如果你是想把array([[1,2],[3,4]])展平,变成array([1,2,3,4]),有三种方式:flat属性,flatten方法,ravel方法>>> import numpy as np>>> a = np.array([[1,2],[3,4]])>>> aarray([[1,2],[3,4]])>>> b = np.array(a.flat)>>>
2017-08-16 16:55:57 467
转载 Python 使用 pylab 库实现画线功能的方法详解
这篇文章主要介绍了 Python 使用 pylab 库实现画线功能的方法, 结合具体实例分析了 Python 使用 pylab 库的相关函数实现画线功能的操作技巧, 并附带说明了相关函数与参数功能, 需要的朋友可以参考下本文实例讲述了 Python 使用 pylab 库实现画线功能的方法。分享给大家供大家参考,具体如下:pylab 提供了比较强大的画图功能,但是函数和参数都比较
2017-08-13 14:25:52 4949
转载 scikit-learn 线性回归算法库小结
scikit-learn对于线性回归提供了比较多的类库,这些类库都可以用来做线性回归分析,本文就对这些类库的使用做一个总结,重点讲述这些线性回归算法库的不同和各自的使用场景。 线性回归的目的是要得到输出向量Y和输入特征X之间的线性关系,求出线性回归系数θ,也就是 Y=Xθ。其中Y的维度为mx1,X的维度为mxn,而θ的维度为nx1。m代表样本个数,n代表样本特征的维度。
2017-08-12 16:42:39 572
转载 奇异值分解(SVD)原理详解及推导
转载于:http://blog.csdn.net/zhongkejingwang/article/details/43053513在网上看到有很多文章介绍SVD的,讲的也都不错,但是感觉还是有需要补充的,特别是关于矩阵和映射之间的对应关系。前段时间看了国外的一篇文章,叫A Singularly Valuable Decomposition The SVD of a Matrix,觉
2017-08-08 21:39:39 20312 2
转载 通俗理解谱聚类算法
谱聚类(Spectral Clustering, SC)是一种基于图论的聚类方法。将带权无向图划分为两个或两个以上的最优子图,使子图内部尽量相似,而子图间距离尽量距离较远,以达到常见的聚类的目的。"带权无向图"这个词太学术了,我们换一种叫法,即:相似度矩阵。假设我们有一个相似度矩阵,矩阵中存的是所有对象的两两相似度。 那么这个矩阵应该有如下性质:矩阵
2017-08-07 21:25:09 2718
转载 机器学习评价指标汇总
在使用机器学习算法的过程中,针对不同场景需要不同的评价指标,在这里对常用的指标进行一个简单的汇总。一、分类1. 精确率与召回率精确率与召回率多用于二分类问题。精确率(Precision)指的是模型判为正的所有样本中有多少是真正的正样本;召回率(Recall)指的是所有正样本有多少被模型判为正样本,即召回。设模型输出的正样本集合为A,真正的正样本集合为B,则有:Pre
2017-08-07 20:12:52 1122
转载 通俗理解卷积神经网络
1 前言2012年我在北京组织过8期machine learning读书会,那时“机器学习”非常火,很多人都对其抱有巨大的热情。当我2013年再次来到北京时,有一个词似乎比“机器学习”更火,那就是“深度学习”。本文内写过一些机器学习相关的文章,但上一篇技术文章“LDA主题模型”还是写于2014年11月份,毕竟自2015年开始创业做在线教育后,太多的杂事、琐碎事,让我一直想再写点技术
2017-08-06 13:42:28 865
原创 机器学习之线性回归预测销量
背景:给出广告在TV,Radio,Newspaper的销售额,利用线性回归预测其以后的销量趋势数据: TVRadioNewspaperSales1230.137.869.222.1244.539.345.110.4317.245.969.39.34151.
2017-08-03 20:15:41 11728 4
原创 《机器学习实战》——决策树的构造及案例
ID3算法的决策树的构造决策树的理论部分,不再赘述,本篇博文主要是自己的学习笔记(《机器学习实战》)先看下述决策树,希望对理解决策树有一定的帮助。3.1.1信息增益首先需要了解两个公式:创建名为treesde.py文件,将下述代码添加进去from math import logdef calcShannonEnt(dataSet):#该函数的
2017-08-01 20:05:41 1072
转载 python数据持久存储:pickle模块的基本使用
经常遇到在Python程序运行中得到了一些字符串、列表、字典等数据,想要长久的保存下来,方便以后使用,而不是简单的放入内存中关机断电就丢失数据。这个时候Pickle模块就派上用场了,它可以将对象转换为一种可以传输或存储的格式。 python的pickle模块实现了基本的数据序列和反序列化。通过pickle模块的序列化操作我们能够将程序中运行的对象信息保存到文件中去,永久存储;通
2017-08-01 19:45:16 465
原创 《机器学习实战》——在python中使用Matplotlib注解绘制树形图
# encoding=utf-8#使用文本注解绘制树形图import matplotlib.pyplot as pltdecisionNode = dict(boxstyle="sawtooth", fc="0.8")leafNode = dict(boxstyle="round4", fc="0.8")arrow_args = dict(arrowstyle=")#上面三行代码定义
2017-08-01 18:28:14 3211 2
原创 机器学习实战之使用k-邻近算法改进约会网站的配对效果
1 准备数据,从文本文件中解析数据用到的数据是机器学习实战书中datingTextSet2.txt代码如下:from numpy import *def file2matrix(filname): fr=open(filname) arrayOLines=fr.readlines() numberOfLines=len(arrayOLines) r
2017-07-29 08:31:26 533
原创 机器学习实战之K-邻近算法
k-邻近算法 k-邻近算法采用测量不同特征值之间的聚类方法进行分类。1 基本原理: 存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输人没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数(最近邻)的分类标签。一般来说,
2017-07-28 16:04:48 437
原创 Codewars算法题(8)
第26题:问题:问题描述:给定一个列表,和一个整数s,找出列表中两数之和为s,的两个数,并返回,若有若干对这样的数,那么选择相距较短的,在相距较短的中再找出index小的。评分较高答案:def sum_pairs(lst, s): cache = set() for i in lst: if s - i in cache:
2017-07-28 08:45:08 531
原创 Codewars算法题(7)
第23题:(Convert string to camel case)问题:Complete the method/function so that it converts dash/underscore delimited words into camel casing. The first word within the output should be capitalized
2017-07-27 09:50:10 908
原创 Codewars算法题(6)
第20题(字母排序问题)问题:Move the first letter of each word to the end of it, then add 'ay' to the end of the word.pig_it('Pig latin is cool') # igPay atinlay siay oolcay问题陈述:其实就是将字符串中的每一个单词的首字母移到最后
2017-07-26 13:37:23 1224
原创 Codewars算法题(5)
第18题:(printer_error)问题:In a factory a printer prints labels for boxes. For one kind of boxes the printer has to use colors which, for the sake of simplicity, are named with letters from a to
2017-07-26 09:18:09 1014
原创 Codewars算法题(4)
第七题:(3和5的倍数)问题: If we list all the natural numbers below 10 that are multiples of 3 or 5, we get 3, 5, 6 and 9. The sum of these multiples is 23.Finish the solution so that it returns the sum of
2017-07-25 08:32:54 2548
原创 codewars算法题(3)
第三题:问题:You probably know the "like" system from Facebook and other pages. People can "like" blog posts, pictures or other items. We want to create the text that should be displayed next to such
2017-07-24 14:48:40 945 1
原创 codewars算法题(找零钱)
此题为codewars中的一个算法题The new "Avengers" movie has just been released! There are a lot of people at the cinema box office standing in a huge line. Each of them has a single 100, 50 or 25 dollars bil
2017-07-24 11:16:16 552
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人