python数据分析与挖掘实战
文章平均质量分 78
哆啦AA梦
这个作者很懒,什么都没留下…
展开
-
解决错误TypeError: data argument can't be an iterator
在学习《python数据分析与挖掘实战》第八章时,运行Apriori报错,源代码如下:#-*- coding: utf-8 -*-from __future__ import print_functionimport pandas as pdfrom apriori import * #导入自行编写的apriori函数import time #导入时间库用来计算用时inputf原创 2017-07-19 09:04:39 · 7673 阅读 · 0 评论 -
3航空公司客户价值分析
3航空公司客户价值分析目标将客户进行分类分群,分析对比不同客户群体的客户价值,将营销资源集中于高价值客户,实现企业利润最大化。(通过航空公司的数据识别不同价值的客户。)3.1 数据的探索性分析探索性分析的目的是对数据进行缺失值分析和异常值分析,分析数据的规律。查找每列属性的最大最小值以及空值个数。代码如下:# coding=utf-8#数据探索分析import pa原创 2017-09-01 16:39:09 · 4906 阅读 · 3 评论 -
2 汽车销售行业行为识别
1 汽车销售行业行为识别背景汽车销售行业在税收上存在少开发票金额、少记收入,上牌、按揭、保险不入账,不及时确认保修索赔款等情况,导致政府损失大量税收。汽车销售企业的部分经营指标数据能在一定程度上评估企业的偷漏税倾向。样本数据提供了汽车销售行业纳税人的各种属性和是否偷漏税标识,提取纳税人经营特征可以建立偷漏税行为识别模型,识别偷漏税纳税人。分析方法的主要流程:原创 2017-08-31 20:45:56 · 2701 阅读 · 3 评论 -
电力窃漏电用户自动识别
电力窃漏电用户自动识别1 数据预处理1.1 数据清洗主要目的是筛选出需要的数据,将多余的数据过滤(1) 将初始数据进行分布可视化分析后发展非居民用电类别不存在漏电窃电的行为,故将这一部分数据过滤;(2) 结合实际情况,节假日用电比工作日用电明显偏低,为了避免将其认为是漏电现象,将此部分数据过滤。1.2 缺失值处理经观察原始数据发展存在数据缺失原创 2017-08-31 15:55:27 · 2348 阅读 · 8 评论 -
10 财政收入影响因素分析及预测模型
4 10 财政收入影响因素分析及预测模型10.1背景与挖掘目标 本案例通过研究发现影响目前以及未来地方财源建设的因素,并对其进行深入分析,提出对该市地方财源优化的具体建议,供政府决策参考,同时为其他发展较快的城市提供借鉴。本案例对1994-2013年财政收入以及相关因素的数据,数据来自统计年鉴。目标:(1) 梳理影响地方财政收入的关键特征,分析识别影响地方财政收入的关键特征的选择原创 2017-09-15 15:48:04 · 30254 阅读 · 22 评论 -
9 应用系统负载分析与磁盘容量预测
9.1背景与挖掘目标 本案例通过分析存储设备中磁盘容量预测,通过对磁盘容量的预测,可预测磁盘未来的负载情况,避免应用系统因出现存储容量耗尽的情况而导致应用系统负载率过高,最终引发系统故障。针对历史磁盘数据,采用时间序列分析方法,预测应用系统服务器磁盘空间已使用的大小。9.2分析方法 在不考虑其他因素下,磁盘空间时随时间变化的,与时间存在很大的关联性,并且历史数据对未来发展存在一原创 2017-09-14 17:02:03 · 6062 阅读 · 0 评论 -
6 利用决策树模型预测天气质量
背景:客观评价一个区域的环境质量状况,需要综合考虑各种因素之间以及影响因素与环境质量之间错综复杂的关系,此次目的是根据空气质量中SO2,NO,NO2,NOx,PM10和PM2.5的含量建立分类预测模型,实现对空气质量的评价。采用C4.5决策树进行模型构建,并评价模型效果。6.1数据探索首先对各个属性的数据进行可视化,看看之间是否存在某种联系。#空气质量图import matplot原创 2017-09-06 18:59:15 · 13382 阅读 · 3 评论 -
5 基于水色图像的水质评价
5.1数据预处理5.1.1 图像切割采集到的水样图像包含盛水 容器,容器的颜色与水体颜色差异较大,同时水体位于图像中央,为了提取水色的特征,需要提取水样图像中央部分具有代表意义的图像,具体的提取方式是提取水样图像中央101*101像素的图像。此案例以给出 处理好的数据……5.1.2特征提取本案例采用颜色矩来提取水样图像的特征,5.2 模型的构建对特征提取后的样本原创 2017-09-06 10:51:48 · 4019 阅读 · 0 评论 -
4 泰坦尼克号问题
背景:泰坦尼克号估计都耳熟能详了,讲的故事是一个游艇倒了,大家都急忙逃生,但是救生艇的数量是有限的,没法分配一人一个,船长此时说:lady and kid first!我们设计的模型的目的是根据游客的这些个人信息及其存活状况,建立合适的模型,并预测其他人的存活状况。(这是kaggle中的一个案例)4.1数据探索数据的获取可以从kaggle官网上下载,首先我们先看看数据的情况,初步探索。原创 2017-09-06 08:55:29 · 1588 阅读 · 0 评论 -
8热水器用户行为分析与事件识别
8热水器用户行为分析与事件识别8.1背景与挖掘目标国内某智能热水器,在状态发生改变或有水流状态时会采集数据,该厂商根据采集到的数据进行用户行为分析,热水器不仅可以用来细雨还可以洗手、洗脸、刷牙、洗菜等。本案例基于热水器采集的时间序列数据,将顺序排列的离散的用水时间节点根据水流量和停顿时间间隔划分不同大小的时间区间,每个时间区间可以理解成一次完整用水事件。挖掘目标:第一,根据热水器采集到原创 2017-09-11 18:37:29 · 6611 阅读 · 1 评论