数据分析与挖掘
文章平均质量分 56
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。
周先森爱吃素
大家好,我是CSDN博主周先森爱吃素,目前处于研究生阶段,主攻方向为计算机视觉的研究。加入CSDN以来,凭借热爱与坚持,以博文的方式分享所学,截至目前已发文近300篇,内容涉及Python开发、网络爬虫、Linux开发、机器学习、计算机视觉等领域,感谢大家的关注、点赞、评论和收藏,是你们的坚持,促使我在这条路上坚定不移地走下去。未来,我会更加专注于自己喜爱的方向,学习更多的知识,输出更加高质量的文章。
展开
-
机器学习-预测之时间序列分析预测法原理及实战
机器学习之时序预测问题简单原理及实战。原创 2019-03-16 11:22:14 · 10974 阅读 · 1 评论 -
数据挖掘竞赛-美国King County房价预测训练赛
美国King County房价预测训练赛简介DC上的一个回归题(正经的回归题)。比较简单。时间原因(暂时没什么时间看国内旧赛),看了一下网上的解答,改善了一下神经网络就提交了。过程数据获取报名成功后到官网提供的入口下载,或者我的Github也上传了。数据探索简单了解数据格式。训练集有10000条记录,14个特征,描述如下。(注意,官方数据集没有表头)其...原创 2019-04-09 21:40:26 · 5019 阅读 · 9 评论 -
数据挖掘竞赛-员工离职预测训练赛
员工离职预测赛。原创 2019-04-06 13:00:07 · 2388 阅读 · 5 评论 -
数据挖掘竞赛-轴承故障检测训练赛
轴承故障检测训练赛分析。原创 2019-03-31 16:10:18 · 7066 阅读 · 0 评论 -
时序数据处理工具-时间序列数据特征提取TsFresh
时间序列数据特征提取TsFresh原创 2019-03-24 10:30:16 · 16115 阅读 · 10 评论 -
数据分析与挖掘实战-电商产品评论数据情感分析
电商产品评论数据情感分析原创 2019-02-15 16:40:47 · 7910 阅读 · 1 评论 -
数据分析与挖掘实战-财政收入影响因素分析及预测模型
财政收入影响因素分析及预测模型。原创 2019-02-14 19:52:01 · 7861 阅读 · 13 评论 -
数据分析与挖掘实战-电子商务网站用户行为分析及服务推荐
电子商务网站用户行为分析及服务推荐背景随着互联网和信息技术的迅速发展,电子商务、网上服务与交易等网络业务越来越普及,大量的信息聚集起来,形成了“海量”信息。用户想要从海量信息中快速准确地寻找到自己感兴趣的信息已经变得越来越难了,在电子商务领域尤其如此。因此,信息过载的问题已经成为互联网技术中的一个重要难题。为了解决这个问题,搜索引擎诞生了,例如谷歌、百度。搜索引擎在一定程度上缓解了信息过...原创 2019-02-13 13:46:39 · 6463 阅读 · 0 评论 -
Python工具包-分词工具pkuseg
pkuseg使用简介最近社区推了一些文章介绍了北大开源的一个新的中文分词工具包pkuseg。它在多个分词数据集上都有非常高的分词准确率。其中广泛使用的结巴分词(jieba)误差率高达18.55%和20.42%,而北大的pkuseg只有3.25%与4.32%。在中文处理领域,特别是数据分析挖掘这个领域,数据预处理重要性不言而喻,那么分词的重要性也是不言而喻的。简单使用pkuseg这个包,...原创 2019-01-28 16:03:02 · 7481 阅读 · 7 评论 -
数据分析与挖掘-python常用数据预处理函数
数据预处理往往在数据分析和数据挖掘领域占到了很大的比重,甚至在机器学习这些海量数据处理的场合,数据预处理也是最核心的工作。介绍几个预处理阶段常用的库函数。1.interpolate插值函数,Scipy的子库,包含大量的插值函数,如拉格朗日插值,样条插值,高维插值等。示例代码:from scipy.interpolate import *f = scipy.interpolate...原创 2018-11-23 17:35:15 · 1060 阅读 · 0 评论 -
数据分析与挖掘实战-应用系统负载分析与磁盘容量预测
应用系统负载分析与磁盘容量预测背景某大型企业为了信息化发展的需要,建设了办公自动化系统、人力资源管理系统、财务管理系统、企业信息门户系统等几大企业级应用系统。因应用系统在日常运行时,会对底层软硬件造成负荷,显著影响应用系统性能。一般认为,影响应用系统性能的因素包括:服务器、数据库、中间件和存储设备。任何一种资源负载过大,都可能会引起应用系统性能下降甚至瘫痪。因此,需要关注服务器、数据库、...原创 2019-01-26 15:28:56 · 1933 阅读 · 0 评论 -
数据分析与挖掘实战-家用电器用户行为分析与事件识别
家用电器用户行为分析与事件识别背景 居民使用家电过程中,会因为地区气候、区域不同、年龄差异,形成不同的使用习惯,若能深入了解这些习惯,针对性地开发新功能,便能开拓市场。 本案例以热水器为例,分析用户行为。在热水器用户行为分析过程中,用水事件识别最为关键。 目标 由于热水器可能用于各种事件而不仅仅是洗浴,要求根据收集到的数据,分析用户行为。 基于热水器采集到的时间序列数据,将顺...原创 2019-01-21 13:17:24 · 3753 阅读 · 1 评论 -
数据分析与挖掘理论-常用算法对比(纯理论较枯燥)
常见数据挖掘算法分析概述 一般认为,数据挖掘领域所使用的方法均属于机器学习算法、深度学习算法和数据挖掘算法。 一般认为,数据挖掘领域的问题主要有分类、回归、聚类、推荐、图像识别、预测。 一般认为,数据挖掘领域所牵扯到的底层知识有“概率论”、“数论”、“统计学”、“线性代数”、“数字图像处理”、“机器学习理论基础”、“高等数学”。当然,你也不一定很清楚原理,事实上很多数据挖掘师会用算法...原创 2019-01-07 22:22:10 · 1743 阅读 · 0 评论 -
数据分析与挖掘实战-中医证型关联规则挖掘
中医证型关联规则挖掘背景 显然,如今的中医治疗再度火了起来,归根到底的原因还是中医在某些疾病处理上具有天然优势。 而且,中医治疗没有西医治疗的很多毒副作用。 “先证而治”。 挖掘目标 发现中医症状间的关联联系和诸多症状之间的规律性,并且依据规则分析病因、预测病情发展以及为未来临床诊治提供有效借鉴。 也就是说,借助乳腺癌患者病理信息,挖掘患者的症状与中医证型之间的关联联系,...原创 2018-12-20 14:23:16 · 3131 阅读 · 7 评论 -
数据分析与挖掘实战-航空公司客户流失分析
航空公司客户流失分析原创 2018-12-20 10:49:38 · 7647 阅读 · 5 评论 -
数据分析与挖掘实战-航空公司客户价值分析
航空公司客户价值分析项目背景 信息时代的到来注定营销焦点从产品中心转到了用户中心,客户关系管理成为企业的核心问题。 客户关系管理的关键问题则是客户分类,通过分类区分客户价值的有无和高低,针对不同类别的用户制定个性化服务方案,采取不同营销方案,集中营销资源于高价值用户。 对于航空公司而言,建立合理的客户价值评估模型,对客户进行分群,进行分价值处理是必要的。 挖掘目标 借助航空公...原创 2018-12-20 10:40:57 · 1321 阅读 · 0 评论 -
数据分析与挖掘实战-基于水色图像的水质评价
基于水色图像的水质评价。原创 2018-12-18 20:54:34 · 3287 阅读 · 4 评论 -
数据分析与挖掘实战-窃电漏电用户的发现
窃电漏电用户的发现 背景 在研究这个项目之前我也在想,为什么这种领域需要数据挖掘?其实你若愿意去发现,你会发现,数据挖掘无处不在。 为什么选择数据分析与挖掘技术?原因当然是之前处理方式的不合理。 方式 不合理之处 定期巡检、定期检查电表、用户举报 对人的依赖太高,容错率低 。 营销稽查人员、用电检查人员利用计量异常报警功能和电能量数据查...原创 2018-12-07 18:54:24 · 2024 阅读 · 3 评论 -
数据分析&机器学习-分类好坏的评价方式
1.ROC曲线这是我们机器学习和数据挖掘等领域用来可视化预测结果准确性最常用的工具之一。它的定义如下:按照顺序逐个把样本作为正例进行预测,计算出FPR和TPR。分别以FPR、TPR为横纵坐标作图即可得到ROC曲线。其中,两个变量定义如下。FPR = TP/(TP+FN)TPR = TP/(TP+FP)其中,变量定义如下表,其实就是混淆矩阵的结果。 TP ...原创 2018-11-30 17:45:47 · 580 阅读 · 0 评论 -
数据分析与挖掘理论-数据预处理
数据预处理一般而言,数据分析和数据挖掘领域的处理的数据都是海量的数据,这样的数据难免会出现问题。 数据预处理占到数据挖掘工作的60%,这是最重要也是最核心的领域, 分为数据清洗、数据集成、数据变换和数据规约。数据清洗删除无关数据、重复数据、平滑噪声数据、处理缺失值和异常值。 缺失值处理 插补 删除 在数据量很少的情况下,这是利用数据为代价换取完备,是不合理的。 ...原创 2018-12-16 16:21:11 · 544 阅读 · 0 评论 -
数据分析与挖掘理论-数据探索
数据探索一般而言,数据探索是样本数据集采集到后的第一步。 指的是通过检验数据集的数据质量、图表绘制、特征量计算等常见手段,对样本数据集的结构和规律进行分析的过程。 常见的数据探索角度分为数据质量分析和数据特征分析。数据质量分析数据挖掘的重要组成,数据预处理的前提,数据挖掘分析结论的有效性和准确性的基础。 主要任务:分析脏数据。(缺失值,异常值,不一致值,重复值) 缺失值 出现...原创 2018-12-14 13:21:36 · 446 阅读 · 2 评论 -
数据分析与挖掘理论-概述
数据分析与挖掘个人理解 数据分析和数据挖掘是最近几年才出现的一个名词,其归根到底的目的就是经过一系列手段处理数据(集)得到一个适合的建模数据,利用建模数据建立模型分析挖掘已有数据的隐含价值。 一般步骤(详细内容子目录有叙述,且后面的实战项目我会严格按照这个步骤进行,后面会详细介绍下面的主要步骤) 数据获取 利用各种手段获取数据,数据样式不限制,但一般而言是形如excel或者csv...原创 2018-12-14 13:11:22 · 609 阅读 · 0 评论