数据挖掘
文章平均质量分 96
i-code
这个作者很懒,什么都没留下…
展开
-
数据挖掘--风电机组异常数据识别与清洗
一、赛题背景(一)背景风能是一种环境友好且经济实用的可再生能源。中国是世界排名第一的风力发电国家、新装风力发电设备装机容量最大的国家,并且保持快速增长。由于风力发电正处于飞速发展阶段,风电场数量和规模不断扩大,然而受地理条件和环境因素限制,风电场多位于偏僻遥远的平原、山区或海上,因此为风电公司引入SCADA系统(数据采集与监视控制系统)对风电场群的日常运行进行集中监控、调度和管理,但风电机组受设备、环境、运行状态等因素影响,SCADA系统实时采集的风机运行数据会存在有大量异常值和缺失值,这些“脏数据”的原创 2020-10-22 17:11:04 · 15293 阅读 · 24 评论 -
数据挖掘之LDA特征降维
1原理介绍2案列介绍1原理介绍背景:线性判别分析(LDA)是数据预处理中的降维,分类任务,LDA是“有监督”的,与PCA不同,LDA更关心分类而不是方差。思想:LDA分类的一个目标是使得不同类别之间的距离越远越好,同一类别之中的距离越近越好。原理:投影到维度更低的空间中,使得投影后的点,会形成按类别区分,一簇一簇的情况,相同类别的点,将会在投影后的空间中更接近方法。...原创 2020-03-04 20:56:23 · 2211 阅读 · 0 评论 -
基于主成分分析的降维
目录1原理介绍2手写PCA代码3基于第三方模块的降维1原理介绍原创 2020-02-27 21:28:35 · 783 阅读 · 0 评论 -
基统计的方法对进行多因子的探索性数据分析
** 在建立机器学模型之前,我们常常会对我们所拥有的特征进行探索性因子分析,探索性因子分析可以分为单因子分析和多因子分析。单因子分析主要针对某一个特征进行分析,分析方法往往采用统计指标(均值,中位数,众数,偏度系数和峰度系数等)以及图形可视化分析;而多因子分析主要是针对两个或两个以上的特征做联合分析,分析方法有检验分析(如:T检验分析,方差分析,卡方检验分析)、相关性分析、主成分分析、因子分析等,...原创 2020-02-14 21:43:19 · 764 阅读 · 0 评论 -
数据挖掘之SVM
本文主要是利用svm做一个鸢尾花数据集分类的案例学习一、理论介绍二、案例实践(1) 加载数据import pandas as pdfrom sklearn.datasets import load_irisimport numpy as npiris = load_iris()X, y = iris.data, iris.targetX.shape ##(1...原创 2020-01-30 21:20:17 · 394 阅读 · 0 评论 -
数据挖掘之xgboost
今天想分享的是数据挖掘中集成算法,具体的原理我就不分享了,代码案在我的github上.另外这是我主要参考的两篇博客:XGBoost算法原理小结XGBoost类库使用小结1. XGBoost类库概述XGBoost除了支持Python外,也支持R,Java等语言。本文关注于Python的XGBoost类库,安装使用"pip install xgboost"即可,目前使用的是XGBoost...原创 2019-10-29 21:30:30 · 669 阅读 · 0 评论 -
数据挖掘之逻辑回归
入行数据挖掘这一行1年不到,自己深知还是一个菜鸟。最近学习了一些数据挖掘的知识,一直想找个机会把学到东西保存下来,但是由于我的惰性,这个工作一直在拖,所以最近趁着项目不忙的时候,把学到一些东西记录下来。既然入了这一行,就要坚持学习,路漫漫其修远兮,吾将上下而求索。另外,本人所学的东西很大一部分来自同行前辈的分享,本人所用的一些项目案例很有可能早已在网上出现,所以在此申明,引用的项目案列和数据集完全...原创 2019-02-28 16:25:57 · 1990 阅读 · 0 评论 -
数据挖掘之决策树
今天想分享的是数据挖掘中决策树实例,具体的原理我就不分享了,代码案在我的github上:1 决策树代码案例该案例主要是用sklearn构建决策树的案例,选取前两个特征构建模型,并用matplotlib做模型可视化展示#!/usr/bin/python# -*- coding:utf-8 -*-import numpy as npimport matplotlib.pyplot as ...原创 2019-03-01 11:26:24 · 1035 阅读 · 0 评论 -
数据挖掘之特征工程
特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。 本文主要介绍做特征主要的过程,熟悉做数据挖掘中对数据做预处理的主要流程。1数据采集哪些数据对最后的结果预测有帮助?数据我们能够采集到吗?线上实时计算的时候获取是否快捷?2数据格式存储3数据清洗4数据采样5单个特征处理5.1特征处理之数值型5.2特征处理之类别型5.3特征处理之时间型...原创 2019-03-07 21:40:43 · 688 阅读 · 0 评论