![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
嚯嚯嚯嚯什么都不会
这个作者很懒,什么都没留下…
展开
-
数据挖掘—逻辑回归算法之如何实现客户逾期还款业务
文章目录1、分析背景2、分析流程3、目标4、数据介绍1、分析背景贷款申请人向某(P2P)平台申请贷款时,平台会通过线上或者线下让客户填写借贷申请表,收集客户的基本信息,同时会借助第三方如征信机构的信息,通过这些信息属性来做成逻辑回归预测模型,平台可以通过预测判断贷款申请是否会违约,从而决定是否向申请人发送贷款。算法根据历史数据需要建立一个模型来2、分析流程数据处理(清洗、筛选、删除、特征工程等—划分数据集(测试集和训练集)—构建yhat值即解释变量的筛选)建立模型模型检验(画ROC曲线,求A原创 2020-12-27 01:09:25 · 895 阅读 · 0 评论 -
数据挖掘——总结、思考
(一)监督学习1、分类分类算法的类别有哪些?使用场景有哪些?分类算法的评估算法有哪些?分类算法的改进策略有哪些2、预测(二)无监督学习聚类原理是什么?评估方法?类别?优缺点?(三)关联规则分析关键概念有哪些?应用场景使用挖掘方法与改进(四)离群点检测离群点检测方法分类(五)数据预处理方法:特征工程(清洗、集成、变换与规约)(六)数据统计量(七)数据分析与挖掘的流程(八)数据挖掘中存在的问题及解决...原创 2020-12-26 04:50:17 · 276 阅读 · 0 评论 -
数据挖掘—逻辑回归分类—信用卡欺诈分析
文章目录1、分析目的:2、掌握要点:3、构建逻辑回归分类器4、模型评估指标5、精确度和召回率(不平衡数据衡量指标)6、案例分析:1、分析目的:信用卡欺诈的危害性大,如何通过遗忘的交易数据分析出每笔交易是否在正常是分析的主要目的2、掌握要点:了解逻辑回归分类,以及如何在 sklearn 中使用它;信用卡欺诈属于二分类问题,欺诈交易在所有交易中的比例很小,对于这种数据不平衡的情况,到底采用什么样的模型评估标准会更准确;完成信用卡欺诈分析的实战项目,并通过数据可视化对数据探索和模型结果评估进一步加强原创 2020-12-26 02:36:01 · 2402 阅读 · 3 评论 -
数据挖掘实战——随机森林——信用卡违约率分析1
文章目录数据挖掘核心问题:本次数据挖掘学习目标:随机森林使用Pipeline管道机制进行流水线作业案例:信用卡违约率的分析:数据挖掘核心问题:1、如何选择各种分类器;2、如何优化分类器的参数,以便得到更好的分类准确率;本次数据挖掘学习目标:创建各种分类器,包括已经掌握的 SVM、决策树、KNN 分类器,以及随机森林分类器;(选择分类器)掌握 GridSearchCV 工具,优化算法模型的参数;(参数优化)使用 Pipeline 管道机制进行流水线作业。因为在做分类之前,我们还需要一些准备过程原创 2020-12-25 22:49:08 · 1767 阅读 · 3 评论 -
数据挖掘——AdaBoost(波士顿房价预测)
知识点整理:实战:#回归:#用 AdaBoost 回归分析对波士顿房价进行了预测from sklearn.model_selection import train_test_splitfrom sklearn.metrics import mean_squared_errorfrom sklearn.datasets import load_bostonfrom sklearn.ensemble import AdaBoostRegressor# 加载数据data=load_bosto原创 2020-12-21 01:15:35 · 1561 阅读 · 0 评论 -
数据挖掘——EM聚类(王者英雄聚类)
聚类思维导图整理:实战:对王者英雄进行聚类import pandas as pd import csv import matplotlib.pyplot as plt import seaborn as snsfrom sklearn.mixture import GaussianMixturefrom sklearn.preprocessing import StandardScaler#数据加载,避免中文乱码问题:data_ori=pd.read_csv("./heros.csv原创 2020-12-20 16:28:12 · 260 阅读 · 0 评论 -
数据挖掘——K-Means算法(亚洲球队聚类、图像分隔)
K-Means导图整理:实战1:#导入需要的包和工具from sklearn.cluster import KMeansfrom sklearn import preprocessingimport pandas as pd import numpy as np#加载数据data=pd.read_csv("data.csv",encoding="gbk")train_x=data[["2019年国际排名","2018世界杯","2015亚洲杯"]]df=pd.DataFrame(tr原创 2020-12-20 05:16:57 · 806 阅读 · 2 评论 -
数据挖掘——KNN算法(手写数字分类)
KNN原理部分思维导图整理:手写数据分类实战,分别用KNN、SVM、朴素贝叶斯和决策树做分类器,统计比较四个分类器的准确率。#1、导入需要的包和数据集(手写分类数据集)from sklearn.model_selection import train_test_splitfrom sklearn import preprocessingfrom sklearn.metrics import accuracy_scorefrom sklearn.datasets import load_di原创 2020-12-20 02:47:13 · 1063 阅读 · 1 评论 -
数据挖掘——SVM(乳腺癌检测)
文章目录import matplotlibmatplotlib.use('Qt4Agg')# 乳腺癌诊断分类import pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsfrom sklearn.model_selection import train_test_splitfrom sklearn import svmfrom sklearn import metricsfrom sklearn.prepro原创 2020-12-20 01:34:20 · 906 阅读 · 1 评论 -
数据挖掘——朴素贝叶斯(中文文档分类)
使用朴素贝叶斯进行了中文文档分类:# 中文文本分类import osimport jiebaimport warningsfrom sklearn.feature_extraction.text import TfidfVectorizerfrom sklearn.naive_bayes import MultinomialNBfrom sklearn import metricswarnings.filterwarnings('ignore')def cut_words(file_.原创 2020-12-19 23:15:02 · 155 阅读 · 1 评论 -
数据挖掘——决策分类/回归树(好苹果分类、鸢尾花数据分类、手写数字数据集分类、波士顿房价预测、泰坦尼卡号生存预测)
极客时间——数据挖掘——决策树:```python#1、决策树上作业——好苹果的决策树from sklearn import tree import sys import os import graphviz import numpy as np#创建数据data=np.array([[1,1],[1,0],[0,1],[0,0]])target=np.array([1,1,0,0])clf=tree.DecisionTreeClassifier()clf=clf.fit(da原创 2020-12-18 22:50:13 · 443 阅读 · 1 评论 -
数据挖掘——数据变换
数据挖掘概览:原创 2020-12-18 00:05:48 · 1817 阅读 · 1 评论