G_瑞琴-CSDN博客

转载预测二手车的交易价格

二手车交易价格的预测问题可通过回归模型对数据进行拟合，从而建立二手车交易价格的预测模型。由于数据集中可能存在部分属性对于二手车交易价格影响较小，因此可选择关联度高的属性进行回归与预测，尽量减少模型的规模。一、数据集来源https://tianchi.aliyun.com/competition/entrance/231784/information字段表Field Description SaleID 交易ID，唯一编码 name 汽车交易名称，已脱敏 r

2022-01-20 01:05:57 2317

原创机器学习—集成学习（ensemble learning）

一、集成学习集成学习是将多个弱机器学习器结合，构建一个有较强性能的机器学习器的方法，也就是通过构建并合并多个学习器来完成学习任务，其中构成集成学习的弱学习器称为基学习器、基估计器。1、根据集成学习的各基估计器类型是否相同，可以分为：同质和异质。同质：指个体学习器全是同一类型。异质：指个体学习器包含不同类型的学习算法。2、根据个体学习器的生成方式，将集成学习方法可以分为两类：boosting和baggingboosting：它的特点是各个弱学习器之间有依赖关系。bagging：它的

2022-01-16 02:40:18 1888

原创使用KMeans对iris数据集聚类

一、聚类分析的基本知识聚类分析也称聚类，它与分类是不同的，分类的目标变量是已知的，每个样本都存在类标签，而聚类的目标变量是事先不知道的，聚类的样本类别没有被预先定义出来。聚类是根据聚类算法或样本对象划分成两个以上的子集，每个子集称为一个簇，簇中对象因特征属性值接近而彼此相似，不同簇对象之间则彼此存在差异，簇内的对象越相似，聚类的效果就越好。聚类分析是将相似的对象归为同一簇，将不相似的对象归为不同簇，这就需要一种计算方法来度量相似程度，常用的相似度计算方法有欧式距离、余弦距离、曼哈顿距离以及闵可夫斯基

2022-01-13 02:12:39 7633 2

原创支持向量机-sklearn.svm

一、学习SVC()类的主要参数和属性1、svm.SVC类的主要参数含义参数含义 C 浮点数，默认为1.0，表示误差项惩罚参数。C越小对误分类的惩罚越小，决策平面越光滑；C越大对误分类的惩罚越大，越倾向于精确地分类。 kernel 字符串，默认rbf,是‘linear’，‘poly’，‘rbf’，‘sigmoid’中的一个，表示核函数的类型。 degree 整数，默认为3，表示多项式核函数（‘poly’)的次数。 gamma 浮点数，默认为auto，表示

2021-12-08 00:06:48 424

原创支持向量机-wine数据集

支持向量机是监督式学习算法，主要应用于分类，它的目的是寻找一个超平面对样本进行分割，分割的原则是间隔最大化。（1）当训练数据线性可分时，通过硬间隔最大化，学习一个线性分类器，即线性可分支持向量机；（2）当训练数据近似线性可分时，通过软间隔最大化，学习一个线性分类器，即线性支持向量机；（3）当训练数据线性不可分时，通过核技巧（将低维数据映射到高维空间的办法）或软间隔最大化，学习一个线性分类器，即非线性支持向量机。使用支持向量机对wine数据集进行分类1、导入数据集（加载scikit-lea

2021-12-06 22:38:31 3958

原创 iris数据集——决策树

此处主要学习决策树的分类问题——DecisionTreeClassifier1、决策树算法的环境搭建GraphViz是将决策树模型可视化的一个模块。Anaconda不自带该模块，因此想要可视化决策树则需要安装Graphviz，执行以下步骤：（1）可通过网址https://graphviz.io/_pages/Download/Download_windows.html下载安装Graphviz。如果计算机系统是Linux，可以用apt-get或者yum方法安装。若是Windows系统，在官网下载G

2021-12-04 15:39:09 8160 1

原创决策树学习

决策树在机器学习中是比较经典的一个算法，它既可作分类算法，也可作回归算法，scikit-learn提供了tree模块，该模块提供了DecisionTreeClassifier类和DecisionTreeRegressor类，分别用于处理分类和回归问题，其目的是创建一种模型，从数据特征中学习简单的决策规则（类似于if-else），从而预测一个目标变量的值。ID3算法：ID3（Iterative Dichotomiser3）算法可以说是决策树算法中最著名的代表。我们会不停的敲if, else if, els

2021-12-04 00:52:11 685

原创波士顿房价数据集——回归分析

分别使用线性回归、二次多项式回归、三次多项式回归对数据集Boston进行回归分析，并比较这三种回归的结果。一、加载数据# Boston数据集# 使用load_boston()方法，从sklearn.datasets模块导入波士顿房价数据集from sklearn.linear_model import LinearRegression from sklearn.datasets import load_bostonboston=load_boston()X=boston.datay=b

2021-12-02 22:56:27 7245

原创可视化-Matplotlib

在机器学习中，可视化是数据特征分析和结果展示的一个重要手段。它可以提供数据的分布特征、统计特征，回归、分类和聚类等的结果。Matplotlib可视化Seaborn可视化

2021-08-12 23:36:21 273

原创身高数据的机器学习模型

本文以身高数据集为例，在python环境下使用scikit-learn机器学习模块训练分类器，然后用训练好的分类器对新样本的类别进行预测的基本过程。机器学习模型案列：（了解决策数、神经网络和支持向量机这三种分类器的基本使用方法）1、已知身高数据集中，高个子的类标签为0，身高数据为179，175，177，180，192；矮个子的类标签为1，身高数据为152，154，160，164，158；身高的单位为cm。分别训练决策树、神经网络、支持向量机分类器，然后使用训练的分类器预测身高160，179的类别（高

2021-08-06 00:15:35 1136

原创机器学习库 scikit-learn

scikit-learn基本功能主要分为六大部分：分类、回归、聚类、数据降维、模型选择和数据预处理。1、分类分类属于有监督学习，是给对象指定所属类别范畴的。常见的应用场景有垃圾邮件检测、图像识别。分类已实现的算法有：K最邻近算法、逻辑回归、支持向量机、随机森林和决策树等。2、回归回归是预测与给定对象相关的连续属性的值，常见的应用场景有预测股票价格、预测二手房交易价格。回归已实现的算法有：岭回归、贝叶斯回归和支持向量回归。3、聚类聚类是自...

2021-08-05 23:02:50 776

原创数据库与数据仓库

数据一般以数据库和数据仓库的形式组织存储。数据库数据库是按照一定的数据结构来组织、存储数据的数据集合。数据库先后经历了层次式数据库、网络式数据库和关系型数据库等各个阶段的发展，最常用的数据库模型是关系型数据库，关系型数据库的典型代表有MySql、Oracle、SqlServer等。随着云计算的发展和大数据时代的到来，特别是对于规模日益扩大的海量数据，关系型数据库越来越无法满足需要，已经显得力不从心。于是出现了大批针对特定场景，具有高性能和使用便利等特点的数据库产品——非关系型数据库，非关系型数据

2021-08-04 22:08:12 200

原创 scikit-learn中的Pipeline

在机器学习项目中，对训练集进行各种数据预处理操作，比如：数据特征提取、标准化、主成分分析等，在测试集上还需重复使用这些参数，我们可以使用机器学习中的pipeline机制来避免重复的操作。示例：数据背景：城市租用自行车计划是在城市中部署若干个自助租车处。在这个由租车处组成的网络中使用者可自助租用、归还自行车。迄今为止，全世界已经有500多个自助自行车租用处。目标：通过给予的历史数据（包括天气、时间、季节等特征）使用Pipeline构建回归模型预测特定条件下的租车数目加载数据# 加载数据

2021-07-22 01:17:27 518

原创 Pyhton——Sklearn基础

Pyhton——Sklearn基础Sklearn 全名叫scikit-learn ，它是一个非常强大的 Python 机器学习算法包，提供了非常完整的机器学习功能，它的功能覆盖了一个非常完善的机器学习流程。sklearn官网（http://scikit-learn.org/）提供的文档非常详细的，我们在学习过程中可查阅相关内容sklearn组成分类 Classification回归 Regression聚类 Clustering降维 Dimensionality reduction模型选

2021-07-21 00:44:30 278

原创机器学习实战——泰坦尼克号

通过泰坦尼克号生存项目来熟悉机器学习的整个流程，数据来源是kaggle上的titanic数据。该项目从数据获取->数据清洗->特征处理->构建模型->模型评估5个步骤进行分析。该比赛提供了891名泰坦尼克号的乘客数据，包含乘客的姓名，性别、年龄、客舱等级等信息，数据中还包含一个最重要的信息：乘客是否生还（1：生还，0：遇难）。目的是通过对训练数据集的学习来构建一个分类预测模型，对测试数据集中的418名乘客生存情况进行预测。数据来源链接：https://www.kaggle

2021-07-07 01:47:06 7697 6

原创机器学习基本概念

概念：机器学习是一门涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多领域交叉的学科，是一门从数据中研究算法的科学学科，机器学习直白来讲，是根据已有的数据，进行算法选择，并基于算法和数据构建模型，最终对未来进行预测。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习就是一个模拟人决策过程的一种程序结构。人对历史经验进行总结的过程与机器学习过程的对比：机器学习的常见场景：个性化推荐：个性化指的是根据各种因素来改变用户.

2021-07-03 23:59:55 862 2

原创数据分析——鸢尾花数据集

鸢尾花数据集Iris 鸢尾花数据集内包含 3 类分别为山鸢尾（Iris-setosa）、变色鸢尾（Iris-versicolor）和维吉尼亚鸢尾（Iris-virginica），共 150 条记录，每类各 50 个数据，每条记录都有 4 项特征：花萼长度、花萼宽度、花瓣长度、花瓣宽度。sepallength：萼片长度sepalwidth：萼片宽度petallength：花瓣长度petalwidth：花瓣宽度以上四个特征的单位都是厘米（cm）1、如何导入存在数字和文本的数据集。2、求出鸢

2020-12-01 00:13:03 33842 1

原创 Numpy 线性代数

线性代数矩阵和向量积矩阵的定义、矩阵的加法、矩阵的数乘、矩阵的转置与二维数组完全一致，但矩阵的乘法有不同的表示。numpy.dot(a, b[, out]) 计算两个矩阵的乘积，如果是一维数组则是它们的内积。【例】import numpy as np x=np.array([1,2,3,4,5])y=np.array([2,3,4,5,6])z=np.dot(x,y)print(z)x=np.array([[1,2,3],[3,4,5],[6,7,8]])print(x)y=

2020-11-29 21:39:10 319

原创统计相关

统计相关一、次序统计1、计算最小值numpy.amin(a[, axis=None, out=None, keepdims=np._NoValue, initial=np._NoValue,where=np._NoValue])Return the minimum of an array or minimum along an axis.【例】计算最小值2、计算最大值numpy.amax(a[,axis=None,out=None,keepdims=np._NoValue, initia

2020-11-27 00:35:37 172

原创 Numpy：随机抽样

随机抽样numpy.random 模块对 Python 内置的 random 进行了补充，增加了一些用于高效生成多种概率分布的样本值的函数，如正态分布、泊松分布等。numpy.random.seed(seed=None) Seed the generator.seed() 用于指定随机数生成时所用算法开始的整数值，如果使用相同的 seed() 值，则每次生成的随机数都相同，如果不设置这个值，则系统根据时间来自己选择这个值，此时每次生成的随机数因时间差异而不同。离散型随机变量二项分布二项分

2020-11-25 22:34:51 1541 1

原创 Python Numpy中数据的保存和读取

Numpy中数据的常用的保存与读取方法一、Numpy 二进制文件save( )、savez( )和load( )函数用来保存和读取二进制类型文件（.npy/.npz）参数numpy.save(file,arr,allow_pickle=True,fix_imports=True) Save an array to a binary file in NumPy .npy format.numpy.load(file,mmap_mode=None,allow_pickle=False,fix_imp

2020-11-23 23:24:17 3688

原创数据分析

数据分析学习并查找相关数据分析资料，想在这里记录下来并分享给大家，希望和大家共同进步。1、数据分析可以分为两种：技术型业务型2、基本工具Excel主要掌握基本函数（如：LOOKUP查看函数)、透视图和切片器等内容。SQL了解sql的基本语句，增删改查，其中最重要的部分是查询。Python掌握numpy，pandas，matplotlib，seaborn等几个常用的库3、在数据分析中，常用的8大模型（1）用户模型不仅要知道用户当下在想什么，更要知道用户背后在想什么，以及用户

2020-11-20 00:42:42 519

原创数据分析在金融行业中的应用

数据分析在金融行业中的应用大数据技术的普及和广泛应用，使得数据分析已成为行业的热门趋势，下面将介绍数据在银行、证券和保险行业的应用。在介绍金融行业应用之前先总结下大数据的特点。大数据的特点可归纳为“5V”数量Volume：海量性也许是与大数据最相关的特征。多样化Variety：种类和来源多样化。大数据既包括以事务为代表的传统结构化数据，还包括以网页为代表的半结构化数据和以视频、语音信息为代表的非结构化数据。价值Value：大数据的体量巨大，但数据中的价值密度却很低。比如几个小时甚至几天的监

2020-11-19 00:36:56 4700 1

原创模型融合

Task 5 模型融合模型融合后可能会有意想不到的效果，往往模型相差越大且模型表现都不错的前提下，模型融合后结果会有大幅提升，以下是模型融合的方式：平均：简单平均法和加权平均法投票：简单投票法和加权投票法综合：排序融合和log融合stackingblendingboosting/bagging5.1 平均法简单加权平均，结果直接融合求多个预测结果的平均值。pre1-pren分别是n组模型预测出来的结果，将其进行加权融pre = (pre1 + pre2 + pre3 +...+

2020-09-28 20:57:28 605

原创信贷违约预测-建模与调参

Task4 建模与调参4.1 学习目标学习在金融风控领域常用的机器学习模型学习机器学习模型的建模过程与调参流程4.2 内容介绍逻辑回归模型理解逻辑回归模型逻辑回归模型的应用逻辑回归的优缺点树模型理解树模型树模型的应用树模型的优缺点集成模型基于bagging思想的集成模型随机森林模型基于boosting思想的集成模型XGBoost模型LightGBM模型CatBoost模型模型对比与性能评估回归模型/树模型/集成模型模型评估方法

2020-09-23 23:14:05 838

原创金融风控——信贷违约预测（特征工程）

Task3 金融风控—信贷违约预测（特征工程）本文主要介绍金融风控-贷款违约预测的特征工程部分，带你来了解各种特征工程以及分析方法，具有一定的参考价值，需要的朋友可以参考一下。特征工程3.1 学习目标学习特征预处理、缺失值、异常值处理、数据分桶等特征处理方法学习特征交互、编码、选择的相应方法完成相应学习打卡任务，两个选做的作业不做强制性要求，供学有余力同学自己探索3.2 内容介绍数据预处理缺失值的填充时间格式处理对象类型特征转换到数值异常值处理基于3segama原则

2020-09-21 22:51:52 1810

原创 2020-09-15

Task2 数据分析第二部分为数据分析部分，我们先来了解数据。数据分析目的：1.EDA价值主要在于熟悉了解整个数据集的基本情况（缺失值，异常值），对数据集进行验证是否可以进行接下来的机器学习或者深度学习建模.2.了解变量间的相互关系、变量与预测值之间的存在关系。3.为特征工程做准备2.1 代码示例2.1.1 导入数据分析及可视化过程需要的库import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport

2020-09-17 00:34:37 608

原创金融风控（贷款违约预测）

Task1赛题理解Tip:本次新人赛是Datawhale与天池联合发起的0基础入门系列赛事第四场 —— 零基础入门金融风控之贷款违约预测挑战赛。赛题以金融风控中的个人信贷为背景，要求选手根据贷款申请人的数据信息预测其是否有违约的可能，以此判断是否通过此项贷款，这是一个典型的分类问题。通过这道赛题来引导大家了解金融风控中的一些业务背景，解决实际问题，帮助竞赛新人进行自我练习、自我提高。项目地址：https://github.com/datawhalechina/team-learning-data-m

2020-09-15 00:17:52 2409 3

weixin_50197893的博客