Python机器学习
Rachel_秋
不会的题和难过的事,都可以找我哦
展开
-
数据挖掘|异常检测01|概述
1.概念理解异常的类别理解点异常正常人vs.病人上下文异常某件事物,在某个时间段的异常,可能由于突发状况群体异常网络上的“水军”2.异常检测常用方法2.1 传统方法传统方法特点基于统计学方法假定数据集符合某个统计模型的分布,再去验证线性模型数据降维基于相似度的方法聚类算法、k近邻算法集成方法孤立森林最早被孤立出来的就是异常点...原创 2021-05-11 22:43:19 · 153 阅读 · 0 评论 -
机器学习 | 模型评估与优化
交叉验证法1.K折叠交叉验证法(k_fold cross validation)在scikit-learn中,默认使用的交叉验证法是K折叠交叉验证法(k_fold cross validation):将数据集拆分成k个部分,再用k个数据集对模型进行训练和评分。cross_val_scoresklearn.model_selection.cross_val_score(estimator, X, y=None, groups=None, scoring=None, cv=’warn’, n_jobs原创 2021-04-21 18:55:25 · 592 阅读 · 0 评论 -
机器学习算法 | 随机森林
1.简介随机森林的基本原理决策树算法很容易出现过拟合的现象,随机森林是把不同的几棵树打包到一起,每个数的参数都不同。在随机森林构建完成之后,每棵决策树都会单独进行预测。如果是用来进行回归分析的话,随机森林会把所有决策树预测的值取平均数。如果是用来进行分类的话,在森林内部会进行“投票”,每棵树预测出数据类别的概率,比如其中一个树认为“这瓶酒80%属于class_1”,另外一棵树认为“这瓶酒60%属于class_2”,随机森林会把这些概率取平均值,然后把样本放入概率最高的分类中。随机森林的优点1.原创 2021-04-20 15:49:03 · 2645 阅读 · 0 评论 -
Python机器学习|广义线性模型(4) | 套索回归
"""套索回归(lasso)l1正则化的线性模型L1正则化会导致在使用套索回归的时候,有一部分特征的系数会正好等于0,即有些特征会被彻底忽略掉可以突出体现模型中最重要的那些特征"""# 导入套索回归from sklearn.datasets import load_diabetesfrom sklearn.linear_model import Lasso# 载入糖尿病数据集from sklearn.model_selection import train_test_splitimpo原创 2021-02-17 21:41:13 · 1037 阅读 · 2 评论 -
Python机器学习|广义线性模型(3) | 岭回归
from sklearn.datasets import load_diabetes# 载入糖尿病数据集from sklearn.model_selection import train_test_splitimport matplotlib.pyplot as pltX, y = load_diabetes().data, load_diabetes().targetX_train, X_test, y_train, y_test = train_test_split(X, y, random原创 2021-02-17 20:32:16 · 465 阅读 · 0 评论 -
Python机器学习|广义线性模型(2) | 最小二乘法
"""线性回归,又称普通最小二乘法"""# 导入数据集拆分工具from sklearn.datasets import make_regressionfrom sklearn.model_selection import train_test_splitfrom sklearn.linear_model import LinearRegressionX, y = make_regression(n_samples=100, n_features=2, n_informative=2, rand原创 2021-02-15 21:34:50 · 692 阅读 · 0 评论 -
Python机器学习|广义线性模型(1) | 基本概念
"""y = 0.5x+3"""import numpy as npimport matplotlib.pyplot as plt# 令x为-5到5之间,元素数为100的等差数列x = np.linspace(-5, 5, 100)# 输入直线方程y = 0.5 * x + 3plt.plot(x, y, c='orange')# 图题设为"straight line"plt.title("Straight line")plt.show()"""线性模型的图形表示"""原创 2021-02-15 20:44:17 · 639 阅读 · 0 评论 -
Python机器学习|K最近邻算法(4)| 酒的分类
"""酒的分类"""from sklearn.datasets import load_wineimport numpy as np# 从sklearn的datasets模块载入数据集wine_dataset = load_wine()"""使用load_wine函数载入的酒数据集,是一种bunch对象 key:value"""# 打印酒数据集中的键print("红酒数据集中的键:\n{}".format(wine_dataset.keys()))# 使用.shape打印数据的概况原创 2021-02-14 16:53:31 · 1172 阅读 · 0 评论 -
Python机器学习|K最近邻算法(3)| 回归分析
import matplotlib.pyplot as plt# 导入make_regression数据集生成器from sklearn.datasets import make_regression# 导入用于回归分析的KNN模型from sklearn.neighbors import KNeighborsRegressorimport numpy as np# 生成特征数量为1,噪音为50的数据集"""n_features:特征数(自变量个数)n_informative:参与建模特原创 2021-02-14 15:31:06 · 482 阅读 · 0 评论 -
Python机器学习|K最近邻算法(2)| 多元分类任务
# 生成样本数为500,分类数为5的数据集data2 = make_blobs(n_samples=500, centers=5, random_state=8)X2, y2 = data2# 将生成的数据进行可视化plt.scatter(X2[:, 0], X2[:, 1], c=y2, cmap=plt.cm.spring, edgecolor='k')plt.show()clf = KNeighborsClassifier()clf.fit(X2, y2)# 下面的代码用于画图原创 2021-02-13 21:40:49 · 321 阅读 · 0 评论 -
Python机器学习|K最近邻算法(1)| 分类任务的应用
from sklearn.datasets import make_blobs# 导入KNN分类器from sklearn.neighbors import KNeighborsClassifier# 导入画图工具import matplotlib.pyplot as plt# 导入数据集拆分工具from sklearn.model_selection import train_test_split# 生成样本数为200,分类为2的数据集"""random_state:是随机数的种子。原创 2021-02-10 22:19:57 · 350 阅读 · 0 评论