数据挖掘
文章平均质量分 66
君子与时偕行
这个作者很懒,什么都没留下…
展开
-
线性回归—
分类的目标变量是标称型数据,而回归将会对连续型的数据做出预测。应当怎样从一大堆数据里求出回归方程呢?假定输人数据存放在矩阵X中,而回归系数存放在向量W中。那么对于给定的数据X1, 预测结果将会通过Y=X*W给出。现在的问题是,手里有一些X和对应的Y,怎样才能找到W呢?一个常用的方法就是找出使误差最小的W。这里的误差是指预测Y值和真实Y值之间的差值,使用该误差的简单累加将使得正差值和负差值相互抵消,所以我 们采用平方误差。最小二乘法平方误差可以写做:对W求导,当导数为零时,平方误差最小,此时W等于:例如有下面原创 2022-06-22 10:08:04 · 102 阅读 · 0 评论 -
K近邻算法(KNN)
KNN算法是机器有监督学习的一种算法,它既可以实现分类,也可以实现回归。分类:假设现在已经有n个样本,并且该n个样本已经分好类别,现有新的样本X,要判断X属于哪一类别,通过计算与给定的**k值(默认5)**个已有样本的距离,来判断这k个样本所属最多的类别,则认为新样本X也属于这个类别from sklearn.preprocessing import StandardScalerfrom sklearn.datasets import load_irisfrom sklearn.model_sel原创 2022-05-30 10:16:53 · 165 阅读 · 0 评论 -
关联分析-Apriori
目的:关联分析的最终目的,就是为了找出强关联规则基本概念:1.支持度(support):关联规则A->B的支持度support=P(AB),指的是事件A和事件B同时发生的概率(联合概率)Support(X→Y) = P(X,Y) / P(I) = P(X∩Y) / P(I) = num(X∩Y) / num(I)2.置信度(confidence):confidence = P(B|A) = P(AB)/P(A),指的是...原创 2022-05-20 10:49:55 · 818 阅读 · 1 评论