机器学习
wnloverforever
这个作者很懒,什么都没留下…
展开
-
信息增益计算
def ent(data):prob1 = pd.value_counts(data)/len(data)return sum(np.log2(prob1)prob1(-1))def gain(data,str1,str2):e1 = data.groupby(str1).apply(lambda x:ent(x[str2]))p1 = pd.value_counts(data[str1])/len(data[str1])e2=sum(e1*p1)return ent(data[str2])-原创 2021-09-28 15:46:15 · 247 阅读 · 0 评论 -
筛选相关特征
def calcute_corr(data,aim): ''' data : 包含所有需要计算corr相关性的特征数据集 aim : 相关性删除的阈值 return : result : 留下待使用的特征 the_same_feature : 要删除的相关性大于阈值的特征 ''' the_same_feature = [] result = [] for col_name in data.columns: .原创 2021-02-22 17:41:20 · 235 阅读 · 0 评论 -
读取csv文档
import csvimport numpy as npboston_dir_path = r'D:\annconda\Lib\site-packages\sklearn\datasets\data\boston_house_prices.csv'def load_boston(): with open(boston_dir_path) as f: data_fi...原创 2020-02-17 12:21:42 · 196 阅读 · 0 评论 -
特征处理
好的数据及特征往往是一个性能优异模型的基础特征处理:数据清洗(缺失值处理,异常值检验,调配样本比例和权重)数据规范化特征衍生与规范特征选择:特征过滤Wrapper methodEmbedded method数据清洗(缺失值处理,异常值检验,调配样本比例和权重)缺失值处理:(以免引入过多人工信息)方法:删除缺失值和填充缺失值删除...转载 2019-12-24 16:04:22 · 206 阅读 · 0 评论 -
聚类
Kmeans1.选取聚类中心2.计算每个样本与聚类中心的距离,将样本归为距离最小的那个聚类中心的类3.计算每个聚类的中心(均值)更新聚类中心。4.重复2,3均值偏移聚类1.选取若干个聚类中心,以及半径r2.对聚类中心进行迁移,求均值3.直至没有方向可以移动DBSCAN聚类1.确定半径r,以及半径r内最少的点数2.随机选取,若满足步骤1,则为一类,并对这个...原创 2019-12-12 10:34:06 · 347 阅读 · 0 评论 -
XGboost
思考:1.XGB与GBDT、随机森林等模型相比,有什么优缺点?答:XGB的基分类器可以是cart树也可以是线性分类器,gbdt为cart树。XGB加入了正则化,且优化时是对损失函数的二阶导,gbdt为一阶导。xgb使用了shrinkage,每次学习完,在叶节点上乘以该系数,用以削弱每棵树的影响,来给下面的树留出更大的学习空间。xgb可以使用并行处理2.XGB为什么可以并行训练?答:上述...原创 2019-12-04 17:27:28 · 160 阅读 · 0 评论 -
GBDT
大家都是成年人,直入主题了1.gbdt的算法流程2.gbdt如何选择特征3.gbdt为什么可以构造特征4.gbdt如何用于多分类5.gbdt通过什么方式减少误差6.gbdt相比于LR,SVM为什么效果好一点7.gbdt如何加速训练8.gbdt的参数有哪些,如何调参9.gbdt的优缺点这里先明确:GBDT的弱分类器为cart回归树(二分类)1.gbdt的算法流程其实就是树的构...原创 2019-12-03 17:48:48 · 161 阅读 · 0 评论 -
Adaboost
本人较懒,嗯,贴图片吧原创 2019-12-03 15:55:52 · 89 阅读 · 0 评论 -
树树树
近期在,额~~~~所以正好把西贴上来,嗯,没错。原创 2019-12-24 16:05:15 · 86 阅读 · 0 评论 -
Xgboost
Xgboost是树中重要的一个算法吧。现在理解下先,不管是ID3,C4.5,CART回归,以及CART分类,以及随机森林,以及Adaboost,以及GBDT,都有什么共同点?不管这个树是什么样的,它肯定是颗树,是树,就得长叶子,所有这些算法都和树的分裂离不开关系。那么xgboost也不例外,它可以看成是lgbt的一个衍生,怎么说呢,GBDT的弱分类器只能选择什么?只能是CART树?这里问个问...原创 2019-07-28 18:39:02 · 190 阅读 · 0 评论 -
优化方法总结
梯度下降,SGD~,ADAm,牛顿法,拟牛顿法首先要理解,优化方法对谁优化?没有说错,我们是做机器学习或者深度学习,在程序中是通过不断迭代完成的,那么,学习什么呢?是x?不对,因为x其实是我们的数据,我们是想通过x求得y也就是根据我们的已有的数据求出对应映射下的结果,可能是个分类,也可能是个回归,其实我们要的就是建立这个映射的关系,怎么建立呢?就是通过参数矩阵W,无论是任何机器学习算法中...原创 2019-07-28 17:23:59 · 319 阅读 · 0 评论