![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 84
SusanLovesTech
从小白开始学习
展开
-
spark基础之4.0-聚合函数agg的使用
文章目录1.0 背景2.0 实现方式2.1 实现基础和一些小原则2.2 实现原理2.3 代码2.4 代码亮点1.0 背景基于上一篇博客的背景, 要求,在一个dataframe中按照不同的时间跨度对item_id进行groupby来统计,最后生成不同时间跨度的df示例: 从图一转为图二图一:图二2.0 实现方式2.1 实现基础和一些小原则在使用Scala完成Spark作业时,应尽量注意一些原则,保证具有Scala风格:尽量不要定义可变的变量var;尽量不要写for循环,基本都可以通多m原创 2021-03-08 20:32:08 · 1237 阅读 · 0 评论 -
机器学习之-XGBoost2.0 -实践
目录1.0 XGBoost如何评价特征的重要性2.0 XGBooost参数调优的一般步骤2.1 确定learning rate和estimator的数量2.2 max_depth和 min_child_weight2.3 gamma2.4 subsample, colsample_bytree2.5 正则化参数2.6 降低学习率3.0 XGBoost参数详解3.1 常规参数3.2 模型参数3.2.1 Tree Booster3.2.1 Linear Booster3.3 训练参数参考链接1.0 XGBoo原创 2021-01-25 20:59:18 · 623 阅读 · 1 评论 -
机器学习之-XGBoost1.0 -原理
目录写在前面1.0 决策树参考链接写在前面毕业之后开始做推荐,接触了很多机器学习的知识和技能,依旧是从小白做起,认真学习,认真记录,从Xgb开始,当然一些很基础的知识,比如叶节点之类的就不在此赘述.1.0 决策树目前最流行的两类算法是 基于深度学习的-神经网络 和 基于机器学习的 树形算法 主要是决策树, 决策树分为 1. 分类决策树:处理离散数据 2. 回归决策树:处理连续数据决策树是将空间用超平面进行划分,每次分割,都将当前的空间根据特征的取值进行划分,最终使每一个叶子节点都是在当前空间的一个原创 2021-01-24 18:10:23 · 184 阅读 · 1 评论 -
校招算法岗面试-4
文章目录小米二面基础知识算法问题小米二面基础知识模型过拟合特征工程防止梯度消失和爆炸(RNN LSTM)传统机器学习的评估标准FM(因子分解机)caffe框架的原理算法问题二维整数数组topK整数数组最大序列和...原创 2020-03-06 16:08:38 · 224 阅读 · 0 评论 -
校招算法岗面试-3
基础知识SVM决策树,回归,分类GBDT和Adaboost区别特征选择软间隔、硬间隔python的多线程spark算子原创 2020-02-27 15:53:47 · 185 阅读 · 0 评论 -
校招算法岗面试-2
百度一面(视频)基础知识神经网络中,一些基础网络的进化设置不同卷积和大小的原因inceptionnet的1*1卷积目的,为了提高训练准确度做的改进神经网络的评价标准,auc的目的,roc精确率,准确率,召回率C++容器Redis用在哪里,特点是什么LR的损失函数CTR,NLPword2vec编程逆序二维矩阵,统计非零数的个数百度二面(视频)基础知识损失不收敛的...原创 2020-02-24 14:13:21 · 210 阅读 · 0 评论 -
校招算法岗面试-1
文章目录机器学习CV算法岗面试-基础知识部分:机器学习CV算法岗面试-代码部分机器学习CV算法岗面试-基础知识部分:MobileNet的特点,以及v1-v3的提升点Yolo系列特点及每次的改进,多尺度体现在哪里,损失函数的改进Darknet的特点,19,53卷积的计算量和参数量的计算卷积,池化的前向传播和反向传播的具体计算(带入具体的值进行推导)BN层的作用已经 γ\gammaγ和...原创 2020-02-18 22:14:36 · 345 阅读 · 0 评论 -
面试之-2.0集成学习Boosting和Bagging
集成学习(Ensemble Learning)/多分类系统(Multi-Classifier System)/基于委员会的学习(Community-based Learning)概念通过合并多个学习器来完成学习任务同质学习器中的的个体学习器,叫基学习器,算法叫基学习算法,异质学习器中的个体学习器叫“组件”或直接叫“个体学习器”,算法也不是基学习算法。特点一般情况,集成学习要求个体学习器要...原创 2019-05-24 23:48:43 · 279 阅读 · 0 评论 -
面试之-1.0数据集类别分布不平衡问题
数据分布不平衡解决方法(ML版)数据角度:扩大数据集:最主要是添加小类别数据采样: 上采样(增加小样本数)和下采样(减少大样本数)–> 上采样由于样本会重复出现,容易出现过拟合;下采样由于都是一部分数据导致模型只学习到一部分特征 —> 针对上采样问题:上采样,在每次新生成的数据点时加入随机扰动;下采样:①(Easy Ensemble)多次下采样(有放回),产生多个不同的数据...原创 2019-05-22 23:44:50 · 2365 阅读 · 0 评论 -
面试之-3.0概率质量函数,概率密度函数,概率分布函数
背景在学习集成学习时,周志华老师的西瓜书中出现了P(⋅)P(·)P(⋅)和P(⋅∣⋅)P(·|·)P(⋅∣⋅)分别为概率质量函数,条件概率质量函数,在此进行扩充。(注:研究一个随机变量,不只要看它能取什么值,更重要的是更重要的是各种取值的概率分布!!!!)概率函数(分布律)-> 离散型概率质量函数(Probability Mass Function,PMF)用函数形式表达概率,如...原创 2019-05-24 13:03:05 · 2704 阅读 · 0 评论