自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 机器学习算法Part4 线性模型

Part4 线性模型1. 线性回归线性回归采用最小二乘法作为代价函数,需要符合最小二乘法使用的基本假设,违背基本假设时,普通最小二乘法估计量不再是最小线性无偏估计量,但是还是无偏的正规方程法中如果XTXX^TXXTX不可逆,两种解决方案:删除数据中多余的特征(即特征之间存在相关性);删除部分特征数据使特征数小于样本数2.逻辑回归当逻辑回归仍采用线性回归的代价函数时,即仍用MSE表...

2019-08-31 11:23:47 455

原创 机器学习算法 Part3 模型评估

Part3 模型评估1. 评估方法:留出法交叉验证法:介绍一下交叉验证法,解决什么问题存在的K折交叉验证:将可用数据划分为K个分区(K通常取4或5),实例化K个相同的模型,将每个模型在K-1个分区上训练,并在剩下的一个分区上进行评估。模型的验证分数等于K个验证分数的平均值。解决小数据集而存在的自助法(bootstrap):每次随机从样本空间D中有放回采样一个样本,重复m次,得到有m个样...

2019-08-31 11:19:27 281

原创 机器学习算法Part2 特征工程

Part2 特征工程特征工程的文章参考这篇神文,简单把内容搬运一下https://blog.csdn.net/qq_20412595/article/details/81623489#移除低方差的特征-removing-features-with-low-variance1. 异常值和缺失值异常值和缺失值可以按照饱和度的不同进行填充,异常值可以按照缺失值的方式去衡量对于饱和度较低的特征,一...

2019-08-31 11:16:33 244

原创 机器学习算法Part1 基本数学概念

Part1 基本数学概念1. 极大似然估计(MLE),最大后验概率(MAP),最小二乘法,EM先验概率:根据以往经验分析和得到的概率,不用做实验就知道的概率后验概率:后验概率是在考虑了一个事实之后的条件概率极大似然和最大后验MLE求参数θ,使得P(X|θ)最大知道分布的具体情况,但是不知道具体的参数,比如说知道了使正态分布,但是不知道μ和σ求解argmaxμp(X,μ)ar...

2019-08-31 11:14:35 256

原创 字节跳动第二次笔试

1 和LeetCode547很像,一开始可以先把满足>3的变成1,然后就转换成LeetCode547了2def getres(n): f=[0]*(n+1) f[0]=1 for i in range(1,n+1): for j in range(i): f[i]+=f[j]*f[i-1-j] return fpr...

2019-08-25 21:11:11 523

原创 跟项目相关的面试问题汇总

针对于简历中会问到的问题神经网络的高速磁浮轨道不平顺预估为什么选择用cnn而不用rnn?双向rnn为什么不用1.由于轨道不平顺在车辆激起的震动加速度具有双向性 2.由于磁浮列车在车体前后各有一个悬浮控制架,且车体是刚性的,因此远端的悬浮控制架的震动加速度同样会影响该侧的震动加速度,因此采用双向rnn也不是很合理,反而将其折叠后产生的更为合理一些激活函数有哪些,为什么选用relu,一...

2019-07-18 01:50:17 256

原创 面试可能会遇到的有难度的问题

SVM,CART,adaboost,xgboost,FM公式推导,xgboost为什么比GBDT快,GBDT的并行化体现在什么步骤中采样方法,MCMC采样 描述一下easyensemble有空试一下经典算法的tf实现(svm,lr,)降维算法,PCA和LDA特征选择的方法,过滤式,包裹式,嵌入式低秩矩阵(矩阵的有效线性方程组的数量远小于矩阵的行数),低秩矩阵不一定稀疏,稀疏矩阵也不一定...

2019-07-18 01:49:29 120

原创 2019美团-机器学习与数据挖掘实习生

总共三面,一面1h,二面1h,三面30min一面:自我介绍简历中的项目一:深度学习项目balabala,具体怎么实现的,达到了什么样的指标,为什么这么做项目一:以往大家都是怎么做的,你有什么创新?答:最开始是北交大提出来的,南洋理工也做过相关研究,但是用的都是BP,没有反映出来很好的相关性,15年西南交大的写了一篇用了CNN,但是没有用到Inception和BNBN的作用?简历中的项...

2019-06-13 17:06:02 260

原创 2019字节跳动夏令营算法——第一次 回忆版

2个半小时,四个编程题,总结一下:第一题给定一个序列s,从序列中找出两个数,使得s[i]+i+s[j]-i最大,其中j>i思路:没什么说的,经典的dp问题而已,找到包含第i个值的最大,然后最后再判断一下,见leetcodedef find(jdlist): length=len(jdlist) reslist=[None]*length res=0 r...

2019-06-01 16:41:48 1257 1

转载 hadoop平台搭建

hadoop平台搭建想想之前在本地机上搭建了Hadoop用了好久,这次给记录下来另外对原帖中的内容做部分补充:原帖忘记修改Hadoop环境变量了!这个很要命,搭建完记得vim /etc/profile一下,加入以下内容export HADOOP_HOME=你的hadoop目录export PATH=$PATH:$HADOOP_HOME不要装到root账户…特别强调不要用精简版,...

2019-05-18 20:01:09 139

原创 CS231n-CNN部分重点汇总

有空还是多看看CS231n,里面学生问的问题其实跟面试官问的问题大差不差,挺有意思的Neural Network常用的激活函数CNN卷积和池化cnn中卷积层的前几层一般代表了一些低阶的图像特征(边缘),中间层可以得到一些边角和斑点的特征Sizeoutput=(Sizeinput−Sizekernel+2×padding)/stride+1Size_{output}=(Size_{i...

2019-05-17 22:17:49 407

原创 更新两家笔试编程题(华为/360企业安全)

360企业安全笔试第一题求一组序列的最大公约数def gys(a): res_a=[] for i in range(1,a+1): if a%i==0: res_a.append(i) return res_adef maxgys(a,b): res_a=gys(a) res_b=gys(b) res...

2019-05-16 15:28:07 233

原创 机器学习常见算法汇总

文章目录线性模型1. 线性回归2.逻辑回归3. 正则化4. FM,FFM,DeepFMLR&PLOY2FMFFM决策树1.常用的几种树模型2.剪枝策略3. 缺失值的处理4.总结支持向量机1.线性可分SVM2.线性SVM3.非线性可分SVM4. Hinge损失函数与结构风险最小化贝叶斯理论集成学习bagging和boostingboostingAdaboostGBDTXgboost,Ligh...

2019-05-16 15:18:27 466

原创 机器学习优化评估方法(随时更)

文章目录定义基本数学概念1. 极大似然估计(MLE),最大后验概率(MAP),最小二乘法,EM2. 优化方法汇总(GD家族,一阶导数)3.优化方法汇总(Newton家族,二阶导数)4.距离的度量特征工程1. 特征选择2. 正负样本不均衡3. 特征组合模型评估1. 评估方法:2. 回归和分类问题的性能度量3.P-R,ROC,AUC4. 偏差与方差5. 过拟合和欠拟合调参方法定义属性空间:所有...

2019-05-16 15:11:14 580

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除