机器学习易错点总结

1、时间序列模型中,AR、MA、ARMA、GARCH中GARCH是广义回归模型,对误差的方差进行建模,适用于波动性分析和预测。

2、对问题的解空间树进行搜索时,能使一个节点能有多次机会成为活节点的方法是:回溯法。

3、分类方法从技术上可以分为:规则归纳法、贝叶斯方法、决策树方法、基于距离的分类方法。

4、LR中如果同时加入L1和L2范数,产生的作用是:可以做特征选择,也可以在一定程度上防止过拟合。原因:L1–LASSO 可以产生稀疏解,用于做特征选择;L2–Ridge 约束模型参数,防止过拟合,另外,L2可以得到平滑的权值。

5、svm高斯核函数比线性核函数模型更复杂,容易过拟合 。

6、KNN算法适用于样本数量较少,典型性好的数据。(因为KNN每次需要计算样本间的距离,故样本数越少越好),所有分类方法都希望数据的典型性好。

7、机器学习中核函数的作用主要是将高维空间m的内积运算转化为低维空间的运算,通常用来解决在高维特征空间中计算复杂的分类或回归的"维数灾难"等问题。常见的方法:SVM、LDA(线性核)、径向核函数(RBF)等。

8、SPSS的主窗口是数据编辑窗口。

9、关于序列模式挖掘算法:

  1. Apriori算法 :关联分析原始算法,用于从候选项集中发现频繁项集。两个步骤:进行自连接、进行剪枝。缺点:无时序先后性。
    AprioriAll算法:AprioriAll算法与Apriori算法的执行过程是一样的,不同点在于候选集的产生,需要区分最后两个元素的前后。
    AprioriSome算法:可以看做是AprioriAll算法的改进
    AprioriAll算法和AprioriSome算法的比较:
    (1)AprioriAll用 去计算出所有的候选Ck,而AprioriSome会直接用 去计算所有的候选 ,因为 包含 ,所以AprioriSome会产生比较多的候选。
    (2)虽然AprioriSome跳跃式计算候选,但因为它所产生的候选比较多,可能在回溯阶段前就占满内存。
    (3)如果内存占满了,AprioriSome就会被迫去计算最后一组的候选。
    (4)对于较低的支持度,有较长的大序列,AprioriSome算法要好些。
  2. GPS算法:类Apriori算法。用于从候选项集中发现具有时序先后性的频繁项集。两个步骤:进行自连接、进行剪枝。缺点:每次计算支持度,都需要扫描全部数据集;对序列模式很长的情况,由于其对应的短的序列模式规模太大,算法很难处理。
  3. SPADE算法:改进的GPS算法,规避多次对数据集D进行全表扫描的问题。与GSP算法大体相同,多了一个ID_LIST记录,使得每一次的ID_LIST根据上一次的ID_LIST得到(从而得到支持度)。而ID_LIST的规模是随着剪枝的不断进行而缩小的。所以也就解决了GSP算法多次扫描数据集D问题。
  4. FreeSpan算法:即频繁模式投影的序列模式挖掘。核心思想是分治算法。基本思想为:利用频繁项递归地将序列数据库投影到更小的投影数据库集中,在每个投影数据库中生成子序列片断。这一过程对数据和待检验的频繁模式集进行了分割,并且将每一次检验限制在与其相符合的更小的投影数据库中。
    优点:减少产生候选序列所需的开销。缺点:可能会产生许多投影数据库,开销很大,会产生很多的
  5. PrefixSpan 算法:从FreeSpan中推导演化而来的。收缩速度比FreeSpan还要更快些。

10、SVM本身对噪声具有一定的鲁棒性,但实验证明,是当噪声率低于一定水平的噪声对SVM没有太大影响,但随着噪声率的不断增加,分类器的识别率会降低。 对来自其它样本的噪声就不具备鲁棒性了。

11、处理缺失值的方法:估算、变量删除、成对删除、整例删除。

12、统计模式识别分类时,当先验概率未知时,可以使用的方法有:N-P判决、最小最大损失准则。
最小损失准则中需要用到先验概率;
最大最小损失规则主要就是使用解决最小损失规则时先验概率未知或难以计算的问题的。
最小误判概率准则, 就是判断p(w1|x)和p(w2|x)哪个大,x为特征向量,w1和w2为两分类,根据贝叶斯公式,需要用到先验知识 ;
N-P判决,即限定一类错误率条件下使另一类错误率为最小的两类别决策,即在一类错误率固定的条件下,求另一类错误率的极小值的问题,直接计算p(x|w1)和p(x|w2)的比值,不需要用到贝叶斯公式。

13、基于二次准则函数的H-K算法较之于感知器算法的优点:可以判别问题是否线性可分,解的适应性更好。

14、当使用梯度下降法求解时,归一化就非常重要,因为在寻求最优解时很可能走“之”字形,导致迭代多次才能收敛,归一化能够提高收敛的速度。使用梯度下降法求解最优解的模型,归一化就非常重要!knn,logistc回归, gbdt, xgboost, adaboost等。另外,对于需要算距离的算法,量纲对模型影响较大,也需要归一化处理。如,knn,svm,kmeans,k近邻,主成分分析等。对于决策树和随即森林不关心变量的值,无需归一化处理。

15、K-L变换的变换矩阵可以有很多种(二阶矩阵、协方差矩阵、总类内离散度矩阵等等)。当K-L变换矩阵为协方差矩阵时,等同于PCA。

16、 伪逆法:径向基(RBF)神经网络的训练算法,径向基解决的就是线性不可分的情况。
感知器算法:线性分类模型。
H-K算法:在最小均方误差准则下求得权矢量,二次准则解决非线性问题。
势函数法:势函数非线性。

17、隐马尔可夫模型三个基本问题以及相应的算法:
评估问题: 前向算法。即给定一个模型,求某特定观测序列的概率,用于评估该序列最匹配的模型。
解码问题: Viterbi算法。解决的是给定 一个模型和某个特定的输出序列,求最可能产生这个输出的状态序列。是预测问题,通信中的解码问题。
学习问题: Baum-Welch算法(向前向后算法) 。解决的是一个模型训练问题,即参数估计,是一种无监督的训练方法,主要通过EM迭代实现;
最后可以用极大似然估计来估计参数。

18、线性分类器有三大类:感知器准则函数、SVM、Fisher准则。

19、一元线性回归的基本假设有:
1、随机误差项是一个期望值或平均值为0的随机变量;
2、对于解释变量的所有观测值,随机误差项有相同的方差;
3、随机误差项彼此不相关;
4、解释变量是确定性变量,不是随机变量,与随机误差项彼此之间相互独立;
5、解释变量之间不存在精确的(完全的)线性关系,即解释变量的样本观测值矩阵是满秩矩阵;
6、随机误差项服从正态分布

违背基本假设的计量经济学模型还是可以估计的,只是不能使用普通最小二乘法进行估计。
当存在异方差时,普通最小二乘法估计存在以下问题: 参数估计值虽然是无偏的,但不是最小方差线性无偏估计。

杜宾-瓦特森(DW)检验,计量经济,统计分析中常用的一种检验序列一阶 自相关 最常用的方法。

所谓多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。影响
(1)完全共线性下参数估计量不存在
(2)近似共线性下OLS估计量非有效
多重共线性使参数估计值的方差增大,1/(1-r2)为方差膨胀因子(Variance Inflation Factor, VIF)
(3)参数估计量经济含义不合理
(4)变量的显著性检验失去意义,可能将重要的解释变量排除在模型之外
(5)模型的预测功能失效。变大的方差容易使区间预测的“区间”变大,使预测失去意义。

20、K-Means的主要优点有:①原理比较简单,实现也是很容易,收敛速度快。②聚类效果较优。③算法的可解释度比较强。④主要需要调参的参数仅仅是簇数k。K-Means的主要缺点有:①K值的选取不好把握②对于不是凸的数据集比较难收敛③如果各隐含类别的数据不平衡,比如各隐含类别的数据量严重失衡,或者各隐含类别的方差不同,则聚类效果不佳。④采用迭代方法,得到的结果只是局部最优。⑤对噪音和异常点比较的敏感。

21、CRF 的优点:特征灵活,可以容纳较多的上下文信息,能够做到全局最优
CRF 的缺点:速度慢

22、均值移动(Mean Shift)算法的核心思想是:找到概率密度梯度为零的采样点,并以此作为特征空间聚类的模式点。

23、
插入排序:第n趟前n+1个有序
选择排序:第n趟前n个位置正确
快速排序:第n趟有n个元素位置正确
堆排序:第n趟前或后n个位置正确

24、 nohup (no hang up)命令
用途:不挂断地运行命令。
例子: nohup sh example.sh &
要运行后台中的 nohup 命令,添加 & ( 表示”and”的符号)到命令的尾部。

25、截取logfile文件中含有suc的行,并且只输出最后一列
grep ‘suc’ logfile | awk ‘{print $NF}’

26、 DDL语法:
创建:create
删除:drop
修改:alter
修改表名:rename table 旧表名 to 新表名

27、最小二乘估计是线性无偏估计中方差最小的.
28、E(x*x)=var(x)+E(x)^2
29、Hbase是一个面向列分布式数据库,和hive不同的是,hbase能够在它的数据库上实时运行,而不是运行mapreduce任务

30、大表1000万条数据, 小表1000条数据, 为提高查询效率两行表关联时通常做法是:大表在前。

31、 反映偏态分布的集中趋势往往用中位数,
反映正态分布的集中趋势往往用均值

32、二叉树,先序和中序可以唯一推后序;后序和中序可以唯一推先序,但先序和后序无法唯一推中序

京东数分 错题:
1、增量模型是把待开发的软件系统模块化,将每个模块作为一个增量组件,从而分批次地分析、设计、编码和测试这些增量组件。它属于非整体开发模型。

2、TCP协议:
是面向连接的运输层协议;
每一条TCP连接只能有两个端点(endpoint),点对点。(不能提供多项服务)
TCP提供可靠交付的服务。无差错、不丢失、不重复,并且按序到达。
TCP首部开销会大;UDP协议只是尽最大努力交付,UDP的首部开销小
双向通信,面向字节流。

3、shell 命令
export: 设置环境变量
echo:查看是否成功
env:显示所有的环境变量
set:显示所有本地定义的Shell变量
unset:清除环境变量

4、数据库事务的四大属性:原子性、一致性、隔离性、持久性

5、索引的特点:
创建索引的好处
(1)通过创建索引,可以在查询的过程中,提高系统的性能
(2)通过创建唯一性索引,可以保证数据库表中每一行数据的唯一性
(3)在使用分组和排序子句进行数据检索时,可以减少查询中分组和排序的时间
(4)加速表之间的连接
创建索引的坏处
(1)创建索引和维护索引要耗费时间,而且时间随着数据量的增加而增大
(2)索引需要占用物理空间,如果要建立聚簇索引,所需要的空间会更大
(3)在对表中的数据进行增加删除和修改时需要耗费较多的时间,因为索引也要动态地维护

6、Linux的逻辑判断
-a,与 -o,或 |,非

rwx r=4,w=2,x=1

7、计算机存储容量:
UTF-8编码:一个英文字符等于一个字节,一个中文(含繁体)等于三个字节。中文标点占三个字节,英文标点占一个字节
Unicode编码:一个英文等于两个字节,一个中文(含繁体)等于两个字节。中文标点占两个字节,英文标点占两个字节

8、分类方法:
从使用技术上来分,可以分为四种类型:基于距离的分类方法、决策树分类方法、贝叶斯分类方法和规则归纳方法。基于距离的分类方法主要有最邻近方法;决策树方法有ID3、C4.5、VFDT等;贝叶斯方法包括朴素贝叶斯方法和EM算法;规则归纳方法包括AQ算法、CN2算法和FOIL算法

9、一元正态分布的异常点检测方法属于基于统计方法的离群点检测

10、Linux 线程与进程
线程拥有很少的资源,但可以使用进程的资源
由于同一进程中的多个线程具有相同的地址空间,所以它们间的同步和通信也易于实现
进程创建与线程创建的时空开销不相同

在这里插入图片描述

11、线性判别分析LDA是一种监督学习的降维技术,但主题LDA是属于无监督的。

12、HTTP:
POST方式比GET更安全;
POST方式和GET请求提交参数都有长度限制

13、 基于内存的协同过滤(基于用户的协同过滤推荐、基于物品的协同过滤推荐)一般在数据量较小的应用场景下,可以直接在线使用的实时推荐方法;
基于模型的协同过滤推荐一般用于离线计算,它采用机器学习的方法,一般首相将用户偏好行为数据分成2个数据集(有时可能会将数据集分成k个子集,采用交叉验证的方式来提高模型精度),一个为训练集,一个为测试集,使用训练集数据来训练出推荐模型,然后使用测试集数据来评估模型的精度,当满足特定精度时,可以将得到的推荐模型应用于实际线上环境。

14、二项分布是一种离散概率分布,表示在n次伯努利试验中,有k次成功的概率
当n很大时候,二项分布可以用泊松分布和高斯分布逼近

15、AAT=I,则A为正交矩阵

16、用浏览器访问www.jd.com时,可能使用到的协议有:MAC、HTTP、ARP

17、如何在多线程中避免发生死锁?
允许进程同时访问某些资源;
允许进程强行从占有者那里夺取某些资源;
进程在运行前一次性地向系统申请它所需要的全部资源;
把资源事先分类编号,按号分配,使进程在申请,占用资源时不会形成环路。

18、能用递推的话就用递推, 一般肯定要比递归快。递归会占用较多的资源

19、运算级别: 函数运算、算数运算、关系运算、逻辑运算

20、位势函数法的积累势函数K(x)的作用相当于Bayes判决中的 后验概率

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值