1、时间序列模型中,AR、MA、ARMA、GARCH中GARCH是广义回归模型,对误差的方差进行建模,适用于波动性分析和预测。
2、对问题的解空间树进行搜索时,能使一个节点能有多次机会成为活节点的方法是:回溯法。
3、分类方法从技术上可以分为:规则归纳法、贝叶斯方法、决策树方法、基于距离的分类方法。
4、LR中如果同时加入L1和L2范数,产生的作用是:可以做特征选择,也可以在一定程度上防止过拟合。原因:L1–LASSO 可以产生稀疏解,用于做特征选择;L2–Ridge 约束模型参数,防止过拟合,另外,L2可以得到平滑的权值。
5、svm高斯核函数比线性核函数模型更复杂,容易过拟合 。
6、KNN算法适用于样本数量较少,典型性好的数据。(因为KNN每次需要计算样本间的距离,故样本数越少越好),所有分类方法都希望数据的典型性好。
7、机器学习中核函数的作用主要是将高维空间m的内积运算转化为低维空间的运算,通常用来解决在高维特征空间中计算复杂的分类或回归的"维数灾难"等问题。常见的方法:SVM、LDA(线性核)、径向核函数(RBF)等。
8、SPSS的主窗口是数据编辑窗口。
9、关于序列模式挖掘算法:
- Apriori算法 :关联分析原始算法,用于从候选项集中发现频繁项集。两个步骤:进行自连接、进行剪枝。缺点:无时序先后性。
AprioriAll算法:AprioriAll算法与Apriori算法的执行过程是一样的,不同点在于候选集的产生,需要区分最后两个元素的前后。
AprioriSome算法:可以看做是AprioriAll算法的改进
AprioriAll算法和AprioriSome算法的比较:
(1)AprioriAll用 去计算出所有的候选Ck,而AprioriSome会直接用 去计算所有的候选 ,因为 包含 ,所以AprioriSome会产生比较多的候选。
(2)虽然AprioriSome跳跃式计算候选,但因为它所产生的候选比较多,可能在回溯阶段前就占满内存。
(3)如果内存占满了,AprioriSome就会被迫去计算最后一组的候选。
(4)对于较低的支持度,有较长的大序列,AprioriSome算法要好些。 - GPS算法:类Apriori算法。用于从候选项集中发现具有时序先后性的频繁项集。两个步骤:进行自连接、进行剪枝。缺点:每次计算支持度,都需要扫描全部数据集;对序列模式很长的情况,由于其对应的短的序列模式规模太大,算法很难处理。
- SPADE算法:改进的GPS算法,规避多次对数据集D进行全表扫描的问题。与GSP算法大体相同,多了一个ID_LIST记录,使得每一次的ID_LIST根据上一次的ID_LIST得到(从而得到支持度)。而ID_LIST的规模是随着剪枝的不断进行而缩小的。所以也就解决了GSP算法多次扫描数据集D问题。