求职准备知识点

最新推荐文章于 2022-08-31 19:02:44 发布

凭轩听雨199407

最新推荐文章于 2022-08-31 19:02:44 发布

阅读量835

点赞数 1

分类专栏：学习文章标签：机器学习算法线性代数

本文链接：https://blog.csdn.net/weixin_46870583/article/details/121530715

版权

学习专栏收录该内容

45 篇文章 0 订阅

订阅专栏

一、PLR：

时间序列中特征提取的方法, 将其总结为四大类, 它们分别是基于基本统计方法的特征提取、基于模型的特征提取、基于变换的特征提取、基于分形维数的特征提取。

时间序列表示方法包括ＰＡＡ（分段聚合近似），ＰＬＲ（分段线性表示），ＳＡＸ（符号化聚合近似），基于模型的表示方法，以及基于变换的表示方法等。

四、全局算法
1、自顶向下TD算法：
时间序列的开始点和结束点，是首先选中的分段点。然后，遍历两点之间的所有点，找出和这两点连成的直线距离最大的点，如果这个点到直线的距离“大于”预先给定的阀值，我们将其称为R，则将它作为第三个分段点。这样我们就有了两个线段，做了最初步的划分。
之后，这个新增点到左边相邻点和右边相邻点构成的两条线段，继续寻找距离最大的点，然后，找到的两个点，谁与相应的线段距离最大，且这个距离“大于”阀值R，则该点作为第四个分段点….如此循环，直到再也找不到距离大于R的点，分段完成。
这个阀值，也就是点到线段的距离，可以使用正交距离(原始点和分段线段在该点的值的差的绝对值)、垂直距离(原始点到分段线段的直线的长度）和欧式距离，当然也可以设置其他的特性作为阀值，比如拟合误差、又比如弧度、角度、余弦等，由此可以引申很多种不同的算法。我们一般选择垂直距离就行了。
这个阀值不太好理解，且与不同的时间序列具体取值有关，直接应用完全没有通用性。
2、自底向上BU算法：
这是TD算法的逆过程，首先将时间序列，划分为相邻点的短序列，当然此时的拟合误差为0，因为第一点和第二点的连线，原始点都落在线段上。将相邻两个线段连接起来，此时每条线段包含三个原始点，计算中间那个点的拟合误差。这样，所有这些三个点的线段中的中间点的拟合误差计算出来后，找出误差最小且误差小于阀值R的分段，作为第一条包含三个点的线段。
在上面的基础上，第一条分段同样的和相邻线段连接，然后计算每一条分段的拟合误差，再找出误差最小且小于阀值R的分段，作为第二个分段。
依次方式循环，直到所有分段的拟合误差都小于阀值R，分段结束。
当然，你同样可以使用正交距离、垂直距离等其他属性，由此算法又演变成多种不同的算法。

二、DTW

https://zhuanlan.zhihu.com/p/69170491

DTW（dynamic time warping）动态时间规整：解决图形平移的问题

DTW的根本任务就是将点进行正确的对应

DTW认为，如果两个序列的点正确对应了，那么他们的距离（欧式距离）达到最小。

https://blog.csdn.net/zouxy09/article/details/9140207

三、LSTM GRU

花书：
https://zh.d2l.ai/index.html
https://www.jianshu.com/p/f3bde26febed/
https://blog.csdn.net/zhaojc1995/article/details/80572098

四、ARIMA（p,d,q）

在这里插入图片描述
3个关键参数：
d–差分阶数，使序列平稳化，一般1阶即可。
p–自回归项，根据PACF确定，衰减趋于0
q–滑动平均项数，根据ACF确定，衰减趋于0。

ARIMA：autoregressive integrated moving average model
ACF（自相关函数）
PACF（偏自相关函数）
AIC：akaike information criterion
BIC：bayesian information criterion
时间序列分析的主要目的是根据已有的历史数据对未来进行预测。

https://www.cnblogs.com/bradleon/p/6827109.html
原理：
自回归模型描述当前值与历史值之间的关系，用变量自身的历史时间数据对自身进行预测。自回归模型必须满足平稳性。自回归模型需要先确定一个阶数p，表示用几期的历史值来预测当前值。
移动平均模型关注的自回归模型中的误差项的累加。移动平均模型能有效地消除预测中的随机波动。

拖尾截尾：
给定epsilon，若存在一个t*，使得t>t*时 value< epsilon，则为截尾；否则为拖尾。
https://blog.csdn.net/weixin_42462804/article/details/104719919
拖尾是缓慢下降的，截尾是从0开始突然下降。
以图说明：
在这里插入图片描述

五、XGB

有标签情况下的分类
https://zhuanlan.zhihu.com/p/82521899
https://www.cnblogs.com/mantch/p/11164221.html
GBDT:
https://www.cnblogs.com/bnuvincent/p/9693190.html
bagging和boosting区别：
https://www.cnblogs.com/onemorepoint/p/9264782.html

六、DBSCAN

density-based spatial clustering of applications with noise
基于密度的离群检测方法
距离阈值 Eps，邻域样本数阈值 MinPts
eps调参：找k距离曲线的拐点（某一点P的k距离（k-distance）很容易解释，就是点P和距离点P第k近的点之间距离，但不包括P。）
调参方法：
https://askdatascience.com/646/dbscan-algorithm-how-should-choose-optimal-minimum-points
看效果根据轮廓系数
聚类不具有可解释性，一般是用于剔除异常点，作为下一步数据分析的前置处理过程。

七、LOF

Local Outlier Factor，基于距离的离群检测方法。
https://www.cnblogs.com/bigmonkey/p/11052019.html
LOF越大，此点越可能是异常点。

八、Isolation Forest

孤⽴森林（Isolation Forest）算法是周志华教授等⼈于2008年提出的异常检测算法，是机器学习中少⻅的专⻔针对异常检测设计的算法之⼀，⽅法因为该算法时间效率⾼，能有效处理⾼维数据和海量数据，⽆须标注样本，在⼯业界应⽤⼴泛。
孤⽴森林属于⾮参数和⽆监督的算法，既不需要定义数学模型也不需要训练数据有标签。孤⽴森林查找孤⽴点的策略⾮常⾼效。假设我们⽤⼀个随机超平⾯来切割数据空间，切⼀次可以⽣成两个⼦空间。然后我们继续⽤随机超平⾯来切割每个⼦空间并循环，直到每个⼦空间只有⼀个数据点为⽌。直观上来讲，那些具有⾼密度的簇需要被切很多次才会将其分离，而那些低密度的点很快就被单独分配到⼀个⼦
空间了。孤⽴森林认为这些很快被孤⽴的点就是异常点。
怎么来切这个数据空间是孤⽴森林的核⼼思想。孤⽴森林由t棵孤⽴的数组成，每棵树都是⼀个随机⼆叉树，也就是说对于树中的每个节点，要么有两个孩⼦节点，要么⼀个孩⼦节点都没有。
孤⽴森林检测异常的假设是：异常点⼀般都是⾮常稀有的，在树中会很快被划分到叶⼦节点，因此可以⽤叶⼦节点到根节点的路径⻓度来判断⼀条记录是否是异常的。和随机森林类似，孤⽴森林也是采⽤构造好的所有树的平均结果形成最终结果的。在训练时，每棵树的训练样本是随机抽样的。从孤⽴森林的树的构造过程看，它不需要知道样本的标签，而是通过阈值来判断样本是否异常。因为异常点的路径⽐较短，正常点的路径⽐较⻓，孤⽴森林根据路径⻓度来估计每个样本点的异常程度。

回归问题评价指标：
MSE越小越好
RMSE越小越好
MAPE越小越好
r2越趋向于1越好
分类问题的评价指标
查准率，查全率，F1-score
https://blog.csdn.net/qq_35482604/article/details/106954806

凭轩听雨199407

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
3
评论
求职准备知识点

一、PLR：时间序列中特征提取的方法, 将其总结为四大类, 它们分别是基于基本统计方法的特征提取、基于模型的特征提取、基于变换的特征提取、基于分形维数的特征提取。时间序列表示方法包括ＰＡＡ（分段聚合近似），ＰＬＲ（分段线性表示），ＳＡＸ（符号化聚合近似），基于模型的表示方法，以及基于变换的表示方法等。四、全局算法1、自顶向下TD算法：时间序列的开始点和结束点，是首先选中的分段点。然后，遍历两点之间的所有点，找出和这两点连成的直线距离最大的点，如果这个点到直线的距离“大于”预先给定的阀值，我们将其称
复制链接

扫一扫