野生胡萝卜-CSDN博客

原创处理Excel表不等长时间序列用tsfresh提取时序特征

要把excel表数据读取出来之后转换成extract_features需要的格式。我原本的时间序列格式是excel表记录的，每一行是一条时间序列，时间序列不等长。2.把dataframe数据格式转换成extract_features需要的格式。3.接下来就可以直接调用extract_features函数了。1.读取excel表数据。

2025-04-11 15:26:34 373

原创床长人工智能教程

之前买过床长人工智能教程，把前面的人工智能基础学习完之后，想继续学习实战优化等，提示说在自己的网站上可以免费学习终身，但是高级班网址http://captainbed.top一直打不开，请问有UU遇见过这个问题吗，怎么解决的呢，谢谢。

2024-04-07 11:17:56 585 8

原创 python处理PDF-通过关键词定位-截取PDF中的图表

调试代码

2023-03-06 15:02:34 2090 3

细致说明参考文章Python下使用sklearn绘制ROC曲线（超详细）但是对原文中的代码关于 y_score的用法存疑，原文中直接把预测值作为y_score来用，但是y_score的解释是模型预测的类别概率值，希望大神指教。针对原文中代码，做了以下几个调整：1.将原类别值+1我本来的类别是[0,1,0…,1]这样的组合，但是在调试过程中，发现始终会提示“UndefinedMetricWarning: No positive samples in y_true, true positive valu

2021-05-24 21:21:46 2155 1

原创 python实现中文文本分类(三）贝叶斯分类器

中文文本分类的步骤：1.预处理：去除文本的噪声信息，例如HTML标签、文本格式转换、检测句子边界等。2.中文分词：使用中文分词器为文本分词，并去除停用词。3.构建词向量空间：统计文本词频，生成文本的词向量空间。4.权重策略——TF-IDF方法：使用TF-IDF发现特征词，并抽取为反映文档主题的特征。5.分类器：使用算法训练分类器。6.评价分类结果：分类器的测试结果分析。本文选择朴素贝叶斯算法进行文本分类，测试集随机抽取自文档集合，每个分类取10个文档，过滤掉1kb以下的文档。先建立测试集的向

2021-03-28 19:20:03 2012 1

原创 python实现中文文本分类(二）TF-IDF权重策略

中文文本分类的步骤：1.预处理：去除文本的噪声信息，例如HTML标签、文本格式转换、检测句子边界等。2.中文分词：使用中文分词器为文本分词，并去除停用词。3.构建词向量空间：统计文本词频，生成文本的词向量空间。4.权重策略——TF-IDF方法：使用TF-IDF发现特征词，并抽取为反映文档主题的特征。5.分类器：使用算法训练分类器。6.评价分类结果：分类器的测试结果分析。向量空间模型把文本表示为一个向量，该向量的每个特征表示为文本中出现的词，把训练集中出现的每个不同的字符串都作为一个维度，包括常

2021-03-28 17:42:15 3999

原创 python实现中文文本分类(一）jieba分词

中文文本分类的步骤：1.预处理：去除文本的噪声信息，例如HTML标签、文本格式转换、检测句子边界等。2.中文分词：使用中文分词器为文本分词，并去除停用词。3.构建词向量空间：统计文本词频，生成文本的词向量空间。4.权重策略——TF-IDF方法：使用TF-IDF发现特征词，并抽取为反映文档主题的特征。5.分类器：使用算法训练分类器。6.评价分类结果：分类器的测试结果分析。中文分词是将一个汉字序列切分成单独的词。jieba是专门使用python语言开发的分词系统，占用资源较小，常识类文档的分词精度

2021-03-28 16:16:28 9797 1

原创 PyEMD安装问题及无法导包问题的解决

首先区分清楚PyEMD 和pyemd的区别。前者是经验模态分解，后者是地球移动距离（earth move distance）。安装之前先用 pip list查看一下是否已经有emd，emd-signal，pyemd包的存在，如果存在要先移除。然后直接用 pip install EMD-signal命令就可以安装好PyEMD，不用去安装其他什么。现在再导入就没问题了。注意，导入的时候不是from pyemd install emd，而是 from PyEMD import EMD ,EEMD...

2021-03-12 16:03:10 7975 17

原创结构VAR模型的线性广义条件独立图

对结构VAR模型中不同时刻随机变量建立有向非循环图（DAG），要检验随机变量之间的条件独立性，然后再对存在的相依联系确定方向。1.线性结构VAR模型和线性广义条件独立图的定义根据DAG的定义，并不是所有的VAR模型的因果相依联系都可以用DAG表示，首先提出线性结构VAR模型的定义。设Xt\mathbf{X}_{t}Xt是一个k维时间序列，et\mathbf{e}_{t}et是一个k维白噪声序列。线性结构VAR模型设k维时间序列{Xi,t,t∈Z}(i=1,2,...,k)\left \{ X_{

2020-12-24 22:02:50 583

原创时间序列建立图模型（四）

多维非线性时间序列的条件互信息图模型1.多维非线性时间序列条件互信息图的定义用顶点表示分量序列，用顶点之间的边表示分量序列间存在的相依联系。设Xt=(X1,t,X2,t,...,Xk,t)(t∈Z)X_{t}=(X_{1,t} , X_{2,t},...,X_{k,t})(t\in Z)Xt=(X1,t,X2,t,...,Xk,t)(t∈Z)为一个k维时间序列，表示XtX_{t}Xt各分量序列之间存在的相依联系的图G=(V,E)G=(V,E)G=(V,E)由顶点集V=(1,2,...,k)V=

2020-12-21 20:20:02 608

原创时间序列建立图模型（三）

多维时间序列图模型涉及时间序列之间复杂的直接和间接相依联系，因此成对的独立性检验不能满足要求，用于度量条件独立性更合适的统计量是条件互信息。本节主要介绍检验非线性时间序列相依联系的条件互信息统计量及其性质。1.非线性时间序列相依联系的条件互信息检验方法要建立观测数据的图模型，一个重要步骤是检验图中的边所表示的独立性。要利用时间序列图模型对数据进行分析，需要先建立当前变量XtX_{t}Xt对滞后变量Xt−1,Xt−2,...,Xt−p,εt−1,εt−2,...,εt−qX_{t-1},X_{t-2}

2020-12-21 15:30:47 931

原创时间序列建立图模型（二）

1.Lasso方法的定义Lasso方法是指将最小二乘法的损失函数与ℓ1\ell _{1}ℓ1范数相结合，即对回归系数的绝对值之和施加约束。与最小二乘法相比，ℓ1\ell _{1}ℓ1范数所添加的约束可以收缩系数，甚至可以迅速使系数为0，在参数估计的同时实现了模型选择，因此Lasso方法为线性回归提供了一种自动选择模型的方法，并且该方法得到的优化问题是凸的，从而能够有效地解决大规模数据处理的问题。设有n对观测数据(xi,yi)(x_{i},y_{i})(xi,yi)，其中xi=(xi1,xi2,.

2020-12-20 22:49:03 782 1

原创时间序列建立图模型（一）

由时间序列建立图模型，首先要检验顶点表示的变量（或序列）之间的各种相依联系，即对时间序列做独立性检验。目前信息论中的熵度量方法由于能够捕捉时间序列中的相依联系，且不需要对数据产生过程进行严格的参数假设，因此成为研究热点。1.Shannon熵和互信息设连续型随机变量￥...

2020-12-19 21:02:50 1302 1

原创结构VAR模型和图表示

1.结构向量自回归VAR (p)(p)(p)模型设平稳过程{Yt,t∈Z}\left \{ Y_{t},t\in Z \right \}{Yt,t∈Z}均值为0，对任意t，有Yt=A1Yt−1+A2Yt−2+...+ApYt−p+UtY_{t}=A_{1}Y_{t-1}+A_{2}Y_{t-2}+...+A_{p}Y_{t-p}+U_{t}Yt=A1Yt−1+A2Yt−2+...+ApYt−p+Ut其中，Yt=(Y1,t,Y2,t,...,YK,t),A1,A2,...,ApY_{t

2020-12-18 23:04:57 1676 1

原创多维时间序列的偏相关图

假设 {Yi,t,t∈Z}(i∈V)\left \{ Y_{i,t},t\in Z \right \} \left ( i\in V \right ){Yi,t,t∈Z}(i∈V)是一个K维时间序列，其中顶点集V={1,2,...,K}V=\left \{ 1,2,...,K \right \}V={1,2,...,K}。1.偏误差过程{Yj∣V∖{j,K},t}\left \{ Y_{j|V\setminus \left \{ j,K \right \}},t \right \}{Yj∣V∖{j,K

2020-12-18 21:36:07 563 1

原创数据集处理方法之多维时间序列篇

多维时间序列取出来的值是一个m*n的矩阵。以UCI数据集中RobotFailure为例，数据文件下载下来是这样的：其中每一段数据的第一行表示状态，其实也就是分类。每一列是一段时间序列，多段时间序列组成了MTS。具体的含义可以到官网上看。为了在接下来的程序中对这些时间序列进行聚类以及评估聚类效果，需要读取这些数据，并且将状态（分类）作为标签附在每一段数据上。鉴于标签和时间序列的格式不一致，本人采用了字典格式。具体代码如下：def seperate(infile): # 读取文件内容，鉴于lp1.d

2020-11-02 23:24:36 4696 2

原创【论文翻译】A Novel Method for Fast and Accurate Similarity Measure in Time Series Field

摘要相似度度量是时间序列数据挖掘中的核心问题。尽管大多数解决这个问题的方法已经开发出来，但是随着数据量的快速增长，我们认为支持快速和准确的相似性度量是一个具有挑战性的需求。本文提出了一种新的时间序列表示模型和相似度度量方法，该方法能够捕捉时间序列的主要趋势，实现快速的相似度检测。我们将新方法与最先进的时间序列相似方法和降维方法进行了比较。介绍时间序列数据挖掘是一个受到广泛关注的研究课题，其目的是发现时间序列数据中隐藏的模式。这类数据的来源非常广泛，包括语音识别[1]、金融和市场数据分析[2]、生物医学

2020-10-26 17:23:06 732

原创基于重要点的时间序列固定分段数分段算法

python代码：def CalculatePip(stpos, endpos, T): x1, y1 = stpos xn, yn = endpos total_err = 0 segpos = stpos for i in range(stpos[0]+1, endpos[0] - 1): xi = i yi = T[i] dis = abs((y1 + (yn - y1) * (xi - x1)) / (x...

2020-10-18 16:39:15 1532 5

原创时间序列数据的分段线性表示

本文思想来自：时间序列数据的分段线性表示PLR算法以拟合误差为阈值，会出现两类问题：采用累积误差进行分段的算法对短时间内大波动数据不敏感，分段效果差；采用平均误差的分段算法在遇到长时间小波动数据后，对明显状态变化处理不敏感，各个子序列的开始与结束时间不精确。即，由于采用累积误差或平均误差，对一些状态变化的拐点不敏感。伪代码：python代码：def Select_Important_Points(T, R): X = [] for i in range(0, len(T

2020-10-17 23:13:39 5125 4

原创一种优化的自底向上时间序列分段算法

文章思想来自：一种优化的自底向上时间序列分段算法经典自底向上算法的基本思想：将N个待分段的时间序列数据点两两连接，划分成不重合到的N/2个初始分段，并计算合并相邻段的拟合代价，即拟合误差。然后循环地从中选择拟合代价最小的，如果该最小值小于用户设定的分段阈值，则合并对应的两个相邻段，并重新计算合并的分段与它前后的分段的拟合代价。重复该过程，直到所有的拟合代价均不小于分段阈值，分段结束。**不足：**自底向上算法存在着偶数限制的不足，即算法要求待分段的数据点数为偶数个，初始分段长度为两个点，每次合并产生的分

2020-10-17 22:38:20 1822 1

原创时间序列分段法

文献参考：An Online Algorithm for Segmenting Time Series一、时间序列分段优点：时间序列分段是指将长度为n的时间序列T用K条直线来拟合。因为K通常比n小得多，这种表示方式使得数据的存储、传输和计算更加高效。具体来说，在数据挖掘中，分段算法可以:支持快速精确类似搜索；支持新的距离度量，包括模糊查询，加权查询，多分辨率查询，动态时间扭曲和相关性反馈等；支持并行挖掘文本和时间序列；支持新的聚类和分类算法；支持改变点检测二、分段算法总体思路给定一个

2020-10-17 21:53:45 18826 9

原创使用numpy.linalg中lstsq报warning解决方法

FutureWarning: rcond parameter will change to the default of machine precision times max(M, N) where M and N are the input matrix dimensions.To use the future default and silence this warning we advise to pass rcond=None, to keep using the old, explicitly

2020-10-14 22:12:34 2239

原创 python实现时间序列分段算法 [Time series Breakout Detection]

本文的算法来自时间序列分段算法 [Time series Breakout Detection]，最近在做相关研究，所以用python实现了该算法。该算法分为两步：单变量线性回归，用来拟合某一段时序。（其实就是用最小二乘法完成对曲线的拟合）动态规划算法，用来全局最大化断点检测效果。原文中的Loss函数就是先用最小二乘法对曲线进行拟合，然后返回了平方损失。最小二乘法的相关原理和公式可以参见最小二乘法小结，代码中采用的公式就是这篇文章中的。原文代码中的注释我认为是有问题的，但是有可能是我自己学

2020-10-13 23:23:08 4513 7

原创 python去掉 csv writerow方法中多余空行

添加参数lineterminator=’\nwriter = csv.writer(csvfile, lineterminator=’\n’)

2020-10-10 20:43:51 1785

原创 cvxpy没有semidefinite属性

cvxpy0.4.0版本的才有semidefinite属性，如果安装其他版本会报错。NameError: name ‘semidefinite’ is not defined 。但是semidefinite(n)返回的就是一个nxn的半正定变量，相当于对原来的变量作了一个半正定约束。而只要是实对称矩阵就是半正定矩阵，所以可以考虑用x = cvxpy.Variable((n,n),symmetric=True)来代替。...

2020-09-11 21:11:29 611

原创 snap中没有GenRndGnm的解决办法。

snap中没有GenRndGnm的解决办法。python3.7已经有对应的snap包，可以在https://snap.stanford.edu/snappy/release/上面下载相应的包，解压后运行 python setup.py install就可以安装。或者直接输入pip install snap-stanford命令行就可以，记住不是pip install snap。我是采用后一种方法安装成功的。如果import snap后，提示snap中没有GenRndGnm，那么检查已经安装的包中是否有s

2020-09-08 23:13:20 390

原创【论文翻译】Toeplitz Inverse Covariance-Based Clustering of Multivariate Time Series Data

摘要多元时间序列的子序列聚类是发现时态数据中重复模式的有用工具。一旦这些模式被发现，看似复杂的数据集就可以解释为仅有少量状态或集群的时间序列。例如，来自健身跟踪应用程序的原始传感器数据可以表示为选定的几个动作（即步行、坐着、跑步)的时间线。然而，发现这些模式是具有挑战性的，因为它需要同时分割和聚类时间序列。此外，解释由此产生的簇是困难的，特别是当数据是高维的。在这里，我们提出了一种新的基于模型的聚类方法，我们称之为TICC。在TICC方法中，每个集群都是由相关网络或马尔可夫随机场(MRF)定义的

2020-08-31 17:09:55 3162 3

原创【论文笔记】摘抄

基于矩阵特征向量计算谱聚类算法通过计算关系矩阵的前 k 个特征向量或奇异向量来得到 k 维的节点表示. 关系矩阵一般就是网络的邻接矩阵或者 Laplace 矩阵.基于谱聚类方法的时间复杂度较高, 因为特征向量和奇异向量的计算时间是非线性的. 另一方面, 谱聚类方法需要将关系矩阵整体存于内存之中, 所以空间复杂度也是不能忽略的. 局部线性表示 (locally linear embedd...

2020-01-05 11:13:13 525

原创【论文笔记】网络表征学习

论文来自：Network Representation Learning: A Survey 如下图所示，将网络表示学习分为两类，无监督网络表示学习和半监督网络表示学习，这取决于顶点标签是否可用于学习。对于每个组，进一步将方法分为两个子组，这取决于表示学习是否仅基于网络拓扑结构，还是由节点内容的信息增强。结构保留网络表示学习是指打算保留网络结构的方法，即在新的嵌入空间中应该类似地表示原始...

2020-01-04 22:45:28 455

原创【论文笔记】图嵌入：问题、技术和应用

论文原文：A Comprehensive Survey of Graph Embedding:Problems, Techniques and Applications图嵌入目的：图嵌入将图转换为保存图信息的低维空间。图表示学习和图嵌入的区别：图表示学习不要求学习的表示是低维的。输入图分为四类，包括齐次图、异构图、具有辅助信息的图和由非关系数据构造的图图嵌入输出分类，包括节点嵌入、边缘...

2020-01-03 17:08:49 1328

原创【论文笔记】图嵌入技术、应用和性能

摘要图结构在各种现实世界的应用中都是自然存在的，如社交网络、词同现网络和通信网络。分析它们可以深入了解社会结构、语言结构和不同的交流模式。目前已经提出了很多种分析方法。近年来，在向量空间中使用图节点表示的方法得到了研究界的广泛关注。在本文中，我们对文献中提出的各种图嵌入技术进行了全面、结构化的分析。我们首先介绍了嵌入任务及其面临的挑战，如可伸缩性、维度的选择、需要保留的特性以及它们可能的解决方...

2019-12-30 23:02:25 2789 1

原创 python提取一个文件夹中所有txt中的文字出现b‘+

在读取文件的时候没有办法设置编码格式，python报错，于是采用二进制方法读取。但是最后读取出的每一行数据都带有b’+，这是由于二进制格式造成的。一开始在写入文件时候设置了编码格式（即在代码17行加入），但是发现没有用。后来在每一句写入的时候修改编码格式（如下图，在20行写入），顺利解决问题。...

2019-12-12 15:00:16 1157

原创包装器简介

包装器定义：包装器是一个能够将数据从HTML网页中抽取出来，并且将他们还原为结构化的数据的软件程序。包装器归纳是基于有监督学习的，他从标注好的训练样例集合中学习数据抽取规则，用于从其他相同标记或相同网页模板抽取目标数据。1、网页清洗：有些网页结构不规范，例如前后标签不对称，没有结束标签符。不规范的网页结构容易在抽取的过程中抽取的过程中产生噪声。清洗可以用tidy来完成。2、网页标注：网页...

2019-09-14 23:49:24 3335

原创知识提取

知识提取的主要任务就是构建知识图以及生成图节点之间的关系，具体的子任务有：实体名提取、语义类提取、属性和属性值提取和关系抽取等。实体名提取也叫命名实体识别，语义类提取是指从文本中自动抽取信息来构造语义类并建立实体和语义类的关联。属性提取的任务是为每个语义类构造属性列表（如城市的属性包括面积、人口、所在国家等），而属性提取值则为一个语义类中所包含的实体（如北京）附加属性值（如其面积、人口、所在国家等...

2019-09-11 21:23:41 534

原创知识图谱简介

知识图谱：把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来，展现学科的核心结构、发展历史、前沿领域及整体知识框架。人的大脑依赖所学的知识进行思考、逻辑推理、理解语言，机器学习更多强调技术和算法，更多表现于基于大数据的学习能力，能够在视频、音频等各种形式的信息中表现出来很强的感知、识别、判断能力；知识图谱能提供更强大的推理能力，这种推理能力可能基于事先定义好的规则，也可能基于数...

2019-09-10 11:05:31 518

转载 CentOS7解决yum命令doesn't have enough cached

https://jingyan.baidu.com/article/574c52195030476c8d9dc1e3.html

2019-01-27 16:53:24 10278

原创 linux进程相关问题

放到后台运行的进程.1.将程序放到后台运行,以&结尾.$>nano b.txt &2.查看后台运行的jobs数$>jobs3.切换后台作业到前台来.$>fg %n //n是job编号.4.前台正在的进程，放到后台。ctrl + z5.让后作业运行$>bg %1 //6.杀死作业$>kill %1 //进程查看,prce...

2019-01-23 22:40:29 202

原创创建连接文件（学习笔记）

创建连接文件1.硬链接两个完全相同文件，类似于实时备份。两个文件之间完全同步。删除时，只删一个。目录不能使用硬链接。ln a.txt alink //a.txt:目标文件, alink:连接名称.2.符号连接相当于快捷方式.可以对文件，也可以对文件夹创建符号连接。符号连接存在的时候，可以删除目标文件。$>ln -s a.txt alink //a.txt: 目标文件...

2019-01-23 22:32:48 339

原创虚拟机增强工具

虚拟机增强工具1.原理插入iso(linux.iso)文件到光盘中。（该文件在VM安装目录下）2.vmware虚拟机菜单 -> 重新安装vmware-tools3.自动会将linux.iso镜像文件插入光驱中，并直接打开。4.复制VMwareTools-9.9.3-2759765.tar.gz文件到centos的桌面下。5.tar开该文件.鼠标右键点击桌面的tar.gz文件，选...

2019-01-23 22:17:24 583