- 博客(30)
- 收藏
- 关注
原创 神经网络 #数据挖掘 #Python
神经网络是一种受生物神经元系统启发的人工计算模型,用于模仿人脑的学习和决策过程。它由大量互相连接的节点(称为神经元)组成,这些节点处理和传递信息。神经网络通常包含输入层、隐藏层(可有多个)和输出层,每个层中的神经元之间通过权重相连。
2024-06-20 09:22:04 819
原创 聚类分析 #数据挖掘 #Python
K均值聚类是一种常用的无监督机器学习算法,用于数据分群。它的目标是将一组对象(通常称为数据点)划分为K个互不重叠的类别,每个类别由一个中心点(聚类中心)代表,目的是最小化所有数据点与其所属聚类中心的距离之和,通常采用欧几里得距离作为度量。
2024-06-18 15:44:37 1376
原创 集成学习 #数据挖掘 #Python
集成学习是一种机器学习方法,它通过结合多个模型的预测结果来提高整体性能和稳定性。这种方法的主要思想是“集合智慧”,通过将多个模型(比如决策树、随机森林、梯度提升机等)的预测集成起来,可以减少单个模型的过拟合风险,同时提高对未知数据的泛化能力。
2024-06-13 11:47:12 1192
原创 数据预处理 #数据挖掘 #python
数据分析中的预处理步骤是数据分析流程中的重要环节,它的目的是清洗、转换和整理原始数据,以便后续的分析能够准确、有效。预处理的质量直接影响到分析结果的可靠性。
2024-06-12 17:29:51 1323
原创 朴素贝叶斯分类器 #数据挖掘 #Python
朴素贝叶斯分类器是一种基于概率统计的简单但强大的机器学习算法,主要用于文本分类和垃圾邮件过滤等场景。它假设特征之间是相互独立的(“朴素”),尽管在现实世界中这通常不成立,但在许多情况下这种简化假设仍能提供良好的性能。
2024-06-12 17:25:18 1073
原创 决策树 #数据挖掘 #Python
决策树是一种常用的机器学习算法,它通过模拟人类做决策的过程,构建一棵树状模型来进行预测和分类。在每一步中,决策树会基于特征对数据集进行划分,形成一系列节点,直到达到某个停止条件,如达到最大深度或所有样本属于同一类别。
2024-06-12 17:14:49 1022
原创 SPSS之因子分析
因子分析是研究从变量群中提取共性因子的统计技术,这里的共性因子指的是不同变量之间内在的隐藏因子。因子分析的过程其实是寻找共性因子和个性因子并得到最优解释的过程。根据相关性大小把变量分组,使得同组内的变量之间相关性较高,但不同组的变量不相关或相关性较低,每组变量代表一个基本结构一即公共因子。
2024-05-27 11:15:26 1757
原创 SPSS之主成分分析
PCA主成分分析方法,是一种使用最广泛的数据降维算法。PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。
2024-05-09 16:30:28 4654 6
原创 SPSS之聚类分析
聚类就是一种寻找数据之间内在结构的技术。聚类把全体数据实例组织成一些相似组,而这些相似组被称作簇。处于相同簇中的数据实例彼此相同,处于不同簇中的实例彼此不同。聚类技术通常又被称为无监督学习,与监督学习不同的是,在簇中那些表示数据类别的分类或者分组信息是没有的。
2024-05-06 15:25:34 5991 1
原创 SPSS之判别分析
判别分析主要是针对有监督学习的分类问题。有监督学习是对具有标记的训练样本进行学习,以尽可能对训练样本集外的数据进行分类预测。也就是说:利用一组已知类别的样本,通过训练学习,得出一个分类器(最优的模型),再用这个分类器去判断未知类别样本是属于哪一类。
2024-04-29 10:48:20 2611 6
原创 SPSS之回归分析
在统计学中,回归分析指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。
2024-04-26 11:58:58 4465 1
原创 SPSS之方差分析
方差分析是一种重要的统计方法,在数据分析中发挥了重要作用。它可以帮助我们评估组间差异的显著性,并提供了一种有效的方式来比较多个样本均值之间的差异。通过合理应用方差分析,我们可以得出科学的结论,支持决策和实践。
2024-04-25 17:36:19 2291 3
原创 基于Python的十大经典排序算法
排序算法是计算机科学中非常重要的一部分,它们可以帮助我们快速、有效地对一组数据进行排序。十大经典排序算法包括冒泡排序、选择排序、插入排序、希尔排序、归并排序、快速排序、堆排序、计数排序、桶排序和基数排序。
2024-04-19 11:00:29 751
原创 ARMA模型的检验与优化 #时间序列分析 R语言
掌握ARMA模型检验的内容和方法理解模型优化的SBC准则和BIC准则的思想与原理,能综合运用上述准则选择相对最优拟合模型
2024-04-09 10:41:26 2117 1
原创 时间序列分析 # 平稳性检验和ARMA模型的识别与定阶 #R语言
掌握单位根检验的原理并能解读结果;掌握利用序列的自相关图和偏自相关图识别模型并进行初步定阶。
2024-04-08 09:02:51 1557
原创 时间序列分析 # 平稳AR模型和MA模型的识别与定阶
掌握AR模型平稳性和MA模型可逆性的判别条件;掌握利用序列的自相关图和偏自相关图识别模型并进行初步定阶。
2024-04-07 17:47:47 1808
原创 时间序列分析 #AR模型平稳性的判别
1、理解AR模型的定义,能熟练写出AR模型的模型结构和特征方程的表达式;2、掌握AR模型平稳性判别的三种方法,即图示法、特征根法和平稳域方法。
2024-04-07 15:56:56 1424
原创 R语言. 时间序列的预处理
通过R语言完成练习题,实现:一、掌握应用R软件对时间序列进行预处理,包括绘制时序图、自相关图;二、掌握平稳时间序列和纯随机序列的特点;三、通过时序图和自相关图对时间序列进行平稳性检验和纯随机性检验。
2024-04-03 16:11:18 1049 1
原创 初学R语言
一、了解并熟悉R软件的操作界面;二、熟悉并掌握R软件中数据集的不同创建形式;三、熟悉R中代码的编写,能够根据自己的需要编写一些简单的函数。
2024-04-02 10:22:06 908 1
原创 按指定规则(自定义)拆分PDF文件
1.txt:为拆分规则文件名,(在文件夹中写入1-4 try,就是把1-4截取下来放在文件夹为try.pdf的文件夹下)导入需要使用的PyPDF2 包。split.py为文件的名称。m.pdf:为拆分文件名称。
2024-04-01 16:48:32 384
原创 提取PDF文件的文本内容
自定义函式名def extract_text_info(filepath, save_dirpath, save_filename, Page)自定义函式名def extract_all_text_info(filepath, save_dirpath, save_filename)@param Page:获取的页码(第一页从0开始)@param Page:获取的页码(第一页从0开始)@param filepath:文件路径。#提取PDF文件中某一页的文本内容。#提取整个PDF文件的所有页的内容。
2024-04-01 16:43:33 426
原创 提取PDF文件中的图片
提取图片内容使用 fitz 打开文档,获取文档详细数据遍历每一个元素,通过正则找到图片的索引位置使用 Pixmap 将索引对应的元素生成图片通过 size 函数过滤较小的图片
2024-04-01 16:40:10 288
原创 提取PDF文件中的表格
extract_table_info(filepath=r'E:\learn\PDF相关处理\PDF提取表格\PDF表格.pdf',save_dirpath=r'E:\learn\PDF相关处理\PDF提取表格','E:\learn\PDF相关处理\PDF提取表格\提取表格test.csv',extract_table_info(r'E:\learn\PDF相关处理\PDF提取表格\PDF表格.pdf',# 如果一页有一个表格,设置表格的第一行为表头,其余为数据。# 设置表格的第一行为表头,其余为数据。
2024-04-01 16:36:06 436
原创 PDF旋转页面
一、旋转一页并单独保存。二、对整个PDF文件中每一页进行旋转并另存为一个新的pdf文档。导入需要使用的包PdfReader, PdfWriter。
2024-04-01 16:32:27 437
原创 PDF按指定步长拆分
param step: 每step间隔的页面生成一个文件,例如step=5,表示0-4页、5-9页...为一个文件。需要注意的是,在拆分的过程中,可以手动设置间隔,例如:每5页保存成一个小的 PDF 文件。将‘test.pdf’文件中的每一页单独单独另存为,步长为1(step=1).遍历每一页内容,以每个 step 为间隔将 PDF 存成每一个小的文件块。@param save_dirpath:保存小的PDF的文件路径。将小的文件块重新保存为新的 PDF 文件。拆分PDF为多个小的PDF文件,
2024-04-01 16:29:59 135
原创 PDF文件转换为WORD文件
自定义函式名pdf2word(file_path)#file_path是需要转换的pdf文件的路径。导入所需的包pdf2docx。输出转换的word文件。
2024-04-01 16:26:47 277
原创 PDF加水印
自定义函式名get_pdf_files,获取指定路径文件夹下的所有需要添加水印的pdf文件(忽略了水印文件)。自定义函式名add_watemark,获取水印文件,并将水印覆盖到需要添加水印的pdf文件中。#watermark_file是需要加水印的文件;pdf_file是水印文件。获取需要加水印的pdf文件。输出添加水印了的pdf文件。
2024-04-01 16:23:20 234
原创 合并PDF
只需修改存放PDF文件的文件夹变量:file_dir 和 输出文件名变量: outfile。print("合并后的总页数:%d."%outputPages)outfile = "Merge.pdf" # 输出的PDF文件的名称。print("路径:%s"%pdf_file)# 使用os模块的walk函数,搜索出指定目录下的全部PDF文件。print("没有可以合并的PDF文件!print("PDF文件合并完成!# 获取同一目录下的所有PDF文件的绝对路径。# 合并同一目录下的所有PDF文件。
2024-04-01 16:17:16 339
博文:‘ARMA模型的检验与优化’训练数据
2024-04-08
博文:‘ARMA模型的识别与参数估计’训练数据
2024-04-08
博文:‘平稳性检验和ARMA模型的识别与定阶’训练数据
2024-04-08
博文:‘平稳AR模型和MA模型的识别与定阶’ 训练数据
2024-04-08
博文 :‘R语言. 时间序列的预处理’ 中的训练数据
2024-04-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人