踏歌~-CSDN博客

原创正向最大匹配算法、逆向最大匹配算法与双向最大匹配算法分步解释

匹配算法首先要有一个匹配词典，然后要有一段话，看这段话里面能够拆分出多少个词典中的词。由于一段话里面的词语会有交叉，所以在两个词的交界处可能出现不符合句意的词被框出来，所以需要对匹配算法进行约束从而使一句话依据词典匹配出来的词不重复也不遗漏，这就是匹配算法中“正向、最大”这些条件。不管是什么匹配算法，其核心都是如下几步：确定词典的词匹配原则：一般来讲都是匹配词时按照最长词优先匹配。

2024-03-02 18:49:25 1194

原创 Amazon网Kindle商品评论爬取（纯代码）

【代码】Amazon网Kindle商品评论爬取（纯代码）

2023-08-11 19:08:39 325

原创京东苹果商品信息爬取（纯代码）

【代码】京东苹果商品信息爬取（纯代码）

2023-08-11 19:04:14 175

原创做各列数据的简单统计图（纯代码）

【代码】做各列数据的简单统计图（纯代码）

2023-08-11 19:00:39 129

原创各种中文分词方法总结（纯代码）

【代码】各种中文分词方法总结（纯代码）

2023-08-11 18:56:32 261

词云技术最初是为了数据挖掘和文本分析而开发的，但现在它已经成为了一种常见的数据可视化方式，常用于展示文章、调查问卷、舆情分析等文本数据，可以让用户快速了解文本的热点和关键词。值得注意的是，词云并不是一种严格意义上的数据分析方法，它只能展示数据的一部分。在某些情况下，词云可能会产生误导性的信息，需要结合其他的数据分析方法来进行分析和判断。词云技术是一种将单词数据可视化的技术，通常将单词按照出现频率在一个图形中显示，单词在图形中的大小表示其出现的频率。收集文本数据并进行处理，去除一些无用信息，例如停用词等；

2023-04-13 23:21:35 490 1

原创 TF-IDF算法（纯代码）

TF-IDF算法的核心思想是，对于一个词在一篇文档中出现得越多，且在整个语料库中出现得越少，它就越能够代表这篇文档的主题或关键信息。它是根据单词在文本中的出现频率和在整个语料库中的文档频率来计算的，其中TF代表词频，IDF代表逆文档频率。其中$w$表示某个单词，$n{w,d}$表示单词$w$在文档$d$中出现的次数，$\sum{i=1}^{n} n_{i,d}$表示文档$d$中所有单词出现的总次数。其中$N$是文档总数，$df_w$是包含单词$w$的文档数。

2023-04-13 19:09:43 677

原创 A-LDA算法（纯代码）

将结果乘以该主题的正向情感得分和负向情感得分分别得到该词语v在该主题中的正向评分和负向评分的概率。b. 对于每个主题k更新情感得分：计算该主题包括所有词语在内的情感得分，作为该主题的总情感得分。计算该主题正向词语得分之和和负向词语得分之和并作为该主题的正向情感得分和负向情感得分。c. 对于每个文档d更新主题分布：通过EM算法计算得到文档d中主题的分布，更新该文档d的主题分布。b. 对于每个文档d中的每个词语v，计算它的情感得分在每个主题k中的概率。输出：每个词语的主题、情感和文档分布。

2023-04-13 19:07:01 179

原创数据库关系代数（笔记版）

本节介绍了数据库关系代数的简介，重点介绍了专门的关系代数运算，并附上了相应的例题与技巧。

2023-04-12 22:41:13 119 1

原创模糊数学简介与模糊综合评价法

本节简单介绍了模糊数学的相关概念和模糊综合评价法的相关概念与实施步骤。

2023-04-08 17:46:28 232

原创挖掘建模介绍

在挖掘建模之前，必然的需要数据探索和数据预处理，以得到可以直接建模的数据。依据挖掘目标和数据形式，挖掘建模可以分为：分类与预测、聚类分析、关联规则、时序模式、离群点检测等。然后根据测试样本集对提出的分类或预测模型进行准确率测试，如果可以接受，在对其余剩下的值带入得到结果。分类指的是预测分类标号。预测指的是建立预测的函数来实现给定未来的自变量来得出预测的因变量。常用的分类与预测算法：回归分析、决策树、人工神经网络、贝叶斯网络、支持向量机。先根据训练样本集预设提出分类模型或者预测模型。

2023-03-15 14:45:46 87

原创数据预处理

两者都关系是拉格朗日插值法是一种比较基础的插值法，平常使用的时候SciPy库中的拉格朗日函数即可。缺失值处理的方法可以分为三类：删除记录、不处理、数据插补三中。数据清洗主要进行删除一些数据，处理一些异常数据等到工作。主要分为缺失值处理和异常值处理两种。数据预处理的主要内容包括数据清洗、数据集成、数据变换和数据规约。插补方法1：用一大坨数据的均值或中位数或众数进行缺失值的插补。插补方法3：用这个缺失的值最近的那个值进行插补。将异常值视为缺失值，按照缺失值的处理办法处理。插补方法2：使用固定的一个值进行插补。

2023-03-13 15:29:55 4000 3

原创 Python主要数据探索函数

python中主要数据探索函数在pandas和matplotlib两个库中。其中前者主要对数据进行分析，后者主要进行数据可视化。本节结合两个库进行初步的整理。（提一嘴：matplotlib里面默认执行的操作对象是matrix矩阵，所以即使是一个数也可以称为矩阵）

2023-03-12 20:57:31 638

原创相关性分析

这里的相关性分析主要是线性相关性分析，当然其他的形状的相关性分析可以通过变换转换为线性相关性分析。但是，线性相关性分析始终是相关性分析的基础。

2023-03-12 10:56:31 2027 3

原创贡献度分析

Axes.annotate(s,xy,*args,**kwargs)s：注释文本的内容xy：被注释的坐标点，二维元组形如(x,y)xytext：注释文本的坐标点，也是二维元组，默认与xy相同xycoords：被注释点的坐标系属性，允许输入的值如下属性值含义'figure points'以绘图区左下角为参考，单位是点数'figure pixels'...在公司运营中，80%的利润常常来自于20%最畅销的产品，而其他80%的产品只产生了20%的利润。我遇到的问题：（不要求掌握）

2023-03-11 16:37:13 259

原创周期性分析

已解决SyntaxError: (unicode error) ‘unicodeescape’ codec can’t decode bytes in position 2-3: truncated_(unicode error)'unicodeescape_袁袁袁袁满的博客-CSDN博客。python 画图自定义x轴刻度值_python x轴刻度_Weiyaner的博客-CSDN博客。使用python绘制折线图_python画折线图_焦糖呱呱子的博客-CSDN博客。不知道如何设置x轴的间隔。

2023-03-11 15:14:16 158 2

原创统计量分析

统计量分析主要包括集中趋势分析和离中趋势分析，主打的就是一个数据的再加工，从而体现整体数据的特征。

2023-03-11 13:13:18 87

原创对比分析基本知识及具体代码展现

定义：就是将多个不同对象的指标或者一个对象的不同时间的指标放在一起进行比较分类：绝对数比较、相对数比较，两者的主要区别是展示的数前者是什么数就展示什么数，后者展示的是经过处理比较的数。

2023-03-11 11:08:57 87

原创数据特征分析

数据特征分析主要包括分布分析、对比分析、统计量分析、周期性分析、贡献度分析、相关性分析几种分析。

2023-03-08 21:51:20 543

原创绝对路径与相对路径

在引用文件的时候,会经常遇到路径问题.理论上讲,所有的路径的引用都用绝对路径就ok,具体的查看方法在相关文件的属性里面看,别忘记了最后要加上文件名和文件的后缀.一、利用../(windows系统)或者..\(Linux系统)的方式,从算法执行的位置往后退,每一次退回到上一层的目录。但是,在真正运行代码的时候,为了形式的整洁,通常会使用相对路径的方法.使用相对路径主要有以下两个部分的操作。二、当退回到最大共同根目录后,往下深挖,知道到达所需要的文件位置.

2023-03-07 21:58:14 52

原创数据质量分析

目的：检查有没有不能服务于数据挖掘的数据。分类：缺失值分析、异常值分析、一致性分析。

2023-03-07 20:36:26 188

原创数据分析与挖掘基础准备

本人是大数据管理与应用专业的学生，可能大多本科目的同学的培养方案中没有这门课，但是学完这门课可以帮助我们从应用端口提升自己的能力，知道这个专业之后究竟可以干啥，可以让自己心安。学习这个科目，是一个“求在我者”的过程，学完这门课程，可以取参加例如泰迪杯、建模大赛等比赛。但在学习打比赛的时候，不能忘记“求在我者”。朋友，如果你阅读到了这篇文章，希望你也能消除自己的目标缺失。

2023-03-06 19:45:25 252

原创树表的查找以及二叉排序树

本节主要介绍了树表的查找；二叉排序树的定义、性质；判定树与二叉排序树的关系、二叉排序树如何生成；二叉排序树的查找、插入、删除等操作以及相关代码的图解。

2023-02-11 15:41:15 77

原创线性表的查找：顺序查找和折半查找

介绍了折半查找的具体步骤、算法的执行步骤图解演示代码详解、折半查找的算法分析、判定树、查找成功与不成功的ASL的计算以及相关的例题。本节主要介绍了顺序查找的思想、ASL的计算以及算法详解。

2023-02-11 15:36:21 458

原创查找的基本概念

本节介绍了查找的基本概念。

2023-02-11 15:27:54 35

原创排序的一些基本概念

本节主要介绍了排序的一些基本概念。

2023-02-11 15:24:11 37

原创数据结构：堆排序

本节介绍了堆排序的定义、如何判断大根堆小根堆、堆排序的主要步骤、运行过程图解以及代码展现。

2023-02-11 15:15:42 80

原创交换排序：冒泡排序和快速排序

快速排序的的基本思想、运行过程、代码展现、时间复杂度、稳定性。冒泡排序的基本思想、运行过程、代码展现、时间复杂度、稳定性。本节介绍了交换排序的基本思想。

2023-02-11 15:11:42 60

原创平衡二叉树：AVL树

本节介绍了AVL树的由来、定义、调整方法以及失衡原因及类型。

2023-02-11 15:06:12 35

原创弗洛伊德Floyd算法：代码详解及运行过程图解

其实我觉得就是把迪杰斯特拉算法执行了n次，然后抽象出来，直接对图的邻接矩阵进行操作最终得到从所有结点到所有结点的最短路径。#弗洛伊德算法：找到任意所有顶点到所有顶点的最短路径。

2023-02-07 13:10:32 680

原创 Dijstral算法：形成过程、原理、算法解析、过程图解

Dijstral算法的思路：以一个点A为出发点，求这个点到点C的最短路径。可以这样求，已知A到B的最短路径，B与C又是直接连通的，A到C也是直接连通的，所以就是两条路径比较，#具体的实现思路如下：找到最短的路作为中转点，看从开始点直接到其他点还是经过中转点到其他点距离近，选短的那条路径，并把这条路径连上的点作为新的中转点，重复此操作。#将这个例子倒推，把B变成多个点，那么就是在众多子点中找路径最短的做为中转点。#从A直接到C这条路和从A到B的最短路+从B直接到C。

2023-02-07 12:42:48 130

原创克鲁斯卡尔Kruskall算法图解

本节介绍了克鲁斯卡尔算法的由来，以及代码如何实现。

2023-02-07 10:40:33 236

原创普利姆Prim算法：形成思路与代码解析

本节介绍了普利姆Prim算法的形成思路与代码解析，重点讲述了其中的如何引入lowcost列表以及closet列表，以及它们的作用和更新步骤。最后我依照代码解释了每一行代码的作用。

2023-02-07 09:57:17 215

原创在无向邻接表G中求顶点v的度、在有向图G中求顶点v的出度和入度

在无向邻接表中求度其实就是求某一个小列表的长度，某个小列表有多少个元素，这个结点的度就是多少。#在无向邻接表G中求顶点v的度（这里的v是要求顶点的序号）#求出度很简单，就是求某个对应小列表的长度。#在有向图G中求顶点v的出度和入度。

2023-02-05 18:34:04 818

原创一个无向图采用邻接矩阵存储，求某一顶点的度、一个有向图采用邻接矩阵存储，求某一顶点的出度和入度

对于有向图求入度，就要看对应的列，对应的列有非0非INF的元素，说明有个结点出度到了该结点，该节点的入度就+1。#对于有权值的，除了指向自己标记为0，没有联通标记为INF，标记其他正常值的就说明有通路，度就可以+1。#对于没有权值的，只要邻接矩阵中对应的小列表中的值为1，说明有边，说明可以是度+1。#无向图的度又可以分为没有权值的无向图的度和有权值的无向图的度。#一个有向图采用邻接矩阵存储，求某一顶点的出度和入度。#一个无向图采用邻接矩阵存储，求某一顶点的度。#对于有向图求出度，和无向图求度是一样的。

2023-02-05 16:46:24 615

iris鸢尾花示例数据

哈工大停用词表（标点符号+中文）

中文文本处理-中文停用词表（包含部分英语单词）

空空如也