云日松-CSDN博客

原创排序算法-堆排序（含C语言代码示例）

堆排序是一种基于二叉堆数据结构的排序算法。首先，构建最大堆（或最小堆），将待排序的数组视作一个完全二叉树，通过从最后一个非叶子节点开始向上调整，使得每个父节点的值都大于等于（最大堆）或小于等于（最小堆）其子节点的值。这步骤确保了最大（或最小）值位于堆的根节点。然后，将堆顶元素（最大值或最小值）与数组的最后一个元素交换位置，并将堆的大小减一。接着，对新的堆顶进行堆调整，使得剩余元素重新满足堆的性质。重复以上步骤，直到堆的大小减至1，即完成排序。

2024-01-14 17:03:04 449

原创排序算法-归并排序（含C语言代码示例）

归并排序是一种基于分治思想的经典排序算法，其主要思想是将待排序的数组分割成两个子数组，分别对这两个子数组进行递归排序，然后将排好序的子数组合并起来得到最终有序数组。整个归并排序的过程可以分为三个步骤：分割、排序和合并。首先，在分割步骤中，算法将待排序数组递归地分成两半，直到每个子数组的长度为1或0。这一步骤确保了每个子数组都是有序的。其次，在排序步骤中，对每一对有序的子数组进行合并排序。这里使用了一个辅助数组来存储排序后的元素，然后将结果复制回原始数组。

2024-01-14 15:36:37 544

原创排序算法-希尔排序（含C语言代码示例）

希尔排序是一种基于插入排序的高效、不稳定的排序算法，它通过对待排序序列进行一系列间隔划分的子序列排序来改进插入排序的性能。该算法的基本思想是先将整个序列分割成若干个子序列，然后分别对各个子序列进行插入排序。这一过程通过逐渐减小子序列的间隔，最终达到整个序列基本有序的状态。希尔排序之所以比插入排序更快，是因为在初始阶段，序列的局部顺序已经得到改善，这有助于减少后续插入排序的比较和交换次数。

2024-01-14 10:20:34 513

原创排序算法-快速排序（含C语言代码示例）

快速排序（QuickSort）是一种常用的高效排序算法，由Tony Hoare在1960年提出。它采用分治法（Divide and Conquer）策略，通过将原始数组分成较小的子数组来解决排序问题。

2024-01-13 21:39:50 508

原创排序算法-选择排序（含C语言代码示例）

选择排序是一种简单直观的排序算法，其基本思想是在待排序序列中找到最小（或最大）元素，然后将其与序列的起始位置进行交换。重复这个过程，每次在剩余未排序的序列中选择最小（或最大）元素，并与当前未排序部分的第一个元素交换位置，直到整个序列有序为止。选择排序的时间复杂度为O(n^2)，其中n是待排序序列的长度，而空间复杂度为O(1)。重复以上步骤，直到整个序列有序。选择排序的优点是简单易实现，不需要额外的空间，但缺点是其时间复杂度相对较高，特别是在大规模数据集上。

2024-01-13 17:09:26 751

原创排序算法-冒泡排序（含C语言代码示例）

冒泡排序是一种简单的排序算法，其核心思想是重复地遍历待排序列表，比较并交换相邻元素，使得较大的元素逐渐“冒泡”到列表的末尾，而较小的元素则逐渐上浮至列表的前端。该算法的名字源于类比元素的移动过程，就像水泡逐渐上浮一样。冒泡排序的基本步骤包括比较相邻元素、交换元素、遍历整个列表、重复多轮直到排序完成。冒泡排序的历史可以追溯到1956年，由于其简单直观的思想，它早在计算机科学的早期就被提出并应用。尽管冒泡排序的时间复杂度为O(n^2)，并不是最有效的排序算法，但它仍然在教学和理论研究中有着重要的地位。

2024-01-13 16:41:02 481 3

原创【机器学习】基于随机森林、线性分类支持向量机、多项式朴素贝叶斯、以及逻辑回归的中文文本的分类算法验证实现(附数据集及源代码仓库链接)

一、算法研究背景随着互联网的发展，越来越多的中文文本数据被创建和共享，例如社交媒体、电子邮件、新闻报道等。为了从这些数据中获取有用的信息，需要将它们进行分类和归纳。分类算法是机器学习领域中的一类算法，可以将数据自动分类为不同的类别。在中文文本分类任务中，这些类别可能是不同的主题、情感或语言风格等。中文文本分类可以应用于许多应用领域，如情感分析、垃圾邮件过滤、新闻推荐、搜索引擎优化等。因此，研究中文文本分类算法已成为机器学习和自然语言处理领域的热门研究方向之一。

2023-04-27 19:44:52 516

原创【深度学习&NLP】数据预处理的详细说明（含数据清洗、分词、过滤停用词、实体识别、词性标注、向量化、划分数据集等详细的处理步骤以及一些常用的方法）

可能在你做的很多实际的项目中，你经常会直接使用现有的分词工具，在这里我们就介绍一下分词工具的使用，至于完整实现一个分词的算法可能在后续的文章中会单独出一篇，内容应该比较多和细，所以在这里就不展开说了，下面我们给出一些现在用的比较多的分词工具的使用 ( 这里作者主要介绍一下中文的分词工具，英文的用的比较多的应该是NLTK )。在深度学习中，数据预处理是一个重要的步骤。NLP中的数据预处理是一个非常重要的步骤，可以帮助我们减少噪声和错误，提高数据的一致性和规范性，转换文本数据为可操作的形式，以及提高模型性能。

2023-04-22 15:45:27 11284

原创【深度学习&NLP】深度学习及NLP模型实现要点(实现一个深度学习NLP模型需要考虑的步骤)

深度学习的出现是在机器学习、神经网络和人工智能等多个领域的积累和发展的基础之上。在机器学习领域，早期的机器学习算法主要是基于浅层的神经网络模型，例如感知机支持向量机等。这些算法能够在某些问题上取得不错的效果，但是对于复杂的任务，例如图像识别、自然语言处理等，效果有限。因此，需要更加复杂、更加灵活的算法来解决这些问题。在神经网络领域，早期的神经网络主要采用单层或浅层的结构，例如前馈神经网络自组织映射等。这些网络可以实现一些基本的功能，例如分类、聚类等，但是对于复杂的任务，效果也有限。

2023-04-13 17:21:47 1039

原创【Typora】适用于Typora的常用LaTeX数学符号

适用于Typora的常用LaTeX数学符号

2023-04-12 10:11:02 108

原创【深度学习&NLP】基于卷积神经网络(CNN)实现中文文本情感分析(分类)附代码以及数据集链接

中文文本情感分析是一种研究人类情感表达的计算机技术，它可以自动地分析文本中的情感，并将其分类为积极、消极或中性。随着互联网的普及和社交媒体的兴起，人们在网上表达情感的方式变得越来越多样化和频繁化，这使得情感分析技术变得更加重要。中文文本情感分析的研究背景可以追溯到计算机语言学和自然语言处理领域的起源。近年来，随着深度学习技术的发展，基于深度学习的情感分析算法取得了显著的进展，成为了研究热点。

2023-04-08 15:53:19 12358 14

原创【机器学习】K-近邻算法详解(含算法样例代码实现)

近邻算法就是，先给定一个训练数据集，这个数据集中可能是某类物品的特征及分类，然后给出某个物品的特征，根据训练数据集中的各个物品的特征与这个需要判别分类的物品的“距离”远近，找出距离最近的个，然后这个物品中最多物品所归属的那个分类就是这个需要判别的物品所归属分类判断的结果。

2023-02-23 22:34:45 1996

原创 Typora使用基础教程

Typora的基本使用方法和基础的一些Markdown语法；包括标题、段落、分割线、图表、代码块、区块引用、列表、以及一些强调文本的方法(加粗、斜体等)

2023-01-01 14:03:28 4586

原创经典递归算法—汉诺塔问题（含代码示例）

相传在古印度圣庙中，有一种被称为汉诺塔(Hanoi)的游戏。该游戏是在一块铜板装置上，有三根杆(编号A、B、C)，在A杆自下而上、由大到小按顺序放置64个金盘(如图1)。游戏的目标：把A杆上的金盘全部移到C杆上，并仍保持原有顺序叠好。操作规则：每次只能移动一个盘子，并且在移动过程中三根杆上都始终保持大盘在下，小盘在上，操作过程中盘子可以置于A、B、C任一杆上。

2022-10-03 21:11:40 13997 1

原创 MySQL数据库基础——数据库的基本操作（创建、选择、查看、删除）

存储引擎对比介绍性能InnoDBMyISAMMEMORY事物安全支持无无存储限制64TB有有空间使用高低低内存使用高低高插入数据速度低高高对外键的支持支持无无。

2022-09-22 11:00:50 1068

原创 MySQL的下载安装配置教程

然后在点击next和Finish就好了；然后点击next进行下一步操作。

2022-09-20 17:15:21 263

原创使用MATLAB来进行图像识别计数（利用色块分区计数）

（1）首先打开MATLAB软件，将工作目录转到这张图片所在的文件夹下，再新建一个脚本或者实时脚本都行，也可以直接用命令行来写后面的代码也没问题；注：脚本代码的执行可以直接点F5，也可以单击上方的绿色的三角形图标；（2）第二步在脚本框或者命令行中输入以下代码并执行将目标图片引入进来并查看图像：image = imread("这里放图片的路径");image就是引入进来的名字，而imread(filename)函数就是从图形文件读取图像；imshow(I)，就是显示图像。

2022-09-19 20:41:08 7504

原创机器学习概论

给算法一个数据集，其中每一条数据都包含正确答案，而算法的目的就是给出更多的正确答案；输入的数据无标记，也无确定的结果，类别也未知，无监督学习则是没有明确目的的训练方式，你无法提前知道结果是什么，根据样本间的相似性对样本集进行分类（聚类），尽量做到让类内的差距最小化，类间的差距最大化。

2022-09-18 22:40:23 185

原创排序算法—插入排序（含C语言代码示例）

插入算法作为几大经典的排序算法之一，它的性能在其中算是比较不错的了（主要是稳定）；插入算法的基本原理就是在一串乱序的数字中，首先认为第一个数是有序的，然后从第二个数开始比较，每次比较都与前面排好序的部分由后往前进行比较；比如第二个数和第一个数比较，然后第三个数和先和第二个数比较然后在和第一个数比较，第四个数先和第三个数比较然后再分别和第二、第一个数比较。如果在比较的过程中遇到的后一个数比自己大而前一个数比自己小那么就把自己插入到这两个数之间，然后结束这一轮排序进入下一轮；

2022-09-18 08:08:24 8802 6

原创 MySQL数据库基础——数据库基础

（1）综合统一；（2）高度非过程化；（3）面向集合的操作方式；（4）以同一种语法结构提供两种使用方式；（5）语言简洁易学易用；

2022-09-15 10:43:21 274

原创文本数据挖掘----数据预处理

就是数据规模非常大，如果直接用作训练的话，可能计算机的内存吃不消，或者需要尽快的出训练结果，就可以使用抽样（简单随机抽样，不放回抽样或有放回抽样）的方法将数据的规模减小；通过某种方法将原始的数值数据变成离散数据；

2022-09-09 22:34:56 3209

原创文本数据挖掘----初识数据挖掘

数据挖掘（英語：data mining）是一个跨学科的计算机科学分支。它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。

2022-09-08 21:51:32 1559

原创【深度学习&NLP】初识深度学习(DL)与自然语言(NLP)

利用一些深度学习、神经网络的思想以及表征学习的思想，将它们运用到语言理解、以及自然语言处理等问题上。

2022-09-08 20:42:01 2358

原创大数据技术原理与应用----大数据处理架构Hadoop

（1）HDFS：分布式文件存储；（2）YARN：底层的资源调度管理；（3）MapReduce：离线计算，基于磁盘（一般不用于实时计算）；（4）Tez：用于把MapReduce的很多作业优化构建一个有向无环图，保证获得最好的处理；（5）Spark：基于内存计算，性能比MapReduce高一个等级；（6）Hive：数据仓库，提供企业决策依据，用于企业数据分析；（7）Pig：轻量级分析，流数据处理；（8）Oozie：作业调度系统；（9）Zookeeper：分布式协调一致式服务；

2022-09-07 11:09:06 2007

原创大数据技术原理与应用----大数据概述

①分布式存储；②分布式处理；

2022-09-07 10:08:43 6180

原创【大数据】Hadoop-3.3.4完全分布式安装（包含VMware16和Ubuntu22的下载安装及配置）、搭建、配置教程，以及Hadoop基础简介

注：本篇文章主要涉及到：HDFS（分布式文件系统）、YARN（资源管理和调度框架）、以及MapReduce（离线计算）。以下就是本篇文章所采用的的架构。注：上述的master、slave1、slave2均是主机名（结点名），可以和本篇文章不一致，但下面所有涉及到的地方均需和你这里的主机名一致，如何修改文章后面部分会进行介绍。① NameNode ：NameNode是HDFS部分的核心；NameNode又称为Master，储存着HDFS的元数据（即分布式文件系统中所有文件的目录树，并且跟踪追查整个Hadoop

2022-09-05 15:47:52 13268 38

weixin_52185996的博客