长弓同学-CSDN博客

原创 SEO优化工具学习——Ahrefs进行关键词调研（包含实战）

这篇SEO优化文章主要介绍了关键词调研的实战方法。第一部分阐述了关键词选择的重要性，强调要选择搜索量大、符合用户意图的关键词，并避免过度堆砌。第二部分提供了三种关键词调研方法：1）使用KeywordsExplorer工具查找热门关键词及竞品；2）通过目标网站付费关键词挖掘竞争对手；3）利用Competingdomains分析竞对网站的关键词重叠情况。文章详细介绍了每个工具的操作步骤，帮助读者系统掌握关键词调研技巧，为SEO优化和内容策略提供数据支持。

2025-08-23 15:40:11 563

原创 SEO优化工具学习-Ahrefs查看竞对网站反向链接（包含实战）

本文介绍了Ahrefs工具的三大功能和反向链接类型。Ahrefs作为SEO分析工具，可帮助用户查找流量入口、监控竞争对手及诊断网站问题。反向链接分为内部/外部链接、锚文本链接等6种类型，各有不同作用。文章还提供了三个实战方法：通过反向链接分析用户路径，查找热门外链内容，以及分析站内高流量页面。这些方法可帮助用户了解竞品推广策略和用户兴趣点，为网站优化提供数据支持。

2025-08-21 12:00:59 634

原创 python语义分析实战--基于LDA主题建模、TextBlob情感分析的评论数据分析及可视化（附代码）

在如今信息爆炸的时代，评论数据是企业和研究者获取用户反馈、了解市场动态的重要资源。然而，面对海量的文本数据，如何有效地提取有价值的信息是一大挑战。这篇文章将从实践中带您学习如何使用两种强大的文本分析技术——LDA主题建模和TextBlob情感分析，对评论数据进行深入挖掘与分析。

2025-01-09 17:11:51 2294

原创 python爬虫——爬取豆瓣top250电影数据（适合初学者）

爬取豆瓣top250其实是初学者用于练习和熟悉爬虫技能知识的简单实战项目，通过这个项目，可以让小白对爬虫有一个初步认识，因此，如果你已经接触过爬虫有些时间了，可以跳过该项目，选择更有挑战性的实战项目来提升技能。当然，如果你是小白，这个项目就再适合不过了。那么就让我们开始吧！目录一、实战1.对豆瓣网网站进行Ajax分析2.提取数据二、python完整代码（两种方法）bs4方法正则式方法。

2023-09-12 14:49:40 50867 20

原创数据挖掘学习——数据预处理方法代码汇总（python）

主成分分析（Principal Component Analysis，PCA），是一种统计方法，通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量，转换后的这组变量叫主成分。在数据预处理中，我们常用PCA的方法对数据进行降维处理，将n维特征映射到k维上，这k维是全新的正交特征也被称为主成分，是在原有n维特征的基础上重新构造出来的k维特征。插值是逼近的重要方法，利用它可通过函数在有限个点处的取值状况，估算出函数在其他点处的近似值。3）求出共变量矩阵的特征根和特征变量，根据特征根，确定主成分。

2023-04-06 21:07:48 4533

原创金融数学建模——2022年大湾区杯金融数学建模B题（解题思路及部分python代码）

B题主要运用的是数据挖掘与数据分析的知识，其中对于未来数据的预测使用了机器学习的LSTM算法，LSTM 作为 RNN 的一个优秀的变种模型，继承了大部分 RNN 模型的特性，同时解决了梯度反传过程由于逐步缩减而产生的梯度消失问题，可以实现长期数据的保存输入，因此，将其加入滑动窗口算法，可以很好用于预测未来较长一段时间后的数据

2023-01-12 16:02:39 8871 1

原创深度学习——神经网络（ANN）搭建过程+python代码

出现报错“ValueError: shapes (2,3) and (2,2) not aligned: 3 (dim 1)!其中，该神经网络：输入层（第0层）有2个神经元，第1个隐藏层（第1层）有3个神经元，第2个隐藏层（第2层）有2个神经元，输出层（第3层）有2个神经元。在这里我们定义了identity_function()函数（恒等函数），并将其作为输出层的激活函数。（2*3和2*2矩阵进行点积运算）（2*3矩阵和3*2矩阵点积运算）矩阵的乘积可以通过NumPy的。(2*2矩阵点积计算)

2022-10-31 20:47:42 3678

原创深度学习（python）——神经网络(Artificial Neural Networks)激活函数代码

在感知机中，权重w是由人工输入的，而神经网络可以自动地从数据中学习到合适的权重参数。可以理解为，神经网络从数据中抓取数据的特征而得到权重，最后由权重来识别陌生数据。神经网络结构图如下：上图为3层神经网络，是最为简单的神经网络结构，其中中间层，有时我们也称作“隐藏层”。与感知机类似，在神经网络中我们输入数据样本作为输入信号，再通过隐藏层获取数据的特征计算得到权重，最后在输出层得到需要的输出结果。

2022-10-25 17:17:51 1653

原创 python金融量化初体验——2020年“大湾区杯”金融数学建模比赛A题《大湾区指数增强策略》刷题总结（持续更新中）

之前和好朋友一起学完了数据挖掘的相关框架，决定要找一些题目来实战，偶然之下发现了这个比赛，于是在官网上找到了第一届比赛的赛题。本来想做B题的，但是B题是属于开放式数据集题目，为了更好的练习如何处理随机的原始数据集，所以，在商讨之后决定拿A题来作为练习题。由于是第一次接触金融数据，也是学数据挖掘以来的第一次实战，所以，如果有错误的地方，请大家赐教，多多包含。那么就让我们开始吧！

2022-10-24 20:19:15 4552

原创 python金融量化——股票数据分割+计算单支股票利益率曲线（代码）

【代码】python金融量化——股票数据分割+计算单支股票利益率曲线（代码）

2022-10-17 20:14:50 1046 2

原创 MATLAB图像处理学习——高通滤波（频域滤波（二））

若简单的使用高通滤波，图像质量可能由于噪声严重而难以达到满意的改善效果，为了既加强图像的细节又抑制噪声，可采用。，这种滤波其实是由一个高通滤波器和一个全通滤波器构成的，这样便能在高通滤波的基础之上保留低频信息）（其中D0为巴特沃斯高通滤波器的截止频率，n为巴特沃斯滤波器的阶数，用来控制滤波器的陡峭程度）（其中D0为理想高通滤波器的截止频率）（其中D0为高斯高通滤波器的截止频率）使图像得到锐化处理，突出图像的边界。衰减或抑制低频分量，让高频分量通过。

2022-10-12 20:35:54 12615 1

原创 MATLAB学习——低通滤波（频域滤波(一)）

频率域图像增强首先通过傅立叶变换将图像从空间域转换到频率域，在频率域对图像进行处理，处理后再将图像进行傅立叶反变换转换到空间域。让低频率通过，而滤掉或衰弱高频率。作用是过滤掉包含在高频中的噪声。所以低通滤波的效果是图像去噪声平滑增强。其中D0为巴特沃斯低通滤波器的截至频率，参数n为巴特沃斯滤波器的阶数，n越大则滤波器的形状越陡峭。在半径范围D0内，所有频率都可以没有衰减的通过滤波器，但在半径范围外的所有频率都会被衰减。频域滤波主要有低通滤波、高通滤波、同态滤波等。其中D0为高斯低通滤波器的截至频率。

2022-10-11 17:05:57 16924

原创数据挖掘学习——关联分析（电商、短视频常用推荐算法基础）+ python代码

以最经典的“尿不湿和啤酒”的故事来说，这个故事讲的是一家超市通过分析往期的顾客购物清单，发现很多顾客在购买尿不湿的同时也购买了啤酒，于是这家超市将啤酒和尿不湿放在了相邻的购物架上，这一奇怪的举动竟然促使尿不湿和啤酒的销售率大幅上升。在上面所构成的FP树中，在某个支持度阈值下，我们可以找到频繁项集：{新闻，财经}，{体育，财经}，{新闻，体育}，{新闻，财经，体育}。频繁项集中关联规则的数目依旧是很庞大的，所以需要利用置信度的一些性质来尽量把无效的关联关系剔除掉，从而降低关联规则生成的难度。

2022-10-05 23:46:05 2474

原创数据挖掘学习——SOM网络聚类算法+python代码实现

当一个神经元被激活时，最近的邻居节点往往比那些远离的邻居节点更兴奋。从图中可以看到，输出层的每个节点，通过D条权边与输入节点相连（即输出层的每个节点用一个D维权重Wij来表征），其中输出层中每个节点之间按照距离远近存在一定联系。不仅获胜的神经元能够得到权重更新，它的邻居也将更新它们的权重，尽管不如获胜神经元更新的幅度大。大白话：计算各个神经元和第二步选取的训练样本点之间的拓扑距离，距离最近的就是胜出的权向量点（winner）可以理解为最近的权向量节点向样本点移动一定距离，同时邻近节点也移动一定的距离。

2022-10-03 21:36:00 7495 8

原创数据挖掘学习——聚类分析(k-均值聚类、DBSCAN、AGNES)、python代码

聚类分析的结果是将相似的样本划分在同一个簇中，差别较大的样本划分到不同的簇。对样本进行聚类的依据是样本之间的相似度，样本之间的相似度通常使用样本距离来衡量。使用不同的距离定义对聚类结果有很大影响。1.闵可夫斯基距离2.曼哈顿距离3.欧几里得距离4.加权闵可夫斯基距离5.余弦距离。

2022-09-25 20:05:04 5796 1

原创 MATLAB图像处理学习——图像的统计特性+空域滤波

（函数medfilt2()进行滤波时，选取的是排序后的中值，所以当调用方法为J=ordfilt2(I,median(1:m*n),[m,n])时，相当于中值滤波）：获得每种颜色值的平均值。在进行图像的滤波时，可以采用模板和图像的领域相卷积的方法。eg.灰度图像的像素为二维矩阵A，则该图像的标准差是std2(A).对于模糊的图像，通过锐化滤波器能够补偿图像的轮廓，让图像变得清晰。：该函数设置等高线的条数为n，如果不指定n，该函数会自动选取n。：该函数中I为灰度图像的二维数据矩阵，绘制灰度图像的等高线。

2022-09-19 21:39:39 2427 2

原创数据挖掘学习——支持向量机（SVM）

SVM是一种分类模型，是一个定义在特征空间上间隔（距离）最大的线性分类器。基本思路：SVM将训练样本数据集表示为特征空间的点，将各个类别的训练数据使用超平面进行分隔，在预测时，输入一个新的测试数据点，若该测试数据点在特征空间的位置分布在超平面的某一侧，则判断该测试点的类别即为该侧所对应的类别。共有三种类型的SVM：线性可分支持向量机(硬间隔最大化)线性不可分支持向量机非线性支持向量机将求解线性可分支持向量机的最优化问题作为原始最优化问题。（SVM通常用于二分类问题，用-1和+1分别表示对应的两个类别，

2022-09-18 18:03:54 3863

原创 MATLAB图像处理学习——图像增强技术（附图像增强方法代码）

图像增强技术一般通过对图像的某些特征，例如边缘信息、轮廓信息和对比度等进行突出或增强，从而更好地显示图像的有用信息，提高图像的使用价值。传统的图像增强技术大多是基在空间域中对图像进行处理。（空间域的图像增强技术主要有灰度变换和直方图方法等）通过傅里叶变换可以将图像从空间域转换到频域，在频域进行滤波，然后在使用傅里叶反变换转换到空间域。

2022-09-16 16:54:00 26884 7

原创数据挖掘学习——KNN（k-近邻）

在使用KNN算法对测试数据点进行分类时，需要计算测试数据点与训练样本集中每个数据点之间的距离，对距离进行排序，进而找出其中最近邻的k个样本数据。该方法的优势在于简单有效，但是当训练样本过大时，该方法的计算过程将比较耗时，KNN是一种基于实例的学习，没有很复杂的数学推理，其分类过程是直接建立在对数据集进行分类的基础上，因此也称为。（3）选取最近邻的k个数据进行分类决策（投票法）（1）计算测试数据与训练数据特征值之间的距离。（2）对距离按照规则进行排序（递增）（4）预测测试数据的分类。

2022-09-14 15:30:50 1316

原创数据挖掘学习——集成学习（classifier combination）

多个基模型对数据集进行学习，并分别输出结果，然后集成学习模型再通过一定的方法将这些结果进行整合，最终形成集成学习模型的结果。这里用的是上上篇中的代码进行修改的，可以看到，相比于使用单个高斯朴素贝叶斯分器进行训练，用随机森林训练出来的模型准确率更高。获得最多票数的类别为集成模型的输出类别（若有多个类别获得相同的最高票，则随机从这些类别中选取一个作为最终的输出。（是投票法的一种特殊形式，加权投票法中，不同的基模型投票的权力大小是不一样的aaaaa）（随机森林中，较多的决策树基模型可以获得较好的预测效果）

2022-09-06 18:20:23 1830 1

原创数据挖掘学习——决策树分类算法理论（包含Iris实战）

决策树（decision tree）分类算法是一种逼近离散函数值的方法，是一种典型的分类算法。首先对已有分类好的数据进行处理，归纳出其中的规则并生成决策树；然后根据生成的决策树对新输入数据进行分析并判断属于哪一类别。

2022-09-05 21:24:05 4000

原创数据挖掘学习——朴素贝叶斯分类算法beast cancer实战

每个实例包括30个属性值，每个属性值取自乳房硬块的细针穿刺数字影像，包括10种特征的平均值和方差。而这10种特征又包括半径、周长和面积等）假设待分类的样本服从某一种概率分布，首先通过已分类好的样本数据估计某未分类样本的先验概率，然后利用贝叶斯公式计算出未分类样本的后验概率（即预测该样本属于某一类的概率），最后选择具有最大后验概率的类别作为该未分类样本所属的类别。（2）条件概率公式：P(X|Y)=P(X,Y)/P(Y),P(Y|X)=P(X,Y)/P(X)(1）条件独立公式：P(X,Y)=P(X)*P(Y)

2022-09-04 19:44:53 3316

原创 MATLAB图像处理学习——图像的像素运算

在matlab当中，图像是以矩阵形式存放的，矩阵的每一个元素就是像素值，所以对图像进行运算就是对矩阵的运算。（包括点运算、图像的加减乘除运算及图像的逻辑运算或与非）

2022-09-03 22:06:10 10046 1

原创数据挖掘代码实例学习——Pandas、sklearn数据预处理（包含pandas库以及所需依赖包安装教程）

无论是在数据挖掘还是机器学习当中，数据的好坏很大程度决定了最后训练出来的模型的预测和泛化能力的好坏。为了训练出质量更高的模型，通常我们都需要在训练之前对我们的数据集进行预处理。在文本领域主要使用pandas、numpy对数据进行预处理，在图像领域则使用opencv、numpy来处理，图像的预处理可以详见我之前的博客，今天我们将使用pandas来对文本数据进行预处理。数据预处理是机器学习和数据挖掘中非常重要的一个步骤，对原始数据进行相应的处理，可以为后续挖掘建模提供良好的数据基础。...

2022-09-01 16:02:09 5303 1

原创 MATLAB图像处理学习——图像类型的转换

其中，I是原RGB图像，tol的范围是从0.0~1.0，[X,map]对应生成的索引图像，map包含至少(floor(1/tol)+1)^3个颜色。其中I指的是二值图像，n是灰度级数，默认值为2，[X,map]对应转换后的索引图像，map中对应的颜色值为颜色图gray()中的颜色值。的方法，将RGB图像转换为索引图像。其中I为灰度图像，level为设置的阈值参数，取值范围为[0,1]，BW是转换后的二值图像。其中I是原灰度图像，n是灰度级数，默认值为64，[X,map]对应转换后的索引图像。........

2022-08-31 17:24:37 11501 3

原创 Hadoop伪分布式安装教程——踩坑经验以及顺利安装的方法

在上上篇安装Hadoop的教程里，到了伪分布式这一步，总是卡在启动这一步，数据节点不知道为什么就是权限不够开不了，要么就是进程占用，在杀死进程之后，整个Hadoop出现瘫痪。查遍全网的资料，都说要用chown给他777超级权限，但是我试了两天，发现这个方法似乎不太可行（个人看法），但是在之前linux中配置opencv时也遇到过类似问题，最后是使用root换源来解决的。所以我想用root用户来启动hdfs，查阅资料后发现可行，所以重装系统，开始实践。在实践之后，最后顺利启动节点。话不多说，上教程。.....

2022-08-29 21:53:06 4836

原创 Hadoop学习——Hadoop单机运行Grep实例（包含错误解决方法）

上一篇安装了Hadoop单机，所以今天打算先用Hadoop的mapreduce自带的Grep实例实践一下，顺带测试Hadoop是否成功安装。（不是水博客，有在努力填坑）实践开始之前，我们需要了解一下Grep实例，Grep（缩写来自Globally search a Regular Expression and Print）是一种强大的文本搜索工具，它能使用特定模式匹配（包括正则表达式）搜索文本。...

2022-08-29 19:01:08 5785 16

原创 Hadoop大数据处理架构学习——Linux系统上安装Hadoop（Ubuntu22.04）

Hadoop是Apache软件基金会旗下的一个开源分布式计算平台，为用户提供系统底层细节透明的分布式基础架构。Hadoop的核心是Hadoop分布式文件系统（Hadoop Distribute File System，HDFS）和MapReduce。Hadoop被公认为行业大数据标准开源软件，在分布式环境下提供了海量数据的处理能力。几乎所有主流厂商都围绕Hadoop提供开发工具、开源软件、商业化工具和技术服务，如谷歌、雅虎、微软、思科、淘宝等都支持Hadoop。.....................

2022-08-28 22:13:46 5636 7

原创 Linux虚拟机小白教程——windows11安装VMware并配置linux系统环境（Ubuntu22.04版本）

安装虚拟机，一般需要先安装VMware工具再配置需要配置的系统，所以在这里分为安装VMware和配置虚拟机环境两部分来进行。Linux系统版本有CentOS和Ubuntu两种，这里用的是Ubuntu，你也可以根据自己的需要去选择，方法相似。...

2022-08-27 17:11:49 20742 12

原创 matlab图像处理学习——matlab图形可视化

在绘制曲线时，matlab会自动安排曲线的线型、颜色及坐标等属性，但是有时也可根据我们自己的需求去修改这些属性。: 当x为一维向量时，以该向量元素的下标作为横坐标，x为纵坐标绘制一条曲线。当x和y为同维向量，以x为横坐标，y为纵坐标的逐点连接为一条曲线。将y的取值范围分成等差的length(x)份进行绘制。（3）绘制图形（生成图形文件Figural）（2）设置图形窗口的位置（创建绘图窗口）（4）图形的修饰（图名、坐标名、图例等）将y的取值范围分为等差的10段进行绘制。实例代码（绘制两条颜色的曲线）...

2022-08-26 21:29:31 3204

空空如也

空空如也