自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(43)
  • 收藏
  • 关注

原创 python爬虫——爬取豆瓣top250电影数据(适合初学者)

爬取豆瓣top250其实是初学者用于练习和熟悉爬虫技能知识的简单实战项目,通过这个项目,可以让小白对爬虫有一个初步认识,因此,如果你已经接触过爬虫有些时间了,可以跳过该项目,选择更有挑战性的实战项目来提升技能。当然,如果你是小白,这个项目就再适合不过了。那么就让我们开始吧!目录一、实战1.对豆瓣网网站进行Ajax分析2.提取数据二、python完整代码(两种方法)bs4方法正则式方法。

2023-09-12 14:49:40 43634 9

原创 数据挖掘学习——数据预处理方法代码汇总(python)

主成分分析(Principal Component Analysis,PCA), 是一种统计方法,通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。在数据预处理中,我们常用PCA的方法对数据进行降维处理,将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。插值是逼近的重要方法,利用它可通过函数在有限个点处的取值状况,估算出函数在其他点处的近似值。3)求出共变量矩阵的特征根和特征变量,根据特征根,确定主成分。

2023-04-06 21:07:48 3420 1

原创 金融数学建模——2022年大湾区杯金融数学建模B题(解题思路及部分python代码)

B题主要运用的是数据挖掘与数据分析的知识,其中对于未来数据的预测使用了机器学习的LSTM算法,LSTM 作为 RNN 的一个优秀的变种模型,继承了大部分 RNN 模型的特性,同时解决了梯度反传过程由于逐步缩减而产生的梯度消失问题,可以实现长期数据的保存输入,因此,将其加入滑动窗口算法,可以很好用于预测未来较长一段时间后的数据

2023-01-12 16:02:39 7495 1

原创 深度学习笔记——神经网络(ANN)搭建过程+python代码

出现报错“ValueError: shapes (2,3) and (2,2) not aligned: 3 (dim 1)!其中,该神经网络:输入层(第0层)有2个神经元,第1个隐藏层(第1层)有3个神经元,第2个隐藏层(第2层)有2个神经元,输出层(第3层)有2个神经元。在这里我们定义了identity_function()函数(恒等函数),并将其作为输出层的激活函数。(2*3和2*2矩阵进行点积运算)(2*3矩阵和3*2矩阵点积运算)矩阵的乘积可以通过NumPy的。(2*2矩阵点积计算)

2022-10-31 20:47:42 2837

原创 深度学习(python)——神经网络(Artificial Neural Networks)激活函数代码

在感知机中,权重w是由人工输入的,而神经网络可以自动地从数据中学习到合适的权重参数。可以理解为,神经网络从数据中抓取数据的特征而得到权重,最后由权重来识别陌生数据。神经网络结构图如下:上图为3层神经网络,是最为简单的神经网络结构,其中中间层,有时我们也称作“隐藏层”。与感知机类似,在神经网络中我们输入数据样本作为输入信号,再通过隐藏层获取数据的特征计算得到权重,最后在输出层得到需要的输出结果。

2022-10-25 17:17:51 1422

原创 python金融量化初体验——2020年“大湾区杯”金融数学建模比赛A题《大湾区指数增强策略》刷题总结(持续更新中)

之前和好朋友一起学完了数据挖掘的相关框架,决定要找一些题目来实战,偶然之下发现了这个比赛,于是在官网上找到了第一届比赛的赛题。本来想做B题的,但是B题是属于开放式数据集题目,为了更好的练习如何处理随机的原始数据集,所以,在商讨之后决定拿A题来作为练习题。由于是第一次接触金融数据,也是学数据挖掘以来的第一次实战,所以,如果有错误的地方,请大家赐教,多多包含。那么就让我们开始吧!

2022-10-24 20:19:15 4074

原创 python金融量化——股票数据分割+计算单支股票利益率曲线(代码)

【代码】python金融量化——股票数据分割+计算单支股票利益率曲线(代码)

2022-10-17 20:14:50 776 1

原创 MATLAB图像处理学习——高通滤波(频域滤波(二))

若简单的使用高通滤波,图像质量可能由于噪声严重而难以达到满意的改善效果,为了既加强图像的细节又抑制噪声,可采用。,这种滤波其实是由一个高通滤波器和一个全通滤波器构成的,这样便能在高通滤波的基础之上保留低频信息)(其中D0为巴特沃斯高通滤波器的截止频率,n为巴特沃斯滤波器的阶数,用来控制滤波器的陡峭程度)(其中D0为理想高通滤波器的截止频率)(其中D0为高斯高通滤波器的截止频率)使图像得到锐化处理,突出图像的边界。衰减或抑制低频分量,让高频分量通过。

2022-10-12 20:35:54 11484 1

原创 MATLAB学习——低通滤波(频域滤波(一))

频率域图像增强首先通过傅立叶变换将图像从空间域转换到频率域,在频率域对图像进行处理,处理后再将图像进行傅立叶反变换转换到空间域。让低频率通过,而滤掉或衰弱高频率。作用是过滤掉包含在高频中的噪声。所以低通滤波的效果是图像去噪声平滑增强。其中D0为巴特沃斯低通滤波器的截至频率,参数n为巴特沃斯滤波器的阶数,n越大则滤波器的形状越陡峭。在半径范围D0内,所有频率都可以没有衰减的通过滤波器,但在半径范围外的所有频率都会被衰减。频域滤波主要有低通滤波、高通滤波、同态滤波等。其中D0为高斯低通滤波器的截至频率。

2022-10-11 17:05:57 15511

原创 数据挖掘学习——关联分析(电商、短视频常用推荐算法基础)+ python代码

以最经典的“尿不湿和啤酒”的故事来说,这个故事讲的是一家超市通过分析往期的顾客购物清单,发现很多顾客在购买尿不湿的同时也购买了啤酒,于是这家超市将啤酒和尿不湿放在了相邻的购物架上,这一奇怪的举动竟然促使尿不湿和啤酒的销售率大幅上升。在上面所构成的FP树中,在某个支持度阈值下,我们可以找到频繁项集:{新闻,财经},{体育,财经},{新闻,体育},{新闻,财经,体育}。频繁项集中关联规则的数目依旧是很庞大的,所以需要利用置信度的一些性质来尽量把无效的关联关系剔除掉,从而降低关联规则生成的难度。

2022-10-05 23:46:05 1664

原创 数据挖掘学习——SOM网络聚类算法+python代码实现

当一个神经元被激活时,最近的邻居节点往往比那些远离的邻居节点更兴奋。从图中可以看到,输出层的每个节点,通过D条权边与输入节点相连(即输出层的每个节点用一个D维权重Wij来表征),其中输出层中每个节点之间按照距离远近存在一定联系。不仅获胜的神经元能够得到权重更新,它的邻居也将更新它们的权重,尽管不如获胜神经元更新的幅度大。大白话:计算各个神经元和第二步选取的训练样本点之间的拓扑距离,距离最近的就是胜出的权向量点(winner)可以理解为最近的权向量节点向样本点移动一定距离,同时邻近节点也移动一定的距离。

2022-10-03 21:36:00 5810 5

原创 数据挖掘学习——聚类分析(k-均值聚类、DBSCAN、AGNES)、python代码

聚类分析的结果是将相似的样本划分在同一个簇中,差别较大的样本划分到不同的簇。对样本进行聚类的依据是样本之间的相似度,样本之间的相似度通常使用样本距离来衡量。使用不同的距离定义对聚类结果有很大影响。1.闵可夫斯基距离2.曼哈顿距离3.欧几里得距离4.加权闵可夫斯基距离5.余弦距离。

2022-09-25 20:05:04 4971 1

原创 MATLAB图像处理学习——图像的统计特性+空域滤波

(函数medfilt2()进行滤波时,选取的是排序后的中值,所以当调用方法为J=ordfilt2(I,median(1:m*n),[m,n])时,相当于中值滤波):获得每种颜色值的平均值。在进行图像的滤波时,可以采用模板和图像的领域相卷积的方法。eg.灰度图像的像素为二维矩阵A,则该图像的标准差是std2(A).对于模糊的图像,通过锐化滤波器能够补偿图像的轮廓,让图像变得清晰。:该函数设置等高线的条数为n,如果不指定n,该函数会自动选取n。:该函数中I为灰度图像的二维数据矩阵,绘制灰度图像的等高线。

2022-09-19 21:39:39 2121 2

原创 数据挖掘学习——支持向量机(SVM)

SVM是一种分类模型,是一个定义在特征空间上间隔(距离)最大的线性分类器。 基本思路:SVM将训练样本数据集表示为特征空间的点,将各个类别的训练数据使用超平面进行分隔,在预测时,输入一个新的测试数据点,若该测试数据点在特征空间的位置分布在超平面的某一侧,则判断该测试点的类别即为该侧所对应的类别。共有三种类型的SVM:线性可分支持向量机(硬间隔最大化)线性不可分支持向量机非线性支持向量机将求解线性可分支持向量机的最优化问题作为原始最优化问题。 (SVM通常用于二分类问题,用-1和+1分别表示对应的两个类别,

2022-09-18 18:03:54 3254

原创 MATLAB图像处理学习——图像增强技术(附图像增强方法代码)

图像增强技术一般通过对图像的某些特征,例如边缘信息、轮廓信息和对比度等进行突出或增强,从而更好地显示图像的有用信息,提高图像的使用价值。传统的图像增强技术大多是基在空间域中对图像进行处理。(空间域的图像增强技术主要有灰度变换和直方图方法等)通过傅里叶变换可以将图像从空间域转换到频域,在频域进行滤波,然后在使用傅里叶反变换转换到空间域。

2022-09-16 16:54:00 24543 6

原创 数据挖掘学习——KNN(k-近邻)

在使用KNN算法对测试数据点进行分类时,需要计算测试数据点与训练样本集中每个数据点之间的距离,对距离进行排序,进而找出其中最近邻的k个样本数据。该方法的优势在于简单有效,但是当训练样本过大时,该方法的计算过程将比较耗时,KNN是一种基于实例的学习,没有很复杂的数学推理,其分类过程是直接建立在对数据集进行分类的基础上,因此也称为。(3)选取最近邻的k个数据进行分类决策(投票法)(1)计算测试数据与训练数据特征值之间的距离。(2)对距离按照规则进行排序(递增)(4)预测测试数据的分类。

2022-09-14 15:30:50 1133

原创 数据挖掘学习——集成学习(classifier combination)

多个基模型对数据集进行学习,并分别输出结果,然后集成学习模型再通过一定的方法将这些结果进行整合,最终形成集成学习模型的结果。这里用的是上上篇中的代码进行修改的,可以看到,相比于使用单个高斯朴素贝叶斯分器进行训练,用随机森林训练出来的模型准确率更高。获得最多票数的类别为集成模型的输出类别(若有多个类别获得相同的最高票,则随机从这些类别中选取一个作为最终的输出。(是投票法的一种特殊形式,加权投票法中,不同的基模型投票的权力大小是不一样的aaaaa)(随机森林中,较多的决策树基模型可以获得较好的预测效果)

2022-09-06 18:20:23 1103 1

原创 数据挖掘学习——决策树分类算法理论(包含Iris实战)

决策树(decision tree)分类算法是一种逼近离散函数值的方法,是一种典型的分类算法。首先对已有分类好的数据进行处理,归纳出其中的规则并生成决策树;然后根据生成的决策树对新输入数据进行分析并判断属于哪一类别。

2022-09-05 21:24:05 3213

原创 数据挖掘学习——朴素贝叶斯分类算法beast cancer实战

每个实例包括30个属性值,每个属性值取自乳房硬块的细针穿刺数字影像,包括10种特征的平均值和方差。而这10种特征又包括半径、周长和面积等)假设待分类的样本服从某一种概率分布,首先通过已分类好的样本数据估计某未分类样本的先验概率,然后利用贝叶斯公式计算出未分类样本的后验概率(即预测该样本属于某一类的概率),最后选择具有最大后验概率的类别作为该未分类样本所属的类别。(2)条件概率公式:P(X|Y)=P(X,Y)/P(Y),P(Y|X)=P(X,Y)/P(X)(1)条件独立公式:P(X,Y)=P(X)*P(Y)

2022-09-04 19:44:53 2718

原创 MATLAB图像处理学习——图像的像素运算

在matlab当中,图像是以矩阵形式存放的,矩阵的每一个元素就是像素值,所以对图像进行运算就是对矩阵的运算。(包括点运算、图像的加减乘除运算及图像的逻辑运算或与非)

2022-09-03 22:06:10 8810

原创 数据挖掘代码实例学习——Pandas、sklearn数据预处理(包含pandas库以及所需依赖包安装教程)

无论是在数据挖掘还是机器学习当中,数据的好坏很大程度决定了最后训练出来的模型的预测和泛化能力的好坏。为了训练出质量更高的模型,通常我们都需要在训练之前对我们的数据集进行预处理。在文本领域主要使用pandas、numpy对数据进行预处理,在图像领域则使用opencv、numpy来处理,图像的预处理可以详见我之前的博客,今天我们将使用pandas来对文本数据进行预处理。数据预处理是机器学习和数据挖掘中非常重要的一个步骤,对原始数据进行相应的处理,可以为后续挖掘建模提供良好的数据基础。...

2022-09-01 16:02:09 4503 1

原创 MATLAB图像处理学习——图像类型的转换

其中,I是原RGB图像,tol的范围是从0.0~1.0,[X,map]对应生成的索引图像,map包含至少(floor(1/tol)+1)^3个颜色。其中I指的是二值图像,n是灰度级数,默认值为2,[X,map]对应转换后的索引图像,map中对应的颜色值为颜色图gray()中的颜色值。的方法,将RGB图像转换为索引图像。其中I为灰度图像,level为设置的阈值参数,取值范围为[0,1],BW是转换后的二值图像。其中I是原灰度图像,n是灰度级数,默认值为64,[X,map]对应转换后的索引图像。........

2022-08-31 17:24:37 9722 3

原创 Hadoop伪分布式安装教程——踩坑经验以及顺利安装的方法

在上上篇安装Hadoop的教程里,到了伪分布式这一步,总是卡在启动这一步,数据节点不知道为什么就是权限不够开不了,要么就是进程占用,在杀死进程之后,整个Hadoop出现瘫痪。查遍全网的资料,都说要用chown给他777超级权限,但是我试了两天,发现这个方法似乎不太可行(个人看法),但是在之前linux中配置opencv时也遇到过类似问题,最后是使用root换源来解决的。所以我想用root用户来启动hdfs,查阅资料后发现可行,所以重装系统,开始实践。在实践之后,最后顺利启动节点。话不多说,上教程。.....

2022-08-29 21:53:06 3808

原创 Hadoop学习——Hadoop单机运行Grep实例(包含错误解决方法)

上一篇安装了Hadoop单机,所以今天打算先用Hadoop的mapreduce自带的Grep实例实践一下,顺带测试Hadoop是否成功安装。(不是水博客,有在努力填坑)实践开始之前,我们需要了解一下Grep实例,Grep(缩写来自Globally search a Regular Expression and Print)是一种强大的文本搜索工具,它能使用特定模式匹配(包括正则表达式)搜索文本。...

2022-08-29 19:01:08 4677 16

原创 Hadoop大数据处理架构学习——Linux系统上安装Hadoop(Ubuntu22.04)

Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供系统底层细节透明的分布式基础架构。Hadoop的核心是Hadoop分布式文件系统(Hadoop Distribute File System,HDFS)和MapReduce。Hadoop被公认为行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力。几乎所有主流厂商都围绕Hadoop提供开发工具、开源软件、商业化工具和技术服务,如谷歌、雅虎、微软、思科、淘宝等都支持Hadoop。.....................

2022-08-28 22:13:46 4973 7

原创 Linux虚拟机小白教程——windows11安装VMware并配置linux系统环境(Ubuntu22.04版本)

安装虚拟机,一般需要先安装VMware工具再配置需要配置的系统,所以在这里分为安装VMware和配置虚拟机环境两部分来进行。Linux系统版本有CentOS和Ubuntu两种,这里用的是Ubuntu,你也可以根据自己的需要去选择,方法相似。...

2022-08-27 17:11:49 15517 12

原创 matlab图像处理学习——matlab图形可视化

在绘制曲线时,matlab会自动安排曲线的线型、颜色及坐标等属性,但是有时也可根据我们自己的需求去修改这些属性。: 当x为一维向量时,以该向量元素的下标作为横坐标,x为纵坐标绘制一条曲线。当x和y为同维向量,以x为横坐标,y为纵坐标的逐点连接为一条曲线。将y的取值范围分成等差的length(x)份进行绘制。(3)绘制图形(生成图形文件Figural)(2)设置图形窗口的位置(创建绘图窗口)(4)图形的修饰(图名、坐标名、图例等)将y的取值范围分为等差的10段进行绘制。实例代码(绘制两条颜色的曲线)...

2022-08-26 21:29:31 2746

原创 树莓派教程——树莓派连接并打开摄像头

摄像头、arduino单片机,连接线(如图为双目摄像头) (如图为单目摄像头)摄像头和arduino连接上树莓派配置opencv、numpy库具体配置方法可以看这篇博客:(经验帖)不易出错的树莓派配置opencv方法,解决“No module named ‘cv2‘“问题. 亲测有效_长弓同学的博客-CSDN博客双目摄像头代码单目摄像头代码:4.运行结果如下...

2022-06-10 16:49:50 9610 4

原创 人脸检测分类器——解决cv2.error: ...color.cpp:182: error: (-215:Assertion failed) _src.empty() in function ‘

1.前言逛了一圈csdn,发现有很多博主都说要从python安装路中调haarcascade_frontalface_default.xml(人脸检测分类器)才能使用,但是我实验发现,其实只需要调用这个文件就可以,无论在什么路径下,只要访问路径正确就可以实现调用。至于这个报错,其实是由于没有读取到图片导致的,所以是读取图片路径出错。(我的opencv版本为4.4.5)2.调用代码import cv2faceCascade = cv2.CascadeClassifier("haarca

2022-05-17 11:20:33 1642

原创 深度学习实战——CNN训练识别COVID-19肺炎肺部CT图模型

1. COVID-19肺炎肺部CT图特征简述(以下内容为查阅资料后整理,本人并非医学影像专业,如有错误敬请指正)主要为间质化改变,磨玻璃影2.数据预处理为减少GPU计算量,先使用crop函数裁去CT图黑边,并对图像进行resize(此处处理后的图片大小为420*290)训练集与测试集数据总数: train test covid-19 2289 572 normal 1592 398 3.使用卷积神经网络(CNN)参数:

2022-05-16 18:44:10 2211 17

原创 python算法题:将不被5整除的数按照左对齐金字塔输出(打印金字塔)

1.题目及要求2.代码num = input("输入:")a = num.split()# 筛选不被5整除的数b = []for i in range(int(a[0]), int(a[1])+1): if i%5 != 0: b.append(i) # 打印金字塔(左对齐)c = len(b)j=1sum=0while True: for e in range(j): print(b[sum+e], end="

2022-05-07 18:53:32 609

原创 python宽度学习训练后模型的持久化存储和快速调用

在模型训练完成后,我们需要对我们训练出来的模型进行持久性储存,这样既能将我们调参后得到的最佳模型进行存储,还可以方便后期同团队的人进行调用预测。、1.原理此处用到的是sklearn库中的joblib包进行存储和加载因为宽度学习的类属于自定义类,所以在调用时需要在调用的py文件中加入bls代码中的类(在bls代码中分别是node_generator, scaler, broadNet)如果不加入这些类,由于宽度学习是未知自定义的模型的结构,joblib包将无法解析模型,出现报错:Attribu

2022-04-21 17:37:38 4243 4

原创 宽度学习(BLS)实战——python复刻MNIST数据集的数据预处理及训练过程

目录1.宽度学习(Broad Learning System)2.MNIST数据集3.复刻MNIST数据集的预处理及训练过程1.宽度学习(Broad Learning System)对宽度学习的理解可见于这篇博客宽度学习(Broad Learning System)_颹蕭蕭的博客-CSDN博客_宽度学习这里不再做详细解释2.MNIST数据集mnist数据集官网(下载地址):MNIST handwritten digit database, Yann LeCun, Cori

2022-04-19 14:17:46 7884 23

原创 OpenCV图像处理——python批量缩放图片并存储,cv2.resize()的应用

核心代码:以将480*480的8张图片缩小为300*300为例import cv2import numpy as npimport osos.mkdir("D:/MNIST-master/data/img_resize")for i in range(0,8): a=i+1 b=i+1 img_name = str(a) img = cv2.imread("C:/Users/10230/Desktop/resource_photo/"+img_name+".p

2022-04-18 20:23:43 6753 5

原创 OpenCV图像数据处理——python将单张图片裁剪为若干份存入文件夹,将多张图片裁剪为若干份存入多个文件夹,代码

目录1.将单张图片裁剪为若干份存入文件夹2.将多张图片裁剪为若干份存入多个文件夹1.将单张图片裁剪为若干份存入文件夹核心代码(将单张图片进行裁剪的算法)以裁剪为60*60的图片为例import cv2import os# 需要裁剪的图片路径filename = 'D:/resource_photo/1.jpg'# 读取图片img = cv2.imread(filename)# 获取图片的宽和高,并计算其能裁剪为多少张60*60的图片width=img.sha

2022-04-18 12:41:32 5034 15

原创 python批量读取图片分类出不符合所需图片大小的数据,图片筛查

代码以筛查出小于60*60的图片为例注意:文件中图片要以数字顺序命名(批量修改文件名为数字的代码在我主页有)import PIL.Image as Imagedef image(filename, sum, img_name): # 读取图片 im = Image.open(filename) width, height = im.size # 判断其是否小于60*60(数据可改) if width < 60 or height < 6

2022-04-16 18:42:37 3278

原创 批量对文件夹中的文件修改后缀名,例如批量修改.jpg为.png

用cmd批量修改文件夹中文件后缀名,批量修改.jpg为.png

2022-04-16 18:33:49 1891 2

原创 机器学习数据预处理——python批量裁剪图片

代码以裁成55*55为例for i in range(0,403): a=i+1 b=i+1 img_name = str(a) img = cv2.imread("C:/Users/10230/Desktop/img_data/"+img_name+".png") cropped = img[0:55, 0:55] # 按坐标裁剪,坐标为[y0:y1, x0:x1] img_name2 = str(b) cv2.imwrite("../d

2022-04-11 09:21:15 2838

原创 宽度学习数据预处理——python批量读取单张图片csv文件转为一维数组并存入同一csv文件

一、先放转后的文件效果图以55*55的图片csv文件为例子,经过代码处理后每一行为一张图片二、上代码以读取400张55*55的csv文件为例import csvdef array(a_name): with open('../data/csv_data/' + a_name + '.csv') as f: # 读取文件 reader = csv.reader(f) # 创建阅读器 rows = [row for row in reade

2022-04-11 08:56:50 1769

原创 github copilot |AI写代码vscode安装教程以及一些使用感想

一、安装过程目前copilot仍处于测试阶段,但是在vscode上预览版插件已经发布1.申请测试资格在官网申请试用如上图所示即为申请完成,在申请完成后需要等待几天(快的话,几个小时就可以)2.在vscode下载插件趁着等待试用资格的过程里,我们可以先安装相关插件插件名称:GitHub Copilot(如图即为安装完成)3.在邮箱收到收到试用资格后,选择启用即可邮箱收到以下信息即为申请成功现在打开vscode,会弹出是否启用的提示,点击ag..

2022-04-09 14:34:21 8702

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除