自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

阿里云专家博主、数据科学领域优质创作者、统计er在读

分享数据科学、机器学习、统计学、深度学习等知识

  • 博客(194)
  • 资源 (1)
  • 收藏
  • 关注

原创 【动手学因果推断】(五):因果数据导入与探索性分析

本文将使用从中获得的数据。Touring Plans 是一家帮助人们计划迪士尼和环球主题公园之旅的公司。他们的目标之一是利用数据和统计模型准确预测这些主题公园的景点等待时间。touringplans 包含多个数据集,其中包含有关迪士尼主题公园景点的信息。此外,该包还包含一个数据集,其中包含有关公园的原始元数据,以及每天记录的观察结果。

2023-09-25 07:15:00 972

原创 【动手学因果推断】(四):绘制DAG(因果图)表达因果问题

高校统计学硕士在读💌如果文章对你有帮助,欢迎✌关注、👍、✌、👍订阅专栏✨本文收录于本系列主要记录一些因果推断学习笔记,以及如何应用常见的方法,并给出相关代码,方便大家动手学习,后续会考虑做一些论文总结分析。回答因果问题对于科学和商业分析至关重要,但随机临床试验和 A/B 测试等技术并不总是实用。本文将利用 R 语言对观察数据进行因果推断。

2023-09-11 08:00:00 2610

原创 【Opencv入门到项目实战】(十一):harris角点检测|SIFT|特征匹配

为了寻找尺度空间的极值点,每个像素点要和其图像域(同一尺度空间)和尺度域(相邻的尺度空间)的所有相邻点进行比较,当其大于(或者小于)所有相邻点时,该点就是极值点。如下图所示,中间的检测点要和其所在图像的。

2023-09-08 19:04:13 3703

原创 【动手学因果推断】(三):目标试验和标准方法

回答因果问题对于科学研究和商业分析至关重要,但随机临床试验和 A/B 测试等技术并不总是实用。本文通过R对观察数据进行因果推断。

2023-09-06 08:00:00 3495

原创 【Opencv入门到项目实战】(十):项目实战|文档扫描|OCR识别

OCR(即光学字符识别)是识别图像中的文本并将其转换为电子形式的过程。这些图像可以是手写文本、打印文本(如文档、收据、名片等),甚至是自然场景照片。简单来说,OCR 有两个部分。第一部分是文本检测,确定图像内的文本部分。第二部分文本识别,从图像中提取文本。结合使用这些技术可以从任何图像中提取文本。具体的流程如下图所示OCR 在各个行业都有广泛的应用(主要目的是减少人工操作)。它已经融入我们的日常生活,并且有很多的应用。背景:我们有一张随手拍的发票照片如下,我们希望识别出文档信息并扫描思考。

2023-08-12 07:00:00 12410 21

原创 【Opencv入门到项目实战】(九):项目实战|信用卡识别|模板匹配|(附代码解读)

接下来我们正式进入项目实战部分,这一章要介绍的是一个信用卡号识别的项目。首先,我们来明确一下研究的问题,假设我们有一张信用卡如下所示,我们要做的就是识别出这上面卡号信息,然后会输出一个序列,第一个序列就是4020,第二序列是3400,第三个序列0234,第四个序列5678,也就是说此时我们不光是把这个数输出来,我们还要知道对应的位置。之前我们已经介绍了Opencv的各种图像基本操作,例如形态学操作、模板匹配、轮廓检测。

2023-08-11 07:30:00 11162 1

原创 【Opencv入门到项目实战】(八):图形直方图|傅里叶变换

直方图是一种用于可视化数据分布的图表形式,它显示了数据在各个数值范围内的频率或数量。直方图可以帮助我们了解数据的分布情况、寻找异常值和识别数据模式。在计算机视觉中,直方图也经常用于图像处理和分析。通过统计图像中不同灰度级别的像素数量,可以获得图像的灰度分布,进而进行图像增强、对比度调整、颜色校正等操作。

2023-08-10 09:00:00 10337

原创 【Opencv入门到项目实战】(七):图像轮廓检测

我们介绍了如何进行图形轮廓的检测、特征计算、轮廓近似处理。轮廓是由连续的曲线或边界组成的,能够准确地描述目标的形状。轮廓可以用于目标的识别、分类和形状分析。轮廓可以通过计算形状的特征(如面积、周长、重心等)来获取更多的信息。可以使用图像轮廓进行图像分割、边缘检测和图像增强等任务。🔎!《Opencv入门到项目实战》

2023-08-09 18:00:00 11341 3

原创 【Opencv入门到项目实战】(六):图像金字塔|模板匹配

图像金字塔可以将原始图像分解为一系列层级的图像,每个层级都代表了不同尺度的细节信息。比如说我们要做一些图像特征提取,在进行特征提取的时候,我们不仅仅对一张原始输入进行特征提取,而是在图像金字塔每一层当中都进行特征提取,而每一层特征提取出来的结果是不一样的,我们再把特征提取出来的结果融合在一起。

2023-08-08 23:36:04 11426

原创 【Opencv入门到项目实战】(五):Canny边缘检测

在上一篇文章中,我们介绍了图像的梯度结算来检测图像边缘,但是我们之前只是检验了大小,不知道具体方向。具体做法是检查梯度幅值沿着梯度方向上的两侧像素,如果当前像素的梯度幅值最大,则将其保留为边缘像素,否则将其抑制为非边缘像素。我们现在来讨论一下这两个参数的影响,当minval设置的越小,我们能检测到的边缘就越多,当maxval设置的越大,我们能检测到的边缘就越少。在经过高斯滤波后的图像上,使用Sobel算子或其他梯度算子计算图像的梯度大小和方向,表示图像中每个像素的灰度变化率和方向。的一半或者是三分之一。

2023-08-08 00:03:18 11109

原创 【Opencv入门到项目实战】(四):图像梯度计算|Sobel算子|Scharr算子|Laplacian算子

Opencv实现Sobel算子、Scharr算子、Laplacian算子

2023-08-06 13:59:50 14148 23

原创 【R语言因果推断】0-2:因果推断案例及双重假设研究

What if 研究是一项双盲随机临床试验,其中符合条件的女性接受口服 50 毫克纳曲酮或安慰剂 4 个月,按 1:1 的比例分配,在基线(即第 0 个月,随机分组前)和第 2、4 和 7 个月的随访时进行评估。其中样本选择条件为:感染艾滋病毒的女性 (WLWH) 且年满 18 岁并符合过去一个月不健康饮酒标准纳曲酮是 FDA 批准的一种有助于减少饮酒的药物。

2023-08-05 00:01:07 12187

原创 【Opencv入门到项目实战】(三):图像腐蚀与膨胀操作

腐蚀操作是图像处理中常用的一种形态学操作,我们通常用于去除图像中的噪声、分割连通区域、减小目标物体的尺寸等。腐蚀操作的原理是,在给定的结构元素下,遍历图像的每个像素,并将其值替换为该像素周围邻域内像素的最小值。可以看到,这些斜线变得很浅,因为被他周围的黑色所影响,并且原始图像的字母也变得更小了,因为腐蚀操作减少了一部分信息。通过使用礼帽和黑帽操作,可以突出图像中细微的亮或暗结构,或者检测背景中的亮或暗区域。我们在上面的腐蚀操作中,在。的值,来增加迭代次数,迭代的次数越多,则腐蚀的越严重,具体结果如下。

2023-08-04 21:43:28 14385 2

原创 【Opencv入门到项目实战】(二):图像阈值与平滑处理

在图像处理中,阈值处理和平滑处理都是对图像预处理常用的技术,接下来我们讨论一下在opencv如何对一个图形进行阈值和平滑处理

2023-08-04 10:42:53 12706

原创 【Opencv入门到项目实战】(一):Opencv安装及图像基本操作

OpenCV是一个强大的计算机视觉库,它提供了丰富的函数和工具,可用于图像处理、特征提取、目标检测、机器学习等各种计算机视觉任务。我们主要介绍了Opencv环境配置、基本的图像和视频读取、读取感兴趣的部分图像、图像填充、以及在Opencv中的基本数值计算和图像融合。

2023-08-02 20:56:36 13472 24

原创 【R语言因果推断】0-1:因果推断概述

所谓因果推断,就是**寻找变量间因果关系,并估计由于因对果造成的效应大小**。它之所以重要,是因为因果关系一旦被准确衡量,那么只要控制了原因,我们就能得到想要的结果。例如我们知道了长高的原因,比如吃米饭是长高的唯一原因,那么如果我们想要长高,多吃米饭就可以了!因果推断应用到业务中也是一样,如果能发现某些事件与我们关心的业务指标间的因果关系,那么根据这些原因设计出有效的策略,就能得到我们想要的收益了。本文主要介绍因果推断领域相关术语和概念

2023-07-25 21:04:10 14983 9

原创 【深度学习】:《PyTorch入门到项目实战》卷积神经网络2-8:残差神经网络(ResNet)基于Fashion-MNIST数据识别

经过我们之前的介绍,我们发现对卷积神经网络而言,“越深越好”,这是有道理的,因为这样模型的能力应该更强(它们适应任何空间的灵活性都会提高,因为它们有更大的参数空间可以探索)。然而,很多实验发现,在一定深度之后,性能就会下降。 这是 VGG 的瓶颈之一,因为当神经网络中使用特定激活函数的层数越多,损失函数的梯度就会趋近于零,导致梯度消失和梯度爆炸问题,从而使网络难以训练。最简单的解决方案是使用其他激活函数,例如 ReLU,它不会导致导数很小。而**残差神经网络(ResNet)**是另一种有效的解决方案。

2023-07-23 22:31:11 16048 29

原创 玩转数据可视化之R语言ggplot2:(十六)使用ggplot2编程(函数式绘图)

使用ggplot2编程,实现函数式绘图,提高你的绘图效率

2023-07-23 07:30:00 16516 2

原创 玩转数据可视化之R语言ggplot2:(十五)主题设置:使绘图更美观

ggplot2设置个性化主题,使绘图更美观

2023-07-22 07:30:00 28246 5

原创 【深度学习】:《PyTorch入门到项目实战》卷积神经网络2-7:GoogLeNet(附Pytorch源码)

GoogleNet是由Google团队在2014年提出的深度卷积神经网络架构。它是为解决图像分类任务而设计的,并在ImageNet图像分类挑战赛中取得了很好的成绩。与VGGNet、LeNet、AlexNet有较大不同。在之前我们介绍的架构中VGG大量使用了3×3卷积,AlexNet使用了5×5,而NiN使用了1×1。因此,在构建卷积层时,我们要决定过滤器的大小究竟是1×13×3还是5×5,或者要不要添加池化层。而GoogleNet网络的想法就是我全都要!

2023-07-21 08:58:28 17801 29

原创 【深度学习】:《PyTorch入门到项目实战》卷积神经网络2-6:NiN(Network in Network)和1×1卷积(附Pytorch源码)

我们之前介绍了LeNet,AlexNet,VGG。在我们用卷积层提取特征后,全连接层的参数的参数很大,很占内存。因此,如果可以不使用全连接层,或者说减少全连接层的个数,可以减少参数,减少过拟合。我们介绍的NiN可以提高表达能力:引入了MLP结构,增强了网络的非线性表示能力,有助于更好地捕捉复杂的特征。2. 减少参数:使用1×1卷积核和全局平均池化层,减少了网络中的参数数量,降低了过拟合的风险。3. 提高计算效率:由于减少了参数数量,NiN框架相对于传统的CNN具有更高的计算效率。

2023-07-19 08:00:00 17120 63

原创 【深度学习】:《PyTorch入门到项目实战》卷积神经网络2-5:LeNet、AlexNet、VGG

我们介绍了三种经典的卷积神经网络架构:`LeNet,AlexNet,VGG`。他们的共同思想都是使用卷积层来学习图片的空间信息,提取特征,最后使用全连接层转换到我们要的分类空间。LeNet是首个成功应用在手写数字识别数据集上的深度卷积神经网络,只有2个卷积层、两个池化层和三个全连接层AlexNet在LeNet基础上使用了更多更深的卷积层,在2012年的ImageNet比赛上一战成名,从此引领了深度学习的浪潮VGG在AlexNet的基础上构建了一个非常深的卷积神经网络,通过堆叠多个VGG块实现

2023-07-17 07:00:00 17676 24

原创 玩转数据可视化之R语言ggplot2:(十四)层级布局(一层一层增加你的绘图元素,使绘图更灵活)

ggplot2绘图,一层一层添加你需要的元素,使绘图更灵活

2023-07-15 11:03:16 29137 1

原创 【深度学习】:《PyTorch入门到项目实战》卷积神经网络2-4:池化层

在进行卷积层计算时候,有一个问题就是边缘的地方容易忽略,并且对位置是非常敏感的。池化层的做法是为了降低卷积层对位置的敏感性,同时降低对空间降采样表示的敏感性。 因此,除了卷积层,卷积网络也经常使用池化层来缩减模型的大小,提高计算速度,同时提高所提取特征的鲁棒性。与卷积层不同的是,池化层运算是确定性的,我们通常计算池化窗口中所有元素的最大值或平均值。这些操作分别称为*最大池化层*(maximum pooling)和*平均池化层*(average pooling)。先举一个池化层的例子

2023-07-12 11:20:53 2602

原创 玩转数据可视化之R语言ggplot2:(十三)离散型颜色及图例设置

R语言ggplot2设置离散型颜色及其图例

2023-07-12 07:30:00 16498

原创 玩转数据可视化之R语言ggplot2:(十二)连续型颜色及图例设置

R语言ggplot2处理连续型数据颜色及图例设置

2023-07-11 07:30:00 18581

原创 【R语言数据科学】(二十六):生存分析

R语言生存分析

2023-07-10 08:30:00 16360

原创 统计学习导论(ISLR) 第八章树模型课后习题

ISLR第八章树模型课后代码题答案

2023-07-08 11:29:04 16773 1

原创 ISLR统计学习导论之R语言应用(八):R语言实现bagging、随机森林、boosting算法

树模型作为十分常用的一种模型,之前我们介绍了他的理论基础,这篇文章主要介绍如何用r语言实现树模型

2023-04-07 22:34:08 17337 3

原创 ISLR统计学习导论之R语言应用(六):R语言实现变量选择和岭回归

在特征选择中,我们传统的统计方法有向前逐步回归,向后逐步回归等。然后我们可以选择对应的评估指标来确定最佳变量个数。例如AIC,BIC,调整后r2等。但是此时我们是对所有的数据来进行训练拟合的,但是我们往往更关心一个模型在未知数据集上的效果。因此我们可以使用交叉验证的方法来帮助我们比较不同模型的效果。一般我们选取k折交叉验证,k=10 or k=5。然后根据k折交叉验证的最后结果来确定我们选择的变量。最后在完整的数据集上进行训练,得到最终模型的估计值。这一章介绍的是最基本的特征选择的方法,

2023-04-03 09:19:41 17601 1

原创 ISLR统计学习导论之R语言应用(九):R语言实现支持向量机(SVM)

高校统计学硕士在读💌如果文章对你有帮助,欢迎✌关注、👍、✌、👍订阅专栏✨本文收录于本系列主要介绍R语言在数据科学领域的应用包括:R语言编程基础、R语言可视化、R语言进行数据操作、R语言建模、R语言机器学习算法实现、R语言统计理论方法实现。

2023-03-29 23:59:39 18515 1

原创 【动手学因果推断】(二):潜在因果框架

我们介绍了潜在结果框架,其中因果推断的核心问题:==不能观察到所有的潜在结果==,导致我们无法衡量因果效应:ATE 和 CATE解决方法:将因果估计量退到统计估计量来研究,进而可以应用一系列的统计学和机器学习方法。因此,我们引出了一系列假设,来确保这样做是合理的。最后我们通过一个模拟数据集,展示了如何计算因果效应,以及是否使用协变量是有较大差异的。==改进:== 最后我们使用的是线性回归来估计条件期望

2023-03-29 18:59:06 3464 12

原创 【R语言数据科学】(二十五):bagging和随机森林

R语言实现bagging和随机森林

2023-03-29 08:00:00 16977

原创 【动手学因果推断】(一):因果推断入门

所谓因果推断,就是**寻找变量间因果关系,并估计由于因对果造成的效应大小**。它之所以重要,是因为因果关系一旦被准确衡量,那么只要控制了原因,我们就能得到想要的结果。例如我们知道了长高的原因,比如吃米饭是长高的唯一原因,那么如果我们想要长高,多吃米饭就可以了!因果推断应用到业务中也是一样,如果能发现某些事件与我们关心的业务指标间的因果关系,那么根据这些原因设计出有效的策略,就能得到我们想要的收益了。

2023-03-27 18:14:41 4410 10

原创 【推荐系统入门到项目实战】(七):隐式反馈与贝叶斯个性化排序模型(BPR)

到目前为止,我们对`基于模型的`推荐系统的讨论集中在使用基于均方误差的目标来预测真实价值的结果,例如评分预测。也就是说,我们已经根据相应的回归方法描述了基于模型的推荐。正如我们在考虑点击、购买或评分数据时为基于邻域的推荐开发了单独的方法一样,在这里我们考虑如何调整基于回归的方法来处理二元结果(例如点击和购买)。很自然的,我们可能会想象我们可以调整我们基于回归的方法来处理二元结果,就像logistic回归那样。也就是说,我们可以将模型输出传递给激活函数,这样正交互(positive intersection)

2023-03-26 22:17:17 16542

原创 【推荐系统入门到项目实战】(六):因子分解机(Factorization Machine)

到目前为止,我们讨论的推荐系统都是纯粹**基于交互数据**的。我们在之前的文章中讨论了为什么使用交互数据能够捕捉这些个性化信息,只需在用户和项目之间找到最大限度解释差异的模式。这个论点在某些条件下理论上是成立的,但也有相当的局限性。在实践中,有几种情况偏离了我们到目前为止所描述的经典设置,需要更复杂的模型,利用侧面信息或特征结构来提高性能,接下来我们介绍一些因子分解机模型

2023-03-21 20:58:05 19356 6

原创 【R语言数据科学】(二十四)树模型(二):拟合回归树

R语言拟合回归树

2023-03-13 09:47:00 17270 1

原创 【R语言数据科学】(二十三)树模型(一):拟合分类树 (含详细代码)

R语言实现分类树

2023-03-12 15:17:52 17471

原创 【推荐系统入门到项目实战】(二):基于相似度推荐(含代码)

【推荐系统入门到项目实战】(二):基于相似度推荐(含代码)

2023-03-05 22:40:55 18389 5

原创 【R语言数据科学】(二十二):多项式回归

我们重新分析本章中的例子所考虑的工资数据,以说明所讨论的许多复杂的非线性拟合模型可以在R中轻松实现。 我们首先加载包含数据的ISLR2库。

2023-01-26 16:26:06 17703

Introduction to statistics learning案例数据集

有小伙伴私信我要Introduction to statistic learning(ISLR)数据集,在这里给出,不过CSDN好像默认需要积分下载

2022-04-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除