自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 python的交互式库Qgrid

在Jupyter notebook中直接读取DataFrame数据,只显示为静态表格的形式,没有类似于excel的筛选等交互式功能。Qgrid作为 Jupyter notebook 组件,可以为我们的 DataFrame 添加交互属性。普通的DataFrame数据Qgrid显示的DataFrame数据。

2023-08-18 15:50:19 523

原创 windows中Ubuntu子系统的连接

连接Linux系统,除了使用类似于Xshell的SSH远程终端工具外,还可以使用Notepad++,前者可以执行任何shell命令,而后者只能对服务器中的文件进行编辑。

2022-08-02 17:19:49 2821

原创 Xshell的下载与安装

安装Ubuntu桌面版确实可以直接使用Ubuntu子系统,但是Ubuntu桌面版的界面不是很好看,并且不能直接上传文件到服务器中,所以本篇章介绍SSH远程终端工具Xshell的下载与安装,通过Xshell可以实现文件的上传与下载。......

2022-08-02 09:31:41 13629 3

原创 Windows子系统的安装与使用

好久没有更新技术博客了,这段时间一直在学习新的知识,涉足大数据技术领域,最近有一些收获,来和大家分享一下。本文就windows子系统的安装与使用进行详解,两步即可实现。

2022-08-01 15:33:43 4942 5

原创 k-prototypes聚类算法

引言数据变量为单一的数值型和单一的类别型的聚类算法之前都已经介绍过了,但是实际的数据大多数是数值型和类别型变量混合。针对混合型变量的数据,采用k-prototypes算法进行聚类。k-prototypes算法k-prototypes算法在聚类的过程中,是将数据的数值型变量和类别型变量拆开,分开计算样本间变量的距离,再将两者相加,视为样本间的距离。k-prototypes聚类的准则就是使用一...

2019-12-08 19:54:45 14506 14

原创 k-modes聚类算法

引言之前介绍的K-means和k-medoids算法都是针对数据为数值型的聚类算法,计算样本间的距离采用的是欧式距离,所以如果数据变量是类别型的采用这两种算法,就需要先进行one-hot编码或者dummy coding。针对类别型变量的聚类,可以采用k-modes聚类算法。k-modes算法当数据变量为数值型时,可以采用k-modes算法进行聚类。因为该算法中计算的是样本间的汉明距离,如果变...

2019-12-08 19:29:27 15320 5

原创 k-medoids聚类算法

引言上一篇博客介绍了k-means聚类算法,该算法虽然高效快速,但却受异常点的影响严重,如果样本中存在异常点,则聚类结果会产生极大的偏差。针对异常点对聚类结果的影响,本文介绍k-medoids聚类算法,k-medoids算法能有效削弱异常点的影响。k-medoids算法k-mediods每次选取的中心点,必须是样本点,而 k-means每次选取的中心点可以是样本点之外的点,就好比中位数和平均...

2019-12-08 17:25:04 10645 7

原创 k-means聚类算法

引言已经很久没有更新博客了,最近在工作之余归纳总结了一下学习的理论知识和工作中实践过的算法,希望能分享给大家,也是自我提升。聚类算法聚类算法是属于无监督学习算法,不需要事先知道样本所属类别。在实际工作中,常用于:1)用户分类,比如进行营销活动时在冷藏期时还不知道用户对活动的相应结果,就会采用对用户进行聚类,对不同的类别指定不同的策略,再根据之后的用户营销响应结果对用户进行类别的调整,进而预...

2019-12-08 12:48:08 1369

转载 特征选择

特征选择与特征抽取本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctr...

2018-09-12 15:57:26 594

原创 Lasso回归

前言在大数据时代,体现的不只是数据量大,还会涉及到数据维度高的问题,当所能获取到的样本数据量有限的情况下,很有可能出现数据维度d>>n的情况,n为样本量大小。 对于数据降维,很多教材上会把主成分分析和因子分析归在内,两者都是将原本d维的样本数据通过线性变换变为m维(m.

2018-06-10 18:02:52 105745 11

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除