自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 K-Means算法的并行和分布式写法

前段时间学习了并行与分布式技术,写了篇关于KMeans算法的并行和分布式的编程写法

2023-03-08 11:32:41 1244 1

原创 数据挖掘训练营模型融合笔记

比赛的融合这个问题,其实涉及多个层面,也是提分和提升模型鲁棒性的一种重要方法:1)结果层面的融合,这种是最常见的融合方法,其可行的融合方法也有很多,比如根据结果的得分进行加权融合,还可以做Log,exp处理等。在做结果融合的时候,有一个很重要的条件是模型结果的得分要比较近似,然后结果的差异要比较大,这样的结果融合往往有比较好的效果提升。2)特征层面的融合。

2022-11-09 16:46:18 273

原创 数据挖掘训练营建模调参笔记

本学习笔记为阿里云天池龙珠计划数据挖掘训练营的学习内容,学习链接为:https://tianchi.aliyun.com/specials/activity/promotion/aicampdm 了解常用的机器学习模型,并掌握机器学习模型的建模与调参流1.读取数据 当数据内存占用特别大时,在处理过程中可能会爆内存,因此我们先减少数据占用的空间。2.交叉验证 要考虑时间顺序问题,比如不能用2018年去预测2017年的数据。3.建模 如果预测值与实

2022-11-07 15:35:14 345

原创 数据挖掘训练营特征学习笔记

特征工程是比赛中最至关重要的的一块,特别的传统的比赛,大家的模型可能都差不多,调参带来的效果增幅是非常有限的,但特征工程的好坏往往会决定了最终的排名和成绩。特征工程的主要目的还是在于将数据转换为能更好地表示潜在问题的特征,从而提高机器学习的性能。比如,异常值处理是为了去除噪声,填补缺失值可以加入先验知识等。特征构造也属于特征工程的一部分,其目的是为了增强数据的表达。

2022-11-06 15:33:16 89

原创 数据挖掘训练营数据分析学习笔记

对于数据的初步分析(直接查看数据,或.sum(), .mean(),.descirbe()等统计函数)可以从:样本数量,训练集数量,是否有时间特征,是否是时许问题,特征所表示的含义(非匿名特征),特征类型(字符类似,int,float,time),特征的缺失情况(注意缺失的在数据中的表现形式,有些是空的有些是”NAN”符号等),特征的均值方差情况。

2022-11-05 20:19:41 88

原创 数据挖掘训练营赛题理解学习笔记

​本学习笔记为阿里云天池龙珠计划数据挖掘训练营的学习内容,学习链接为:https://tianchi.aliyun.com/specials/activity/promotion/aicampdm​

2022-11-04 23:31:30 143

原创 Logistic回归模型推导及手工编程

Logistic回归模型推导及手工编程

2022-11-04 13:30:00 290

原创 感知机模型推导及手工编程

感知机模型推导及手工编程

2022-10-31 17:28:01 176

原创 线性回归模型---最小二乘法、梯度下降法

线性回归模型---最小二乘法、梯度下降法

2022-10-27 16:15:49 528

并行与分布式技术 关于KMeans算法的并行和分布式代码

内容概要: KMeans算法是一种常用的无监督学习算法,用于将数据集分成K个簇或类别。并行和分布式的KMeans算法针对大规模数据集提供了高效的实现方式。并行化可以加速算法的计算过程,而分布式实现则可以处理更大规模的数据集。 这里主要用于算法在并行与分布式的基础应用。 使用场景:适用于处理大规模数据集的KMeans聚类任务,例如大型数据仓库中的数据分析、大规模网络数据的聚类分析等。 目标:提供并行和分布式实现的KMeans算法,以加速大规模数据集的聚类过程,并能够有效利用集群计算资源。 其他说明: 并行化和分布式实现通常涉及到使用多线程、多进程、分布式计算框架(如Apache Spark)等技术。 算法设计需要考虑数据的分片和通信开销等问题,以保证并行和分布式实现的效率和可扩展性。 对于大规模数据集,分布式KMeans算法通常能够提供更好的性能和可伸缩性,但也需要考虑到分布式系统的一致性和容错性等方面的挑战。

2024-02-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除