机器学习
文章平均质量分 95
李明朔
这个作者很懒,什么都没留下…
展开
-
Introduction to Machine Learning in Production
下图展示了一个机器学习项目包含的内容数据标注时可能会对数据有不同的标注,如下图所示这三种标注方法都有一定意义,但如果数据集中包含了这三种方法,学习到的模型可能会很糟糕。多个数据标注人员标注同一张图创建一个新标签数据标注的方法:内部自己标注、外包、众包。原创 2024-03-20 07:08:59 · 890 阅读 · 0 评论 -
Pyspark
Standalone 模式:Standalone模式是Spark自带的独立部署模式,它是一种简单的分布式模式,支持在独立的集群上运行Spark应用程序。它是Spark 2.0及以上版本中引入的概念,取代了之前版本中的SparkContext和SQLContext,并将它们的功能整合在一个统一的接口中。Local模式适用于开发和测试,Standalone模式适用于简单的分布式部署,YARN和Mesos模式适用于与Hadoop或Mesos集成的部署,而Kubernetes模式适用于容器化的部署。原创 2024-01-23 11:20:45 · 1260 阅读 · 1 评论 -
MLops学习
Terraform 的核心思想是将基础设施的定义与实际的基础设施状态保持同步,实现可重复、可管理的基础设施管理。GitHub Actions中的CI的主要目标是确保新的代码变更能够顺利地集成到主代码库,并且通过运行测试和其他验证步骤来确保代码质量。通过一个简单的YAML文件,可以配置应用程序的服务、网络和卷,并使用docker-compose命令启动、停止和管理整个应用程序的生命周期。通过使用不同的变量文件,你可以在不同的环境中使用相同的 Terraform 模块,使用。以下是一个简单的实例。原创 2023-12-05 05:50:42 · 890 阅读 · 0 评论 -
IBM Machine Learning学习笔记——Time Series and Survival Analysis
文章目录一、时间序列介绍1.时间序列分析介绍2.时间序列分解二、平稳性和时间序列平滑1.稳定性和自相关2.时间序列平滑三、ARMA模型1.ARMA模型2.ARIMA和SARIMA模型四、深度学习和存活分析预测1.用于预测的深度学习2.生存分析一、时间序列介绍1.时间序列分析介绍时间序列:依照时间顺序组织的一组数据,数据通常是有规律的进行采集。对于时间序列问题,存在以下特点:数据可能和时间相关; 通常是不稳定的(难以建模);需要大量数据。并且,对某一时间的预测会用在之后一段时间的预测,如果出错就会导致原创 2020-12-25 16:22:46 · 698 阅读 · 0 评论 -
类别不均衡的分类问题
文章目录1. 欠采样(1)NearMiss-1(2)NearMiss-2(3)NearMiss-3(4)Tomek Links(5)ENN(edited nearest neighbour)2. 过采样(1)SMOTE(Synthetic Minority Over-Sampling Technique)(2)ADASYN(ADAptive Synthetic Sampling )3.重采样(1)SMOT+Tomek Links(2)SMOT+ENN4.权重调整5.集成学习方法参考文章:不均衡学习的抽样方原创 2020-12-21 19:48:09 · 1585 阅读 · 0 评论 -
集成学习(三)——LightGBM
文章目录LightGBM1.lightGBM的细节技术(1)直方图优化(2)存储记忆优化(3)深度限制的节点展开方法(4)直方图做差优化(5)顺序访问梯度(6)支持类别特征(7)支持并行学习LightGBM参考文章:LightGBM——提升机器算法(图解+理论+安装方法+python代码), Lightgbm基本原理介绍 LightGBM (Light Gradient Boosting Machine)是一个实现 GBDT 算法的框架,支持高效率的并行训练,并且具有以下优点:更快的训练速度更原创 2020-11-24 19:26:03 · 1320 阅读 · 0 评论 -
集成学习(二)——XGBoost
文章目录XGBoost1.与GBDT区别2.XGBoost树的结构3.XGBoost损失函数4.XGBoost学习策略近似算法实际算法5.XGBoost其他细节(1) 稀疏值处理(2) 步长(3) 列采样6.XGBoost系统设计(1) Column Block(分块并行)(2) Cache-aware Access(缓存优化)(3) Out-of-core Computation7.参数介绍(1)通用参数(2) 提升参数(3)任务参数XGBoost参考文章:机器学习算法(15)之Xgboost算法1原创 2020-11-22 15:08:43 · 1854 阅读 · 0 评论 -
集成学习(一)——随机森林以及GBDT
文章目录一、bagging随机森林二、boosting三级目录集成学习是通过构建并组合多个弱学习器来完成给定任务。当集成中只包含同种类型的个体学习器时说明这种集成是“同质”的,同质集成中的个体学习器叫做基学习器;当集成中包含多种不同的个体学习器时说明这种集成是“异质”的,对应的个体学习器叫做组件学习器集成学习主要有两种:bagging:基学习器之间无强依赖关系,可同时生成的并行化方法,代表为随机森林boosting:基学习器之间存在强烈的依赖关系。必须串行生成,例如adaboost、GBDT、xg原创 2020-11-22 15:07:55 · 1171 阅读 · 1 评论 -
Pandas基础(一)——Pandas基础
文章目录一、pandas基础1.文件的读取和写入(1)文件读取(2)数据写入2.基本数据结构(1)Series(2)DataFrame3.常用基本函数(1)汇总函数(2)特征统计函数(3)唯一值函数(4)替换函数映射替换逻辑替换数值替换(5)排序函数(6)apply方法4.窗口对象(1)滑窗对象(3)扩张窗口二级目录三级目录一、pandas基础1.文件的读取和写入(1)文件读取pandas 可以读取的文件格式有很多,这里主要介绍读取 csv, excel, txt 文件pd.read_table(原创 2020-11-14 19:18:50 · 1103 阅读 · 0 评论 -
IBM Machine Learning学习笔记(二)——Supervised Learning: Regression
文章目录一、Introduction to Supervised Machine Learning1.Introduction to Supervised Machine Learning2.Linear Regression二级目录三级目录一、Introduction to Supervised Machine Learning1.Introduction to Supervised Machine Learning机器学习的种类:监督学习:有标签无监督学习:无标签半监督学习:部分数据有标签原创 2020-11-03 13:10:02 · 903 阅读 · 0 评论 -
IBM Machine Learning学习笔记(一)——Exploratory Data Analysis for Machine Learning
数据的探索性分析1. 读入数据(1)csv文件读取(2)json文件读取(3)SQL数据库读取(4)Not-only SQL (NoSQL)读取(5)从网络中获取2. 数据清洗(1)缺失值问题(2)异常值问题3. 数据探索性分析(EDA)4. 特征工程5. 推理统计6. 假设检验IBM Machine Learning是Coursera上的一门课程,学习的内容简略记录一下,第一周内容是Exploratory Data Analysis for Machine Learning,也就是探索性分析(EDA),原创 2020-10-25 14:11:25 · 700 阅读 · 0 评论