自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

原创 李宏毅机器学习004深度学习介绍+反向传播

深度学习+反向传播

2022-10-17 02:40:50 252 1

原创 李宏毅机器学习 03梯度下降

梯度下降

2022-10-15 02:57:43 295

原创 李宏毅机器学习 02回归

机器学习回归

2022-10-13 02:04:32 1027

原创 李宏毅机器学习01机器学习介绍

datawhale李宏毅机器学习

2022-10-11 00:35:59 447

原创 动手学数据分析task01

动手学数据分析1 第一章:数据加载1.1 载入数据数据集下载 https://www.kaggle.com/c/titanic/overview1.1.1 任务一:导入numpy和pandasimport numpy as npimport pandas as pd1.1.2 任务二:载入数据(1) 使用相对路径载入数据(2) 使用绝对路径载入数据path = open("E:/Program Files/datawhale学习/动手学数据分析/titanic/train.csv",

2021-11-17 02:50:57 142

原创 集成学习(下)Blending集成学习算法

1. Blending集成学习思路Blending集成学习方式:(1) 将数据划分为训练集和测试集(test_set),其中训练集需要再次划分为训练集(train_set)和验证集(val_set);(2) 创建第一层的多个模型,这些模型可以使同质的也可以是异质的;(3) 使用train_set训练步骤2中的多个模型,然后用训练好的模型预测val_set和test_set得到val_predict,test_predict1;(4) 创建第二层的模型,使用val_predict作为训练集训练第

2021-05-12 02:22:34 973

原创 集成学习(中)XGBoost算法

XGBoost算法XGBoost本质上还是一个GBDT,但是力争把速度和效率发挥到极致,所以叫X (Extreme) GBoostedXGBoost是一个优化的分布式梯度增强库,提供了并行树提升(也称为GBDT,GBM),可使用分布式环境(Hadoop,SGE,MPI)运行;以CART决策树为子模型,通过Gradient Tree Boosting实现多棵CART树的集成学习,得到最终模型XGBoost算法(1) 构造目标函数:L(ϕ)=∑il(y^i,yi)+∑kΩ(fk)\mat

2021-04-26 22:01:58 308

原创 集成学习(中)task10 前向分步算法与梯度提升决策树

1.理论学习1.1 前向分步算法(1) 加法模型:在Adaboost模型中,我们把每个基本分类器合成一个复杂分类器的方法是每个基本分类器的加权和,即:f(x)=∑m=1Mβmb(x;γm)f(x)=\sum_{m=1}^{M} \beta_{m} b\left(x ; \gamma_{m}\right)f(x)=∑m=1M​βm​b(x;γm​),其中,b(x;γm)b\left(x ; \gamma_{m}\right)b(x;γm​)为即基本分类器,γm\gamma_{m}γm​为基本分类器的

2021-04-24 00:31:22 117

原创 集成学习(中)Task08 Bagging的原理和案例分析

1. 理论学习1.1 bagging的思路Bagging集成模型最后的预测结果,同时采用一定策略来影响基模型训练,保证基模型可以服从一定的假设。通过不同的采样增加模型的差异性来使各个模型之间具有较大的差异性。1.2 bagging的原理分析1.2.1 Bagging的核心:自助采样(bootstrap),即有放回的从数据集中进行采样,也就是说,同样的一个样本可能被多次进行采样。1.2.2 基本流程:首先我们随机取出一个样本放入采样集合中,再把这个样本放回初始数据集,重复K次采样,最终我

2021-04-17 23:08:57 311

原创 集成学习(中)Task07:投票法的原理和案例分析

1.投票法的思路投票法作用:可以帮助我们提高模型的泛化能力,减少模型的错误率,提高鲁棒性。回归模型:投票法最终的预测结果是多个其他回归模型预测结果的平均值。分类模型:硬投票法的预测结果是多个模型预测结果中出现次数最多的类别,软投票对各类预测结果的概率进行求和,最终选取概率之和最大的类标签。1.1 投票法的原理分析投票法是一种遵循少数服从多数原则的集成学习模型,通过多个模型的集成降低方差,从而提高模型的鲁棒性。在理想情况下,投票法的预测效果应当优于任何一个基模型的预测效果。1.1.1 投票法在回归

2021-04-14 22:54:37 280

原创 掌握分类问题的评估及超参数调优 task 6

评估模型的性能并调参1. 用管道简化工作流同时进行数据标准化,PCA降维和拟合逻辑回归模型并预测。把所有的操作全部封在一个管道pipeline内形成一个工作流:标准化+PCA+逻辑回归方式1:make_pipeline方式2:Pipeline2. 使用k折交叉验证评估模型性能我们每次的测试集将不再只包含一个数据,而是多个,具体数目将根据K的选取决定。比如,如果K=5,那么我们利用五折交叉验证的步骤就是:1.将所有数据集分成5份2.不重复地每次取其中一份做测试集,用其他四份做训练集训练模

2021-03-29 22:50:37 248 1

原创 掌握基本的分类模型 task 5

掌握基本的分类模型1 使用sklearn构建完整的分类项目1.1 收集数据集并选择合适的特征。1.2 选择度量模型性能的指标:度量分类模型的指标和回归的指标有很大的差异,首先是因为分类问题本身的因变量是离散变量,因此像定义回归的指标那样,单单衡量预测值和因变量的相似度可能行不通。而且对于每个类别错误率的代价不同。真阳性TP:预测值和真实值都为正例;真阴性TN:预测值与真实值都为正例;假阳性FP:预测值为正,实际值为负;假阴性FN:预测值为负,实际值为正;分类模型的指标:准确率:

2021-03-28 01:37:51 142

原创 集成学习(上)对模型超参数进行调优(调参)

超参数进行调优岭回归中的参数λ\lambdaλ和参数w之间有什么不一样?事实上,参数w是我们通过设定某一个具体的λ\lambdaλ后使用类似于最小二乘法、梯度下降法等方式优化出来的,我们总是设定了λ\lambdaλ是多少后才优化出来的参数w。1.1 参数与超参数,最本质概念的区别:参数:使用最小二乘法或者梯度下降法等最优化算法优化出来的数我们称为参数,类似于λ\lambdaλ一样,超参数:我们无法使用最小二乘法或者梯度下降法等最优化算法优化出来的数。模型参数是模型内部的配置变量,其值可

2021-03-25 01:21:23 938

原创 集成学习(上)偏差与方差理论

1.优化基础模型1.1 训练均方误差与测试均方误差:最常用的评价指标为均方误差,即:MSE=1N∑i=1N(yi−f^(xi))2MSE = \frac{1}{N}\sum\limits_{i=1}^{N}(y_i -\hat{ f}(x_i))^2MSE=N1​i=1∑N​(yi​−f^​(xi​))2,其中f^(xi)\hat{ f}(x_i)f^​(xi​) 是样本xix_ixi​应用- 建立的模型 f^\hat{f}f^​预测的结果。如果所用的数据是训练集上的数据,那么这个误差为训练均方误差

2021-03-23 00:53:29 517

原创 机器学习 掌握基本的回归模型

机器学习 掌握基本的回归模型使用sklearn构建完整的机器学习项目流程一个完整的机器学习项目分为以下步骤:明确项目任务:回归/分类收集数据集并选择合适的特征。选择度量模型性能的指标。选择具体的模型并进行训练以优化模型。评估模型的性能并调参。1. 使用sklearn构建完整的回归项目1.1 收集数据集并选择合适的特征1.2 选择度量模型性能的指标MSE均方误差:MSE(y,y^)=1nsamples∑i=0nsamples−1(yi−y^i)2.\text{MSE}(y, \ha

2021-03-19 01:54:41 194

原创 集成学习(上)机器学习基础

集成学习(上)机器学习基础1.机器学习概念1.1 机器学习的重要的目标利用数学模型来理解数据,发现数据中的规律,用作数据的分析和预测。1.2 机器学习分类1.机器学习的任务可分为:有监督学习和无监督学习有监督学习:给定某些特征去估计因变量,即因变量存在的时候,我们称这个机器学习任务为有监督学习。如:我们使用房间面积,房屋所在地区,环境等级等因素去预测某个地区的房价。无监督学习:给定某些特征但不给定因变量,建模的目的是学习数据本身的结构和关系。如:我们给定某电商用户的基本信息和消费记录,通过观

2021-03-16 00:10:50 348 1

原创 数据分析 Task 5:作者信息关联

数据分析 Task 5:作者信息关联1 任务说明学习主题:作者关联(数据建模任务),对论文作者关系进行建模,统计最常出现的作者关系;学习内容:构建作者关系图,挖掘作者关系学习成果:论文作者知识图谱、图关系挖掘2 数据处理步骤将作者列表进行处理,并完成统计。具体步骤如下:将论文第一作者与其他作者(论文非第一作者)构建图;使用图算法统计图中作者与其他作者的联系;3 社交网络分析图是复杂网络研究中的一个重要概念。Graph是用点和线来刻画离散事物集合中的每对事物间以某种方式相联系的数学模型。G

2021-01-25 22:05:33 149

原创 数据分析 Task 4 论文种类分类

1 任务说明学习主题:论文分类(数据建模任务),利用已有数据建模,对新论文进行类别分类;学习内容:使用论文标题完成类别分类;学习成果:学会文本分类的基本方法、TF-IDF等;2 数据处理步骤在原始arxiv论文中论文都有对应的类别,而论文类别是作者填写的。在本次任务中我们可以借助论文的标题和摘要完成:对论文标题和摘要进行处理;对论文类别进行处理;构建文本分类模型;3 文本分类思路思路1:TF-IDF+机器学习分类器直接使用TF-IDF对文本提取特征,使用分类器进行分类,分类

2021-01-23 00:59:58 132

原创 数据分析学习 Task3:论文代码统计

任务3:论文代码统计3.1 任务说明任务主题:论文代码统计,统计所有论文出现代码的相关统计;任务内容:使用正则表达式统计代码连接、页数和图表数据;任务成果:学习正则表达式统计;3.2 数据处理步骤在原始arxiv数据集中作者经常会在论文的comments或abstract字段中给出具体的代码链接,所以我们需要从这些字段里面找出代码的链接。确定数据出现的位置;使用正则表达式完成匹配;完成相关的统计;3.3 正则表达式正则表达式(regular expression)描述了一种字符

2021-01-19 23:11:00 171

原创 数据分析 Task2:论文作者统计

Task2:论文作者统计2.1 任务说明任务主题:论文作者统计,统计所有论文作者出现频率Top10的姓名;任务内容:论文作者的统计、使用 Pandas 读取数据并使用字符串操作;任务成果:学习 Pandas 的字符串操作;2.2 数据处理步骤在原始arxiv数据集中论文作者authors字段是一个字符串格式,其中每个作者使用逗号进行分隔分,所以我们我们首先需要完成以下步骤:使用逗号对作者进行切分;剔除单个作者中非常规的字符;具体操作可以参考以下例子:C. Bal\\'azs, E. L.

2021-01-16 05:14:36 366

原创 数据分析 Task 1:论文数据统计

任务1:论文数据统计 打卡1.1 任务说明1.2 数据集介绍1.3 arxiv论文类别介绍1.4 具体代码实现以及讲解1.4.1 导入package并读取原始数据1.4.2 数据预处理1.4.3 数据分析及可视化1.1 任务说明任务主题:论文数量统计,即统计2019年全年计算机各个方向论文数量;任务内容:赛题的理解、使用 Pandas 读取数据并进行统计;任务成果:学习 Pandas 的基础操作;可参考的学习资料:开源组织Datawhale joyful-pandas项目1.2 数据集介绍数据

2021-01-13 23:55:20 359

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除