Datawhale Team Learning
文章平均质量分 77
Zee_Chao
to be slim, to be smart
展开
-
《计算之魂》第一章读书笔记
《计算之魂》第一章读书笔记原创 2022-08-20 00:53:06 · 319 阅读 · 0 评论 -
集成学习-Task5 Stacking
1. Stacking概述 严格来说Stacking不是一种集成学习算法,它更像是一种集成策略。简单来说,Stacking是一种两层集成策略。它的第一层含有多个基础分类器,把预测的结果提供给第二层。第二层的分类器通常是逻辑回归,它会将第一层分类器的结果当做特征输出预测结果。2. Blending——简化版的Stacking Blending也遵从Stacking的策略,但是比较简单,可以用来帮助深入理解Stacking。它的算法流程如下: (1)将数...原创 2021-09-01 18:45:10 · 430 阅读 · 0 评论 -
集成学习-Task4 Boosting
1. Bagging与Boosting的联系与区别 Bagging思想的本质是:通过bootstrap的方式对全样本数据集做有放回抽样得到多个子集,在不同的子集上训练不同的弱分类器,最后通过投票的方式决定最终预测结果。这些弱分类器都倾向于过拟合并且Bagging会通过降低方差的方式减少预测误差。 Boosting则是采取另一种思想:使用全样本数据集训练一系列弱分类器,然后将这些弱分类器组合形成一个预测性能更好的分类器。这些弱分类器都倾向于欠拟合并且Boosting会通过降...原创 2021-08-24 23:00:22 · 486 阅读 · 0 评论 -
集成学习-Task3 投票法与Bagging
1.基于投票法的集成学习1.1投票与机器学习 投票简单来说就是“少数服从多数”,那么这个道理跟机器学习有什么关系呢? 我们知道集成学习简单来说就是用多个不同的模型来处理同一个问题,那么对于多个不同的处理结果我们应该如何选取呢? 对于一个分类问题来说,如果我们用多个不同的模型来预测,可能会得到多个不同的结果。显然,这里我们就可以用少数服从多数的投票法来决定。我们可以直接将投票结果中出现次数最多的类别当作预测结果,这种投票方法叫硬投票。我们还可以将预...原创 2021-08-22 20:11:11 · 666 阅读 · 0 评论 -
集成学习-Task2 机器学习基础模型回顾
1.机器学习的分类 假设数据集中有N个样本,每个样本记作。前m个维度称之为特征,最后一个维度称之为因变量(我习惯叫做标签)。特征是用来描述影响因变量的因素的。根据是否有因变量,机器学习可以分为有监督学习和无监督学习。有监督学习:有因变量,预测结果。例如根据房屋参数做房价预测。其中,根据因变量是连续的还是离散的,有监督学习还可以细分为回归和分类。无监督学习:无因变量,寻找数据中存在的关系或结构。例如根据电商用户消费记录寻找行为相似的用户。2.有...原创 2021-08-19 16:03:34 · 163 阅读 · 0 评论 -
集成学习-Task1 机器学习的数学基础
1. 高等数学(略去部分内容)1.1 梯度 梯度是一个“向量”而非标量。因此梯度具有两个属性:方向和长度(模)。 梯度与方向导数具有很密切的联系。函数在某点的梯度,其方向意味着函数在该点的所有方向导数中沿着该方向可以取得最大值,而这个最大方向导数的值就是梯度的模。 更通俗些来讲,从函数变化的角度来看,函数在某点的梯度,其意味着函数在该点沿着此方向增长速度会最快,这个增长的变化率就是梯度的模。1.2 雅各比矩阵(Jacobian矩阵) ...原创 2021-08-17 20:01:20 · 374 阅读 · 0 评论 -
自然语言处理实践(新闻文本分类)-Task3 简单词向量+机器学习算法
目录1.学习内容2.构建词向量并将处理好的数据保存2.1准备工作2.2词袋向量2.3 TFIDF向量3.将不同的词向量应用到不同的机器学习分类算法上3.1逻辑回归3.1.1词袋+逻辑回归3.1.2 TFIDF+逻辑回归3.2岭回归分类3.2.1词袋+岭回归3.2.2 TFIDF+岭回归3.3朴素贝叶斯分类3.3.1词袋+朴素贝叶斯3.3.2 TFIDF+朴素贝叶斯3.4 SVM3.4.1词袋+SVM3.4.2 T...原创 2020-07-25 23:11:17 · 868 阅读 · 0 评论 -
自然语言处理实践(新闻文本分类)-Task2 数据分析
1.准备工作import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom collections import Counterdf = pd.read_csv(r'./data/train_set.csv', sep = '\t')print(df.head()) label text0 2 .原创 2020-07-22 23:17:34 · 645 阅读 · 0 评论 -
自然语言处理实践(新闻文本分类)-Task1 赛题理解
1.赛题介绍赛题:Datawhale零基础入门NLP赛事地址:https://tianchi.aliyun.com/competition/entrance/531810/introduction?spm=5176.12281973.1005.1.3dd52448NqFj16赛题以自然语言处理为背景,要求选手根据新闻文本字符对新闻的类别进行分类,这是一个经典文本分类问题。通过这道赛题可以引导大家走入自然语言处理的世界,带大家接触NLP的预处理、模型构建和模型训练等知识点。2. 数据介绍.原创 2020-07-21 22:31:42 · 430 阅读 · 0 评论 -
CS224N(NLP)组队学习-L13 Contextual Word Representations and Pretraining
注意:博主本身第一次接触NLP。该博文只是把博主目前能够理解的部分记录了下来,以下内容实际上还有很多的细节需要进一步补充!1.学习内容1. ELMo2. Transformer3. GPT4. BERT本项目参见https://github.com/datawhalechina/team-learning/tree/master/04%20%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%862. ELMo无论我们使用那.原创 2020-07-03 20:35:04 · 196 阅读 · 0 评论 -
CS224N(NLP)组队学习-L12 Information from Parts of Words: Subword Models
1.学习内容1.基于单词的模型的局限2.词级和字符级语言模型3. n-gram思想4. fastText本项目参见https://github.com/datawhalechina/team-learning/tree/master/04%20%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%862.基于单词的模型的局限在使用基于单词的模型时需要处理规模庞大的词汇表。这种方式虽然效果不错,但是对于单词而言,只要稍微做些...原创 2020-06-30 18:51:11 · 198 阅读 · 0 评论 -
pandas组队学习-Task9 时序数据
目录1.学习内容2.准备工作3.创建时序数据3.1时序数据类型3.2创建时间点3.2.1 to_datetime()方法3.2.2date_range()方法3.2.3bdate_range()方法3.3 DateOffset对象3.3.1DateOffset与Timedelta的区别4.时序的索引及属性4.1索引切片4.2子集索引4.3时间点的属性5.重采样5.1一般用法5.2采样聚合5.3采样组的迭代...原创 2020-06-29 15:43:51 · 655 阅读 · 0 评论 -
CS224N(NLP)组队学习-L2 Word Vectors2 and Word Senses
1.学习内容1.了解word2vector的具体实现方法2.介绍其他实现方法本项目参见https://github.com/datawhalechina/team-learning/tree/master/04%20%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%862. Word2vector的实现细节Word2vector是计算单词词向量的一种方式。它的核心思想是预测每个单词和上下文单词之间的关系。具体实现算法有Skip-...原创 2020-06-27 20:16:40 · 212 阅读 · 0 评论 -
pandas组队学习-Task8 分类类型
目录1.学习内容2.准备工作3.分类变量的创建及其性质3.1创建3.2性质3.2.1查看分类类别以及是否有序3.2.2修改类别3.2.3添加类别3.2.4删除类别4.分类变量的排序4.1序的建立与退化4.1.2建立4.1.2退化4.2排序5.分类变量的比较操作5.1 与标量或等长序列的比较5.2与另一分类变量的比较5.2.1等式判别5.2.2不等式判别1.学习内容1.学习分类类型的创建...原创 2020-06-27 15:34:20 · 262 阅读 · 0 评论 -
pandas组队学习-Task7 文本数据(string类型)处理
1.学习内容1.了解string类型与object类型的区别2.学会string类型的各种处理方式本项目参见https://github.com/datawhalechina/team-learning/tree/master/Pandas%E6%95%99%E7%A8%8B%EF%BC%88%E4%B8%8A%EF%BC%892.准备工作import pandas as pdimport numpy as np3.string类型的性质与转换3.1string类...原创 2020-06-26 22:17:35 · 391 阅读 · 0 评论 -
CS224N(NLP)组队学习-L1 Introduction and Word Vectors
1.学习内容1.词义2.如何对一个词进行表示3.什么是word2vector4.word2vector的目标函数本项目参见https://github.com/datawhalechina/team-learning/tree/master/04%20%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%862.词义词义:语言或文字符号所表示的某种概念。通过wordnet,我们可以查找与某个英语单词含义相近其他词汇...原创 2020-06-24 18:54:42 · 238 阅读 · 0 评论 -
pandas组队学习-Task6 缺失值处理
目录1.学习内容2.准备工作3.发现缺失值并统计缺失值的情况3.1观察具体位置上是否出现缺失值3.2缺失值的统计3.3缺失值数据的筛选与过滤3.3.1找出某列缺失值所在的行数据3.3.2找出所有值都非缺失的行数据3.4缺失值符号介绍3.4.1旧体系的符号3.4.2新体系的数据类型和符号3.5convert_dtypes()方法4.缺失数据的运算与分组4.1运算4.2分组(groupby)5.缺失值的填充与删除...原创 2020-06-23 23:12:42 · 478 阅读 · 0 评论 -
pandas组队学习-Task5 表格的新增行列、数据填充与表格合并
1.学习内容1.学会如何对已有的表格新增行和列以及如何将不同的表格合并2.学会如何用其他表格的数据来对当前表格进行填充2.准备工作import numpy as npimport pandas as pddf = pd.read_csv('data/table.csv')print(df.head()) School Class ID Gender ...原创 2020-04-30 22:22:17 · 774 阅读 · 0 评论 -
pandas组队学习-Task4 用pandas对表格进行变形
1.学习内容1.了解透视表的构造与还原2.了解哑变量的生成本项目参见https://github.com/datawhalechina/team-learning/tree/master/Pandas%E6%95%99%E7%A8%8B%EF%BC%88%E4%B8%8A%EF%BC%892.准备工作import numpy as npimport pandas a...原创 2020-04-28 23:25:55 · 587 阅读 · 0 评论 -
pandas组队学习-Task3 分组方法groupby()和它的小伙伴们
目录1.学习内容2.什么是SAC过程3.准备工作4.groupby()方法4.1一般用法4.1.1按某一列分组4.1.2按多列分组4.1.3查看每一组的容量和分成的组数4.1.4遍历每一组4.1.5level参数和axis参数4.2groupby对象的特点4.2.1可用的方法4.2.2head()方法和firtst()方...原创 2020-04-26 21:11:22 · 1196 阅读 · 0 评论 -
pandas组队学习-Task2 pandas的各种索引操作
1.学习内容1.了解pandas支持的各种索引操作2.了解pandas对索引的设置3.了解pandas的索引函数4.利用pandas的索引操作对数据进行处理和抽样本项目参见https://github.com/datawhalechina/team-learning/tree/master/Pandas%E6%95%99%E7%A8%8B%EF%BC%88%E4%B8...原创 2020-04-23 22:05:52 · 1706 阅读 · 0 评论 -
pandas组队学习-Task1 pandas的基本操作
1.学习内容1.了解如何用pandas保存和读取不同文件类型的数据2.了解如何使用pandas的两个基本数据结构及其操作本项目参见https://github.com/datawhalechina/team-learning/tree/master/Pandas%E6%95%99%E7%A8%8B%EF%BC%88%E4%B8%8A%EF%BC%892.准备工作首先,需...原创 2020-04-20 22:41:16 · 1268 阅读 · 0 评论 -
零基础入门数据挖掘-Task5 模型融合
1. 学习内容1. 了解模型融合的目的2. 对于多种调参完成的模型进行模型融合3. 了解模型融合的各种方法本项目参见https://github.com/datawhalechina/team-learning2. 为什么要进行模型融合不同的模型在进行预测的时候都各有侧重。那么,如果将多个不同的模型一同进行考量,就很可能产生互补的效果从而使总体的预测效果提升。3. 回...原创 2020-04-03 22:20:03 · 222 阅读 · 0 评论 -
零基础入门数据挖掘-Task4 建模调参
目录1. 学习内容2. 准备工作3. 用线性回归简单建模3.1 用简单线性回归建模3.2 查看效果并做相应的调整3.3 K-折交叉验证3.4 模拟真实的业务情况3.5绘制学习率曲线和验证曲线4. 多模型对比4.1 预处理4.2线性模型与嵌入式特征选择4.3 非线性模型5. 模型调参(以LGB模型为例)5.1 贪心调参5.2 网格调参...原创 2020-04-01 20:57:02 · 1195 阅读 · 0 评论 -
零基础入门数据挖掘-Task3 特征工程
1. 学习内容1. 异常处理2. 特征归一化/标准化3. 数据分桶4. 缺失值处理5. 特征构造6. 特征筛选本项目参见https://github.com/datawhalechina/team-learning2. 导入相关模块和数据import pandas as pdimport numpy as npimport matplotlibimpor...原创 2020-03-28 19:14:31 · 571 阅读 · 0 评论 -
零基础入门数据挖掘-Task1 赛题理解
1. 赛题介绍赛题:零基础入门数据挖掘 - 二手车交易价格预测地址:https://tianchi.aliyun.com/competition/entrance/231784/introduction?spm=5176.12281957.1004.1.38b02448ausjSX比赛要求参赛选手根据给定的数据集,建立模型,最终预测二手汽车的交易价格。2. 数据介绍数据来自Eb...原创 2020-03-23 13:58:01 · 209 阅读 · 0 评论 -
零基础入门数据挖掘-Task2 数据分析
1. 学习内容1. 载入各种数据科学及可视化库2. 载入数据3. 数据总览4. 判断和处理缺失值与异常值5. 了解预测值分布6. 了解特征值分布7. 特征分析(包括类别特征和数字特征)8. 生成数据报告2. 载入数据库...原创 2020-03-24 21:14:30 · 572 阅读 · 0 评论