- 博客(36)
- 资源 (2)
- 收藏
- 关注
原创 助力精准气象和海洋预测笔记
竞赛题目发生在热带太平洋上的厄尔尼诺-南方涛动(ENSO)现象是地球上最强、最显著的年际气候信号。通过大气或海洋遥相关过程,经常会引发洪涝、干旱、高温、雪灾等极端事件,对全球的天气、气候以及粮食产量具有重要的影响。准确预测ENSO,是提高东亚和全球气候预测水平和防灾减灾的关键。本次赛题是一个时间序列预测问题。基于历史气候观测和模式模拟数据,利用T时刻过去12个月(包含T时刻)的时空序列(气象因子),构建预测ENSO的深度学习模型,预测未来1-24个月的Nino3.4指数,如下图所示:图1 赛
2021-02-25 08:54:37 373
原创 天池Docker使用笔记
Task01:天池Docker使用笔记容器的基本概念什么是容器?容器就是一个视图隔离、资源可限制、独立文件系统的进程集合。所谓“视图隔离”就是能够看到部分进程以及具有独立的主机名等;控制资源使用率则是可以对于内存大小以及 CPU 使用个数等进行限制。容器就是一个进程集合,它将系统的其他资源隔离开来,具有自己独立的资源视图。容器具有一个独立的文件系统,因为使用的是系统的资源,所以在独立的文件系统内不需要具备内核相关的代码或者工具,我们只需要提供容器所需的二进制文件、配置文件以及依赖即可。只要容
2021-02-22 02:50:08 445 1
原创 NLP-新闻文本分类(六、基于深度学习的文本分类3
BERT微调将最后一层的第一个token即[CLS]的隐藏向量作为句子的表示,然后输入到softmax层进行分类。import loggingimport randomimport numpy as npimport torchlogging.basicConfig(level=logging.INFO, format='%(asctime)-15s %(levelname)s: %(message)s')# set seedseed = 666random.seed(seed
2020-08-04 23:16:26 534
原创 NLP-基于深度学习的文本分类2
Word2Vec文本法Word2Vec词向量word2vec模型背后的基本思想是对出现在上下文环境里的词进行预测。对于每一条输入文本,选取一个上下文窗口和一个中心词,并基于这个中心词去预测窗口里其他词出现的概率。因此,word2vec模型可以方便地从新增语料中学习到新增词的向量表达,是一种高效的在线学习算法(online learning)。word2vec的主要思路:通过单词和上下文彼此预测,对应的两个算法分别为:Skip-grams (SG):预测上下文 Continuous Bag o
2020-07-31 21:24:52 317
原创 NLP 基于深度学习的文本分类1
基于深度学习的文本分类与传统机器学习不同,深度学习既提供特征提取功能,也可以完成分类的功能。本文将学习如何使用深度学习来完成文本表示。学习目标 学习FastText的使用和基础原理 学会使用验证集进行调参 现有文本表示方法的缺陷之前介绍几种文本表示方法:One-hotBag of WordsN-gramTF-IDF也通过sklean进行了相应的实践,相信你也有了初步的认知。但上述方法都或多或少存在一定的问题:转换得到的向量维度很高,需要较长的训练实践;没有
2020-07-27 22:21:26 389
原创 NLIP - ML-based 文本分类
ML-based 文本分类基于sklearn的one-hot向量表示示例from sklearn.feature_extraction.text import CountVectorizercorpus = [ 'This is the first document.', 'This document is the second document.', 'And this is the third one.', 'Is this the first doc..
2020-07-25 22:20:59 317
原创 NLP - Task2 数据读取与数据分析
数据读取import pandas as pdimport matplotlib.pyplot as pltts_path = './Datawhale/nlp/train_set.csv'train_df = pd.read_csv(ts_path, encoding= 'unicode_escape',sep='\t',nrows= 100)#UTF-8对train_set.csv解码错误了,使用encoding= 'unicode_escape'print(train_df.hea
2020-07-22 22:15:17 114
原创 NLP之新闻文本分类--赛题理解
NLP之新闻文本分类--赛题理解天池零基础入门NLP之新闻文本分类赛题理解赛题名称:零基础入门NLP之新闻文本分类赛题目标:通过这道赛题可以引导大家走入自然语言处理的世界,带大家接触NLP的预处理、模型构建和模型训练等知识点。赛题任务:赛题以自然语言处理为背景,要求选手对新闻文本进行分类,这是一个典型的字符识别问题。学习目标理解赛题背景与赛题数据完成赛题报名和数据下载,理解赛题的解题思路赛题数据赛题以匿名处理后的新闻数据为赛题数据,数据集报名后可见并可下载。赛题数据为新闻文本,并.
2020-07-21 23:10:57 260
原创 5 模型集成
5 模型集成(一)集成学习集成方法是将几种机器学习技术组合成一个预测模型的元算法,以达到减小方差(bagging)、偏差(boosting)或改进预测(stacking)的效果。集成学习在各个规模的数据集上都有很好的策略。数据集大: 划分成多个小数据集,学习多个模型进行组合数据集小: 利用Bootstrap方法进行抽样,得到多个数据集,分别训练多个模型再进行组合首先将PPM(二)深度学习中的集成学习思路的技巧1. Drop outDropout可以作为训练深度神经网络的一种tri.
2020-06-02 21:14:54 165
原创 4 模型训练与验证
构造验证集:避免过拟合与欠拟合的发生。尤其是过拟合,过拟合 的情况是数据集太少,差别不是太大本次数据集已经分好,只要训练测试集。训练集和验证集分开的,验证训练集的方法:将训练集划分为K份,其中K-1份作为训练集,剩余的一份作为验证集,循环K训练。这种划分方式是所有的训练集都是验证集,最终模型验证精度是K份平均得到。这种方式的有点是验证集精度比较可靠稳定,训练K次得到K个多样性差异模型,CV验证缺点是需要训练K次,不适合数据量恒大情况。解决过拟合和欠拟合的方法1增加数据:比如通过数
2020-05-30 23:00:18 447
原创 字符识别模型——CNN模型构建
字符识别模型——CNN模型构建这个CNN模型包括两个卷积层,最后并联6个全连接层进行分类。构建代码:import torchtorch.manual_seed(0)torch.backends.cudnn.deterministic = Falsetorch.backends.cudnn.benchmark = Trueimport torchvision.models as modelsimport torchvision.transforms as transformsimp
2020-05-26 21:27:31 521
原创 数据读取与数据扩增
数据读取与数据扩增图像读取 OpenCV读取图片 OpenCV显示图片 数据扩增 数据扩增方法 常用的数据扩增库 pytorch读取数据 重载Dataset 定义Dataset 图像读取OpenCV读取图片import cv2# 导入Opencv库img = cv2.imread('cat.jpg')# Opencv默认颜色通道顺序是BRG,转换一下img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)使用cv.
2020-05-23 22:49:48 231
原创 街景字符编码识别 1
1 比赛说明比赛链接:https://tianchi.aliyun.com/competition/entrance/531795/introduction比赛任务:以计算机视觉中字符识别为背景,要求参赛者预测真实场景下的字符识别,这是一个典型的字符识别问题——零基础入门CV赛事之街景字符识别。2.2 数据集训练集:3W张照片 验证集:1W张照片 测试集A:4W张照片 测试集B:4W张照片 每张照片包括颜色图像和对应的编码类别和具体位置,如下图所示:2.3 数据标注信息(json文
2020-05-20 21:07:04 365
原创 pandas 分组
一、SAC过程1. 内涵SAC指的是分组操作中的split-apply-combine过程其中split指基于某一些规则,将数据拆成若干组,apply是指对每一组独立地使用函数,combine指将每一组的结果组合成某一类数据结构2. apply过程在该过程中,我们实际往往会遇到四类问题:整合(Aggregation)——即分组计算统计量(如求均值、求每组元素个数)变换(...
2020-04-26 23:21:43 272
原创 pandas-索引
一、单级索引1. loc方法、iloc方法、[]操作符最常用的索引方法可能就是这三类,其中iloc表示位置索引,loc表示标签索引,[]也具有很大的便利性,各有特点(a)loc方法(注意:所有在loc中使用的切片全部包含右端点!)① 单行索引:df.loc[1103]② 多行索引:df.loc[[1102,2304]]df.loc[1304:]df.loc...
2020-04-22 23:24:41 886
原创 Pandas基础
1. 读取(a)csv格式df = pd.read_csv('data/table.csv')(b)txt格式df_txt = pd.read_table('data/table.txt') #可设置sep分隔符参数(c)xls或xlsx格式df_excel = pd.read_excel('data/table.xlsx')2. 写入df.to_csv...
2020-04-20 22:43:10 167
原创 05 模型融合
模型融合目标:对于多种调参完成的模型进行模型融合模型融合是比赛后期一个重要的环节,大体来说有如下的类型方式。1.简单加权融合:回归(分类概率):算术平均融合(Arithmetic mean),几何平均融合(Geometric mean);#简单加权平均,结果直接融合## 生成一些简单的样本数据,test_prei 代表第i个模型的预测值test_pre1 = [1.2, 3.2...
2020-04-04 20:41:49 292
原创 04建模调参
线性回归模型https://zhuanlan.zhihu.com/p/49480391线性回归是一种被广泛应用的回归技术,也是机器学习里面最简单的一个模型,它有很多种推广形式,本质上它是一系列特征的线性组合,在二维空间中,你可以把它视作一条直线,在三维空间中可以视作是一个平面。线性回归最普通的形式是其中x向量代表一条样本{x1,x2,x3....xn},其中x1,x2,x...
2020-04-01 21:37:33 447
原创 03特征工程
特征工程目标:对于特征进行进一步分析,并对于数据进行处理完成对于特征工程的分析常见的特征工程包括: 异常处理: 通过箱线图(或 3-Sigma)分析删除异常值; DataFrame.quantile(q=0.5, axis=0, numeric_only=True, interpolation=’linear’)参数- q : float ...
2020-03-28 20:55:10 408
原创 2 数据分析EDA
#2.3.1 载入各种数据科学以及可视化库: 数据科学库 pandas、numpy、scipy; 可视化库 matplotlib、seabon; 其他;#2.3.2 载入数据: 载入训练集和测试集; 简略观察数据(head()+shape);#2.3.3 数据总览: 通过describe()来熟悉数据的相关统计量 通过info(...
2020-03-24 21:38:38 193
原创 样式迁移笔记
样式迁移如果你是一位摄影爱好者,也许接触过滤镜。它能改变照片的颜色样式,从而使风景照更加锐利或者令人像更加美白。但一个滤镜通常只能改变照片的某个方面。如果要照片达到理想中的样式,经常需要尝试大量不同的组合,其复杂程度不亚于模型调参。在本节中,我们将介绍如何使用卷积神经网络自动将某图像中的样式应用在另一图像之上,即样式迁移(style transfer)[1]。这里我们需要两张输入图像,一张...
2020-02-22 19:05:05 476
原创 目标检测和边界框笔记
锚框目标检测算法通常会在输入图像中采样大量的区域,然后判断这些区域中是否包含我们感兴趣的目标,并调整区域边缘从而更准确地预测目标的真实边界框(ground-truth bounding box)。不同的模型使用的区域采样方法可能不同。这里我们介绍其中的一种方法:它以每个像素为中心生成多个大小和宽高比(aspect ratio)不同的边界框。这些边界框被称为锚框(anchor box)。我们将在...
2020-02-22 18:47:23 1394
原创 GAN和DCGAN
Generative Adversarial Networks生成式对抗网络GAN的体系结构如图所示。在GAN架构中有两个部分:1生成器(generator)网络能够生成看起来像真实的数据。;2鉴别器(discrimiator)网络试图区分虚假数据和真实数据。这两个网络都在互相竞争。生成器网络试图欺骗鉴别器网络。这时,鉴别器网络就会适应新的假数据。这些信息反过来又用于改进生成器。鉴...
2020-02-22 18:13:02 2508
原创 文本分类笔记
文本情感分类文本分类是自然语言处理的一个常见任务,它把一段不定长的文本序列变换为文本的类别。本节关注它的一个子问题:使用文本情感分类来分析文本作者的情绪。这个问题也叫情感分析,并有着广泛的应用。同搜索近义词和类比词一样,文本分类也属于词嵌入的下游应用。在本节中,我们将应用预训练的词向量和含多个隐藏层的双向循环神经网络与卷积神经网络,来判断一段不定长的文本序列中包含的是正面还是负面的情绪。后...
2020-02-21 17:10:34 304
原创 词嵌入基础笔记
使用 one-hot 向量表示单词,虽然它们构造起来很容易,但通常并不是一个好选择。一个主要的原因是,one-hot 词向量无法准确表达不同词之间的相似度,如我们常常使用的余弦相似度。Word2Vec 词嵌入工具的提出正是为了解决上面这个问题,它将每个词表示成一个定长的向量,并通过在语料库上的预训练使得这些向量能较好地表达不同词之间的相似和类比关系,以引入一定的语义信息。基于两种概率模型的假设...
2020-02-21 15:56:41 796
原创 Transformer笔记
Transformer在主流的神经网络架构如卷积神经网络(CNNs)和循环神经网络(RNNs)中:CNNs 易于并行化,却不适合捕捉变长序列内的依赖关系。 RNNs 适合捕捉长距离变长序列的依赖,但是却难以实现并行化处理序列。为了整合CNN和RNN的优势,[Vaswani et al., 2017]创新性地使用注意力机制设计了Transformer模型。该模型利用attention机...
2020-02-18 15:21:29 4394
原创 注意力机制和Seq2seq模型笔记
注意力机制在“编码器—解码器(seq2seq)”⼀节⾥,解码器在各个时间步依赖相同的背景变量(context vector)来获取输⼊序列信息。当编码器为循环神经⽹络时,背景变量来⾃它最终时间步的隐藏状态。将源序列输入信息以循环单位状态编码,然后将其传递给解码器以生成目标序列。然而这种结构存在着问题,尤其是RNN机制实际中存在长程梯度消失的问题,对于较长的句子,我们很难寄希望于将输入的序列转化...
2020-02-18 14:35:29 718
原创 机器翻译笔记
机器翻译和数据集机器翻译(MT):将一段文本从一种语言自动翻译为另一种语言,用神经网络解决这个问题通常称为神经机器翻译(NMT)。 主要特征:输出是单词序列而不是单个单词。 输出序列的长度可能与源序列的长度不同。字符在计算机里是以编码的形式存在,我们通常所用的空格是 \x20 ,是在标准ASCII可见字符 0x20~0x7e 范围内。 而 \xa0 属于 latin1 (ISO/IEC_8...
2020-02-18 12:39:39 201
原创 卷积神经网络基础
卷积神经网络基础¶本节我们介绍卷积神经网络的基础概念,主要是卷积层和池化层,并解释填充、步幅、输入通道和输出通道的含义。二维卷积层本节介绍的是最常见的二维卷积层,常用于处理图像数据。二维互相关运算二维互相关(cross-correlation)运算的输入是一个二维输入数组和一个二维核(kernel)数组,输出也是一个二维数组,其中核数组通常称为卷积核或过滤器(filter)。卷...
2020-02-17 21:41:43 357
原创 梯度消失、梯度爆炸笔记
梯度消失和梯度爆炸深度模型有关数值稳定性的典型问题是消失(vanishing)和爆炸(explosion)。当神经网络的层数较多时,模型的数值稳定性容易变差。假设一个层数为L的多层感知机的第层的权重参数为,输出层的权重参数为。为了便于讨论,不考虑偏差参数,且设所有隐藏层的激活函数为恒等映射(identity mapping)ϕ(x)=x。给定输入X,多层感知机的第l层的输出。此时,如果...
2020-02-17 20:34:06 164
原创 过拟合、欠拟合及其解决方案笔记
模型选择、过拟合和欠拟合训练误差和泛化误差训练误差(training error)和泛化误差(generalization error):通俗来讲,前者指模型在训练数据集上表现出的误差,后者指模型在任意一个测试数据样本上表现出的误差的期望,并常常通过测试数据集上的误差来近似。计算训练误差和泛化误差可以使用损失函数,例如线性回归用到的平方损失函数和softmax回归用到的交叉熵损失函数。...
2020-02-17 20:07:20 194
原创 循环神经网络知识要点笔记
循环神经网络基于当前的输入与过去的输入序列,预测序列的下一个字符。循环神经网络引入一个隐藏变量HHH,用HtH_{t}Ht表示HHH在时间步ttt的值。HtH_{t}Ht的计算基于XtX_{t}Xt和Ht−1H_{t-1}Ht−1,可以认为HtH_{t}Ht记录了到当前字符为止的序列信息,利用HtH_{t}Ht对序列的下一个字符进行预测。假设Xt∈Rn×dX_{t}\in \mat...
2020-02-14 11:52:32 217
原创 多层感知机要点笔记
多层感知机的基本知识给定一个小批量样本,其批量大小为n,输入个数为d。假设多层感知机只有一个隐藏层,其中隐藏单元个数为h。记隐藏层的输出(也称为隐藏层变量或隐藏变量)为,有。因为隐藏层和输出层均是全连接层,可以设隐藏层的权重参数和偏差参数分别为和,输出层的权重和偏差参数分别为和。单隐藏层的多层感知机其输出的计算为<center></center><...
2020-02-13 15:52:28 404
原创 softmax回归知识要点笔记
softmax的基本概念softmax回归同线性回归一样,也是一个单层神经网络。softmax回归的输出层也是一个全连接层。分类问题需要得到离散的预测输出,一个简单的办法是将输出值当作预测类别是i的置信度,并将值最大的输出所对应的类作为预测输出,即输出。输出问题直接使用输出层的输出有两个问题:一方面,由于输出层的输出值的范围不确定,我们难以直观上判断这些值的意义。另一方面,...
2020-02-12 12:59:21 452
原创 线性回归要点笔记
线性回归的基本要素¶模型线性回归假设输出与各个输入之间是线性关系数据集在机器学习术语里,该数据集被称为训练数据集(training data set)或训练集(training set)用来预测标签的两个因素叫作特征(feature)。特征用来表征样本的特点。损失函数在模型训练中,我们需要衡量预测值与真实值之间的误差。通常我们会选取一个非负数作为误差,且数值越小表示误差...
2020-02-12 11:22:50 302
原创 ubuntu16.04 安装caffe 编译错误 cannot find -lhdf5_hl的一种情况
按照《深度学习与计算机视觉》一书221页make pycaffe -j 命令后出现LD -o .build_release/lib/libcaffe.so.1.0.0/usr/bin/ld: cannot find -lhdf5_hl/usr/bin/ld: cannot find -lhdf5collect2: error: ld returned 1 exit statusMakefile:5...
2018-07-16 14:43:17 2188 1
特征工程.ipynb
2020-03-28
Task2 数据分析.ipynb
2020-03-24
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人