天池比赛
Michael-洋
本人学生一枚,专业要求编程,学习学习
展开
-
DataWhale天池比赛 Task5
模型集成5.1集成学习方法常见的集成学习方法有Stacking、Bagging和Boosting,同时这些集成学习方法与具体验证集划分联系紧密。由于深度学习模型一般需要较长的训练周期,如果硬件设备不允许建议选取留出法,如果需要追求精度可以使用交叉验证的方法。那么在10个CNN模型可以使用如下方式进行集成: 对预测的结果的概率值进行平均,然后解码为具体字符; 对预测的字符进行投票,得到最终字符。 5.2深度学习中的集成学习5.2.1DropoutDropout经常.原创 2020-06-02 23:52:28 · 199 阅读 · 0 评论 -
DataWhale天池比赛 Task4
模型训练与验证4.1验证集划分方式4.1.1留出法(Hold-Out)直接将训练集划分成两部分,新的训练集和验证集。这种划分方式的优点是最为直接简单;缺点是只得到了一份验证集,有可能导致模型在验证集上过拟合。留出法应用场景是数据量比较大的情况。4.1.2交叉验证法(Cross Validation,CV)将训练集划分成K份,将其中的K-1份作为训练集,剩余的1份作为验证集,循环K训练。这种划分方式是所有的训练集都是验证集,最终模型验证精度是K份平均得到。这种方式的优点是验证集精度比较可靠原创 2020-05-30 23:45:15 · 196 阅读 · 0 评论 -
DataWhale天池比赛 Task3
字符识别模型3.1 学习目标 学习CNN基础和原理 使用Pytorch框架构建CNN模型,并完成训练 3.2Pytorch构建CNN模型3.2.1 搭建自己的网络# 定义模型class SVHN_Model1(nn.Module): def __init__(self): super(SVHN_Model1, self).__init__() # CNN提取特征模块 self.cnn = nn.Sequential.原创 2020-05-26 22:58:14 · 189 阅读 · 0 评论 -
DataWhale天池比赛 Task2
数据读取与数据增强1、数据读取在Pytorch中数据是通过Dataset进行封装,并通过DataLoder进行并行读取。※注意两个概念:Dataset:对数据集的封装,提供索引方式的对数据样本进行读取DataLoder:对Dataset进行封装,提供批量读取的迭代读取class SVHNDataset(Dataset): def __init__(self, img_path, img_label, transform=None): self.img_pat原创 2020-05-23 23:35:35 · 259 阅读 · 0 评论 -
DataWhale天池比赛 Task1
Task1 赛事理解任务本赛题需要选手完成街景字符编码识别,即识别图片中所有的字符。数据如上图该数据来自Google街景真实场景图像中的门牌号。训练集数据包括3W张照片,验证集数据包括1W张照片,每张照片包括颜色图像和对应的编码类别和具体位置(字符的位置框);为了保证比赛的公平性,测试集A包括4W张照片,测试集B包括4W张照片。思路1)按定长字符串处理2)按单字符目标检测处理评价指标评价标准为准确率,选手提交结果与实际图片的编码进行对比,以编码整体识别准确率为评价指标原创 2020-05-20 15:57:46 · 248 阅读 · 0 评论