![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
天池竞赛
文章平均质量分 83
Better Bench
CS博士;研究领域:类脑计算、深度学习、机器学习、数据挖掘、自然语言处理、数学建模、量化金融,兼职网球教练4.0
展开
-
深度学习入门攻略(书籍、网课、实战项目)
目录1 基础理论1.1 基本概念1.2 语言和工具1.3 深度学习框架2 项目实战2.1 图像处理2.2 自然语言处理2.3 语音识别3 竞赛进阶1 基础理论1.1 基本概念(1)神经网络可参考学习【神经网络分类】(2)感知机(3)梯度下降(4)多层感知机(5)反向传播(6)损失函数(7)优化器(8)卷积(9)池化(10)注意力Attention。。。(11)三大应用领域图形处理CV:OCR、目标检测、图像识别等等。常用网络有LetNet、VGGNet、GoolgNet、.原创 2022-03-16 20:21:34 · 4334 阅读 · 0 评论 -
【2021 高校大数据挑战赛-智能运维中的异常检测与趋势预测】2 方案设计与实现-Python
目录相关链接1 问题一1.1 算法过程描述1.2 算法实现2 问题二2.1 算法过程描述2.2 算法实现3 问题三3.1 算法过程描述3.2 算法实现相关链接【2021 高校大数据挑战赛-智能运维中的异常检测与趋势预测】1 赛后总结与分析【2021 高校大数据挑战赛-智能运维中的异常检测与趋势预测】2 方案设计与实现-Python【完整代码下载 823316627Bandeng 的github】1 问题一1.1 算法过程描述(1)异常点个数检测思路:对每个小区的四个指标单独检测。即需要检测5原创 2021-11-04 19:57:56 · 2352 阅读 · 2 评论 -
【2021 高校大数据挑战赛-智能运维中的异常检测与趋势预测】1 赛后总结与分析
【2021 高校大数据挑战赛-智能运维中的异常检测与趋势预测】1 赛后总结与分析1 题目异常检测(异常诊断/发现)、异常预测、趋势预测,是智能运维中首当其冲需要解决的问题。这类问题是通过业务、系统、产品直接关联的 KPI 业务指标进行分析诊断,指标主要包括用户感知类(如页面打开延时)、服务性能(如用户点击量)、服务器硬件健康状况(如 CPU 利用率、内存使用率)等关键性能指标。不同场景的运维,分析的指标种类差异较大,但都具备时序性特点,不同场景的 KPI 指标,以毫秒、秒、分钟、小时、天为时间间隔的数原创 2021-11-03 23:27:22 · 1243 阅读 · 0 评论 -
2021 第五届“达观杯” 基于大规模预训练模型的风险事件标签识别】3 Bert和Nezha方案
目录相关链接1 引言2 NEZHA方案2.1 预训练2.2 微调3 Bert 方案3.1 预训练3.2 微调3 模型融合和TTA测试集数据增强4 总结和反思5 参考资料相关链接【2021 第五届“达观杯” 基于大规模预训练模型的风险事件标签识别】1 初赛Rank12的总结与分析【2021 第五届“达观杯” 基于大规模预训练模型的风险事件标签识别】2 DPCNN、HAN、RCNN等传统深度学习方案【2021 第五届“达观杯” 基于大规模预训练模型的风险事件标签识别】3 Bert和Nezha方案原创 2021-09-24 16:20:28 · 1385 阅读 · 0 评论 -
【2021 第五届“达观杯” 基于大规模预训练模型的风险事件标签识别】2 DPCNN、HAN、RCNN等传统深度学习方案
文章目录相关链接1 引言2 方案实现2.1 DPCNN2.2 HAN2.3 TextRCNN2.4 CapsuleNet2.5 TextRCNNAttention3 提分技巧3.1 多个模型的提交文件投票融合3.2 多个模型投票生成为标签相关链接【2021 第五届“达观杯” 基于大规模预训练模型的风险事件标签识别】1 初赛Rank12的总结与分析【2021 第五届“达观杯” 基于大规模预训练模型的风险事件标签识别】2 DPCNN、HAN、RCNN等传统深度学习方案【2021 第五届“达观杯” 基于大原创 2021-09-23 20:25:50 · 636 阅读 · 0 评论 -
【2021 第五届“达观杯” 基于大规模预训练模型的风险事件标签识别】1 初赛Rank12的总结与分析
相关链接【2021 第五届“达观杯” 基于大规模预训练模型的风险事件标签识别】1 初赛Rank12的总结与分析【2021 第五届“达观杯” 基于大规模预训练模型的风险事件标签识别】2 DPCNN、HAN、RCNN等传统深度学习方案【2021 第五届“达观杯” 基于大规模预训练模型的风险事件标签识别】3 Bert和Nezha方案1 赛题分析训练集有id、text、label三类,总共有14009条样本。text文本中词的个数平均45个,大部分53个。label标签虽然是层级标签,参考官方给出的原创 2021-09-23 09:18:42 · 859 阅读 · 1 评论 -
【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案--6 提分方案
目录1 相关信息2 引言3 提分技巧及实现3.1 数据增强3.2 投票融合3.2 伪标签4 加快训练4.1 混合精度训练4.2 加速训练的其他技巧4.2.1 有用到的加速策略4.2.2 未用到的加速策略1 相关信息【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–1 赛后总结与分析【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–2 数据分析【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–3 TextCNN Fasttext 方案【NLP】讯飞英文学术论文原创 2021-08-13 21:54:04 · 610 阅读 · 0 评论 -
【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–5 Bert 方案
目录1 相关信息2 引言3 实现3.1 数据预处理3.2 Bert4 提分点技巧讲解5 未来展望1 相关信息【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–1 赛后总结与分析【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–2 数据分析【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–3 TextCNN Fasttext 方案【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–4 机器学习LGB 方案【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–5原创 2021-08-13 19:18:17 · 978 阅读 · 1 评论 -
【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–4 机器学习LGB 方案
1 相关信息【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–1 赛后总结与分析【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–2 数据分析【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–3 TextCNN Fasttext 方案【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–4 机器学习LGB 方案【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–5 Bert 方案【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–6 提分方案2 引言原创 2021-08-12 22:47:18 · 408 阅读 · 0 评论 -
【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–3 TextCNN Fasttext 方案
目录1 相关信息2 引言3 方案3.1 加载包3.2 参数设置3.3 TextCNN 网络结构3.4 FastText 网络结构3.5 TextRNN网络结构3.6 DPCNN 网络结构3.5 数据预处理3.6 训练词向量3.7 封装训练集3.8 训练模型3.8.1 初始化网络权重3.8.2 对抗训练3.8.3 K 折数据划分3.8.4 训练过程3.9 主函数1 相关信息【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–1 赛后总结与分析【NLP】讯飞英文学术论文分类挑战赛Top10开源多方原创 2021-08-12 21:31:36 · 424 阅读 · 0 评论 -
【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案--2 数据分析
相关信息【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–1 赛后总结与分析【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–2 数据分析【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–3 TextCNN Fasttext 方案【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–4 机器学习LGB 方案【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–5 Bert 方案【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–6 提分方案1 赛题比原创 2021-08-12 15:36:02 · 391 阅读 · 0 评论 -
【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案--1 赛后总结与分析
目录1 相关信息2 总结2.1 TextCNN、Fasttext等DL方案2.2 机器学习LGB方案2.2 Bert方案3 继续提分点1 相关信息【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–1 赛后总结与分析【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–2 数据分析【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–3 TextCNN Fasttext 方案【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–4 机器学习LGB 方案【NLP】讯飞英文学术原创 2021-08-12 14:52:29 · 625 阅读 · 0 评论 -
【阿里天池-医学影像报告异常检测】4 机器学习模型调参
引言(1)先对idtdf提取特征的ngram大小和feature调参,最终ngram=(1,2)feature=500,最佳(2)对LogisticRegression、XGBClassifier、LGBMClassifier三个模型单独调参,本人仅仅对XGB的几个参数进行了调整,工作量太庞大,就没有所有参数调整对比分析。这里仅仅提出调参的例子,提供模型调参的参考3(3)开源源码https://github.com/823316627bandeng/TIANCHI-2021-AI-Compition原创 2021-03-30 15:28:36 · 636 阅读 · 2 评论 -
【阿里天池-医学影像报告异常检测】3 机器学习模型训练及集成学习Baseline开源
引言采用机器学习分类算法XGBClassifier、LGBMClassifier、LogisticRegression集成学习线上得到0.83+的准确率开源源码:https://github.com/823316627bandeng/TIANCHI-2021-AI-Compition模型实现(1)导入包import osimport numpy as npimport pandas as pdfrom sklearn.linear_model import LogisticRegressio原创 2021-03-30 15:17:03 · 552 阅读 · 1 评论 -
多标签多分类Muticlass Mutioutput的Mutilogloss(mlogloss)实现
原理实现logloss的实现def logloss(y_true, y_pred, eps=1e-15): import numpy as np # Prepare numpy array data y_true = np.array(y_true) y_pred = np.array(y_pred) assert (len(y_true) and len(y_true) == len(y_pred)) # Clip y_pred between e原创 2021-03-05 16:23:33 · 1349 阅读 · 0 评论 -
【阿里天池-医学影像报告异常检测】2 特征工程
目录1 引言2 步骤2.1 导入工具包2.1 统计top10高词频作为一个特征2.2 统计句子长度作为第二个特征2.3 原始数据text作为第三个特征2.4 label缺失值处理2.5 ID-TDF算法提取text和highfrequency两列数据的特征3 Main函数4 数据格式展示4.1 训练样本集4.2 训练label集4.4 测试样本集1 引言本人自己的见解,如果有任何疑问和问题,欢迎私信讨论目前选取3个特征:• 原本 text部分的所有字符| |• 句子长度int• 每个句子的原创 2021-02-25 21:36:20 · 1038 阅读 · 5 评论 -
【阿里天池-医学影像报告异常检测】1 数据分析和探索
目录1 赛题2 数据分析2.1 读取数据2.2 统计词数2.3 统计词频2.4 统计句子长度2.5 label类别分布2.6 正负样本分布2.7 缺失值2.8 统计句子最后一个字符词频1 赛题全球人工智能技术创新大赛【赛道一】-官方赛道地址2021年赛道一:医学影像报告异常检测2 数据分析2.1 读取数据import numpy as npimport pandas as pdimport tensorflow as tfimport matplotlib.pyplot as pltpl原创 2021-02-23 23:05:42 · 871 阅读 · 1 评论 -
【NLP-新闻文本分类】处理新闻文本分类所有开源解决方案汇总
目录引言1 textCNN or Bert1.1 简介1.2 textcnn1.3 bert2 Bert2.1 简介2.2 文件说明3 LSTM or CNN or Transformer3.1 简介3.2 模型得分4 多模型融合4.1 简介4.2 模型得分5 TextRNN引言赛题参考【NLP-新闻文本分类】1 数据分析和探索1 textCNN or Bert1.1 简介(1)环境tensorflow 1.xpytorch(2)作者博客和github天池博客分享Github源码1.原创 2021-02-20 22:21:08 · 3408 阅读 · 1 评论 -
【NLP-新闻文本分类】3 Bert模型的对抗训练
目录1 引言2 步骤2.1 数据集预处理2.2 用预处理后的数据集训练Bert的语料库2.3 加载语料库和字典后用原始数据训练Bert模型2.4 模型测试1 引言(1)文章汇总【NLP-新闻文本分类】1 数据分析和探索【NLP-新闻文本分类】2特征工程(2) 基本内容Bert模型很特殊,没有特征工程步骤,直接对数据集产生语料库和词典后,就用来预训练bert模型当前模型源码地址环境Tensorflow == 1.14.0Keras == 2.3.1bert4keras == 0.8原创 2021-02-20 18:10:26 · 1682 阅读 · 1 评论 -
【NLP-新闻文本分类】2特征工程
赛题来自阿里天池的新闻文本分类赛题。具体赛题和前序步骤数据分析查看另一篇博客。【NLP-新闻文本分类】1 数据分析和探索1 引言特征工程就是从原始数据提取特征的过程,这些特征可以很好的描述数据,并且利用特征建立的模型在未知数据上的性能表现可以达到最优(或者接近最佳性能)。特征工程一般包括特征使用、特征提取、特征处理、特征选择和特征监控。特征工程的重要性一句话体现:“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个极限而已”特征工程的处理流程首先是去掉无用特征,接着去除冗余的特征,如共线原创 2021-02-19 18:10:55 · 724 阅读 · 0 评论 -
【NLP-新闻文本分类】1 数据分析和探索
赛题介绍零基础入门NLP - 新闻文本分类赛题以新闻数据为赛题数据,数据集报名后可见并可下载。赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。赛题数据由以下几个部分构成:训练集20w条样本,测试集A包括5w条样本,测试集B包括5w条样本。为了预防选手人工标注测试集的情况,我们将比赛数据的文本按照字符级别进行了匿名处理。处理后的赛题训练数据如下:labeltext原创 2021-02-19 10:59:44 · 1483 阅读 · 1 评论 -
【NLP】深度学习的NLP文本分类常用模型
目录1 FastText1.1 相关资料1.2 介绍2 TextCNN2.1 相关资料2.2 介绍3 DPCNN3.1 相关资料3.2 介绍4 TextRCNN4.1 相关资料4.2 介绍5 TextBiLSTM+Attention5.1 相关资料5.2 介绍6 HAN6.1 相关资料6.2 介绍7 Bert7.1 相关资料7.2 介绍8 封装的源码汇总1 FastText1.1 相关资料论文:《Bag of Tricks for Efficient Text Classification》Ker原创 2021-02-18 22:09:28 · 6022 阅读 · 0 评论 -
【阿里天池赛题】医学影像报告异常检测--赛题思路分析
目录详细赛题1 初赛赛题分析2 赛题处理思路3 准备工作这是本人的目前的思考拙见,如果有问题,请在评论区指出,还在持续思考实时更新详细赛题【阿里天池赛题】2021年赛道一:医学影像报告异常检测1 初赛赛题分析(1)最多17个输入,但不固定,12类label,每个label0-1分类,但需要计算每个label的概率样本数量为10份训练集10000测试集3000(2)是一个文本多分类问题sklearn包中的两个函数来计算预测结果和预测概率predict():返回预测标签结果predic原创 2021-01-25 20:55:36 · 1372 阅读 · 0 评论 -
【阿里天池赛题】2021年赛道一:医学影像报告异常检测
天池-全球人工智能技术创新大赛赛题背景影像科医生在工作时会观察医学影像(如CT、核磁共振影像),并对其作出描述,这些描述中包含了大量医学信息,对医疗AI具有重要意义。本任务需要参赛队伍根据医生对CT的影像描述文本数据,判断身体若干目标区域是否有异常以及异常的类型。初赛阶段仅需判断各区域是否有异常,复赛阶段除了判断有异常的区域外,还需判断异常的类型。判断的结果按照指定评价指标进行评测和排名,得分最优者获胜。赛题描述及数据说明sample数据医生对若干CT的影像描述的明文数据,及描述中有异常区域与异常转载 2021-01-17 14:26:29 · 2095 阅读 · 0 评论