Datawhale零基础入门
文章平均质量分 80
x___xxxx
这个作者很懒,什么都没留下…
展开
-
DataWhale Linux——Task01 Linux简介
Linux原创 2021-06-14 22:51:48 · 293 阅读 · 4 评论 -
DataWhale集成学习(下)——Task14 案例分析1幸福感预测
幸福感预测原创 2021-05-18 21:40:04 · 180 阅读 · 0 评论 -
DataWhale集成学习(下)——Task13 Stacking集成学习算法
Stacking集成学习算法原创 2021-05-13 22:36:45 · 217 阅读 · 0 评论 -
DataWhale集成学习(下)——Task12 Blending集成学习算法
blending原创 2021-05-11 17:35:10 · 106 阅读 · 0 评论 -
DataWhale集成学习(中)——Task11 XGBoost算法分析与案例调参实例
XGBoost算法LightGBM算法原创 2021-04-26 20:43:43 · 145 阅读 · 0 评论 -
DataWhale集成学习(中)——Task10前向分布算法与梯度提升决策树
GBDT是回归树而不是分类树,它使用加法模型+前向分步算法的框架实现回归问题。和AdaBoost的主要区别就在于AdaBoost是在每一次迭代中修改样本权重来使得后一次的树模型更加关注被分错的样本,而GBDT则是后一次树模型直接去拟合残差。原创 2021-04-23 22:43:04 · 108 阅读 · 0 评论 -
DataWhale集成学习(中)——Task09提升(Boosting)方法和Adaboost
Boosting是与Bagging截然不同的思想,Boosting方法是使用同一组数据集进行反复学习,得到一系列简单模型,然后组合这些模型构成一个预测性能十分强大的机器学习模型。显然,Boosting思想提高最终的预测效果是通过不断减少偏差的形式,而Bagging是减少方差,二者有着本质的不同。原创 2021-04-20 18:18:58 · 152 阅读 · 0 评论 -
DataWhale集成学习(中)——Task08 Bagging
Bagging原创 2021-04-17 21:59:34 · 64 阅读 · 0 评论 -
DataWhale集成学习(中)——Task07投票法
投票法的原理和案例分析原创 2021-04-13 16:51:48 · 83 阅读 · 0 评论 -
DataWhale集成学习(上)——基于SVM的人脸识别
基于SVM,对Labeled Faces in the Wild 数据集,分类原创 2021-03-30 22:39:07 · 176 阅读 · 0 评论 -
DataWhale集成学习(上)——Task06
分类问题的评估及超参数调优原创 2021-03-29 21:09:42 · 138 阅读 · 1 评论 -
DataWhale集成学习(上)——Task05基本分类模型
基本的分类模型原创 2021-03-27 22:09:36 · 165 阅读 · 0 评论 -
DataWhale集成学习(上)——Task04
超参数调优原创 2021-03-23 19:58:06 · 100 阅读 · 2 评论 -
DataWhale集成学习(上)——Task02
基本的回归模型原创 2021-03-18 21:52:41 · 136 阅读 · 0 评论 -
DataWhale集成学习(上)——Task01
机器学习的三大主要任务原创 2021-03-15 22:35:57 · 135 阅读 · 1 评论 -
Datawhale编程实践LeetCode分类练习——Task04:查找2之对撞指针/滑动窗口(Python)
两数之和三数之和最接近的三数之和四数之和字母异位词分组直线上最多的点数存在重复元素 II存在重复元素 III回旋镖的数量四数相加 II原创 2020-08-27 16:17:36 · 205 阅读 · 0 评论 -
Datawhale编程实践LeetCode分类练习——Task03:查找1之查找表/二分查找(Python)
搜索插入位置快乐数同构字符串有效的字母异位词单词规律两个数组的交集两个数组的交集 II分割数组的最大值根据字符出现频率排序有序数组中的单一元素原创 2020-08-22 12:40:11 · 284 阅读 · 0 评论 -
Datawhale编程实践LeetCode分类练习——Task02:动态规划(Python)
5. 最长回文子串72. 编辑距离198. 打家劫舍213. 打家劫舍II516. 最长回文子序列674. 最长连续递增序列原创 2020-08-21 16:55:11 · 218 阅读 · 0 评论 -
Datawhale编程实践LeetCode分类练习——Task01:分治(Python)
LeetCode分治50. Pow(x, n)53. 最大子序和169. 多数元素原创 2020-08-17 12:55:56 · 167 阅读 · 0 评论 -
Datawhale零基础入门NLP赛事 -06 基于深度学习的文本分类3-BERT
06 基于深度学习的文本分类3-BERTBertBertBERT(Bidirectional Encoder Representations from Transformers)提供的是一个供其它任务迁移学习的模型,该模型可以根据任务微调或者固定之后作为特征提取器。微调将最后一层的第一个token即[CLS]的隐藏向量作为句子的表示,然后输入到softmax层进行分类。参考资料:比赛地址Datawhale零基础入门NLP赛事 - Task6 基于深度学习的文本分类3-BERTBert详解NL原创 2020-08-04 17:33:00 · 216 阅读 · 0 评论 -
Datawhale零基础入门NLP赛事-05基于深度学习的文本分类2
05基于深度学习的文本分类2Word2VecTextCNNTextRNN思路3:WordVec + 深度学习分类器WordVec是进阶款的词向量,并通过构建深度学习分类完成分类。深度学习分类的网络结构可以选择TextCNN、TextRNN或者BiLSTM。Word2Vec什么是Word2VecWord Embedding,将「不可计算」「非结构化」的词转化为「可计算」「结构化」的向量。Word2vec 是 Word Embedding 方式之一。word2vec 会产生向量,就可以作为后续任务原创 2020-07-31 23:19:29 · 181 阅读 · 0 评论 -
Datawhale零基础入门NLP赛事-04基于深度学习的文本分类1FastText
04基于深度学习的文本分类1-FastText学习目标文本表示方法 Part2现有文本表示方法的缺陷FastText基于FastText的文本分类与传统机器学习不同,深度学习既提供特征提取功能,也可以完成分类的功能。学习目标学习FastText的使用和基础原理学会使用验证集进行调参文本表示方法 Part2现有文本表示方法的缺陷One-hot、Bag of Words、N-gram、TF-IDF等文本表示方法都或多或少存在一定的问题:转换得到的向量维度很高,需要较长的训练实践;没有考虑单词与原创 2020-07-27 22:27:07 · 195 阅读 · 0 评论 -
Datawhale零基础入门NLP赛事-03基于机器学习的文本分类
03基于机器学习的文本分类1.学习目标2.文本表示方法 Part12.1 One-hot2.2 Bag of Words2.3 N-gram2.4 TF-IDF3.基于机器学习的文本分类3.1 Count Vectors + RidgeClassifier3.2 TF-TDF + RidgeClassifier4.作业机器学习是对能通过经验自动改进的计算机算法的研究。机器学习通过历史数据训练出模型对应于人类对经验进行归纳的过程,机器学习利用模型对新数据进行预测对应于人类利用总结的规律对新问题进行预测的过程原创 2020-07-25 22:14:35 · 305 阅读 · 0 评论 -
Datawhale零基础入门NLP赛事-02数据读取与数据分析
本章主要内容为数据读取和数据分析,具体使用Pandas库完成数据读取操作,并对赛题数据进行分析构成。原创 2020-07-22 23:26:29 · 150 阅读 · 0 评论 -
Datawhale零基础入门NLP赛事-01赛题理解
01赛题理解赛题理解赛题数据数据标签评测标准数据读取解题思路思路1:TF-IDF + 机器学习分类器思路2:FastText思路3:WordVec + 深度学习分类器思路4:Bert词向量赛题理解赛题名称:零基础入门NLP之新闻文本分类赛题目标:接触NLP的预处理、模型构建和模型训练等知识点,入门自然语言处理。赛题任务:对新闻文本进行分类,是一个典型的字符识别问题。赛题数据赛题以匿名处理后的新闻数据为赛题数据,数据集报名后可见并可下载。赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分原创 2020-07-21 22:48:41 · 123 阅读 · 0 评论