自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(42)
  • 收藏
  • 关注

原创 DataWhale Linux——Task01 Linux简介

Linux

2021-06-14 22:51:48 446 4

原创 DataWhale集成学习(下)——Task14 案例分析1幸福感预测

幸福感预测

2021-05-18 21:40:04 212

原创 DataWhale集成学习(下)——Task13 Stacking集成学习算法

Stacking集成学习算法

2021-05-13 22:36:45 311

原创 DataWhale集成学习(下)——Task12 Blending集成学习算法

blending

2021-05-11 17:35:10 188

原创 DataWhale集成学习(中)——Task11 XGBoost算法分析与案例调参实例

XGBoost算法LightGBM算法

2021-04-26 20:43:43 236

原创 DataWhale集成学习(中)——Task10前向分布算法与梯度提升决策树

GBDT是回归树而不是分类树,它使用加法模型+前向分步算法的框架实现回归问题。和AdaBoost的主要区别就在于AdaBoost是在每一次迭代中修改样本权重来使得后一次的树模型更加关注被分错的样本,而GBDT则是后一次树模型直接去拟合残差。

2021-04-23 22:43:04 156

原创 DataWhale集成学习(中)——Task09提升(Boosting)方法和Adaboost

Boosting是与Bagging截然不同的思想,Boosting方法是使用同一组数据集进行反复学习,得到一系列简单模型,然后组合这些模型构成一个预测性能十分强大的机器学习模型。显然,Boosting思想提高最终的预测效果是通过不断减少偏差的形式,而Bagging是减少方差,二者有着本质的不同。

2021-04-20 18:18:58 235

原创 DataWhale集成学习(中)——Task08 Bagging

Bagging

2021-04-17 21:59:34 145

原创 DataWhale集成学习(中)——Task07投票法

投票法的原理和案例分析

2021-04-13 16:51:48 94

原创 DataWhale集成学习(上)——基于SVM的人脸识别

基于SVM,对Labeled Faces in the Wild 数据集,分类

2021-03-30 22:39:07 220

原创 DataWhale集成学习(上)——Task06

分类问题的评估及超参数调优

2021-03-29 21:09:42 185 1

原创 DataWhale集成学习(上)——Task05基本分类模型

基本的分类模型

2021-03-27 22:09:36 341

原创 DataWhale集成学习(上)——Task04

超参数调优

2021-03-23 19:58:06 163 2

原创 DataWhale集成学习(上)——Task02

基本的回归模型

2021-03-18 21:52:41 337

原创 DataWhale集成学习(上)——Task01

机器学习的三大主要任务

2021-03-15 22:35:57 188 1

原创 LeetCode腾讯精选练习(Python)-2

011 盛最多水的容器014 最长公共前缀015 三数之和(001 两数之和)016 最接近的三数之和020 有效的括号021 合并两个有序链表11.盛最多水的容器(中等)双指针class Solution: def maxArea(self, height: List[int]) -> int: if len(height)<2: return 0 l = 0 r = len(h

2021-02-26 20:11:42 135 1

原创 LeetCode腾讯精选练习(Python)-1

参考资料:Datawhale资料

2021-02-25 22:21:17 270

原创 背包九讲-Python实现

01背包完全背包多重背包

2020-09-30 11:56:14 558

原创 数据结构与算法-刷通二叉树2(Python)

二叉树系列二叉树算法的关键思路把题目的要求细化,搞清楚根节点应该做什么,进行前/中/后序遍历。654.最大二叉树(难度 Medium)提示:给定的数组的大小在 [1, 1000] 之间。class Solution: def constructMaximumBinaryTree(self, nums: List[int]) -> TreeNode: if not nums: return None if

2020-09-22 16:53:07 111

原创 数据结构与算法-刷通二叉树1(Python)

二叉树系列一、 二叉树的重要性二、写递归算法的秘诀三、算法实践学习资料源于大佬labuladong的公众号。一、 二叉树的重要性快速排序就是二叉树的前序遍历,归并排序就是二叉树的后序遍历快速排序: 先构造分界点,然后去左右子数组构造分界点;归并排序: 先对左右子数组排序,然后合并。二、写递归算法的秘诀递归算法的关键是要明确函数的 定义 是什么,利用这个定义推导最终的结果,绝不要试图跳入递归树相关的算法,先搞清楚当前root节点该做什么,然后根据函数定义递归调用子节点,让子节点做相同的事情

2020-09-22 12:38:22 118

原创 数据结构与算法-岛屿问题:网格结构中的 DFS(Python)

岛屿问题:网格结构中的 DFS

2020-09-21 21:07:11 1038

原创 Datawhale编程实践LeetCode分类练习 - 4.双指针技术在链表中的应用(Python)

双指针技术在链表中的应用206. 反转链表19. 删除链表的倒数第N个节点83. 删除排序链表中的重复元素141. 环形链表148. 排序链表LeetCode上,Python单链表的定义# Definition for singly-linked list.# class ListNode:# def __init__(self, x):# self.val = x# self.next = None206. 反转链表206. 反转链表(简单)

2020-09-09 21:28:01 195

原创 数据结构与算法-基础排序算法及TopK问题(Python)

冒泡排序插入排序堆排序归并排序快速排序TopK堆排序没有一个排序算法是任何情况下都表现最好的。

2020-09-07 21:32:07 966

原创 数据结构与算法-BFS 使用场景:层序遍历、最短路径问题(Python)

BFSDFS与BFS应用一:层次遍历应用二:最短路径相关题目层序遍历的一些变种题目网格结构中的最短路径在真正的图结构中求最短路径DFS与BFS如果只是要遍历树or图的所有结点,DFS和BFS差别不大,非递归写法,DFS借助栈stack,BFS借助队列queue。BFS的两个场景:「层序遍历」、「最短路径」应用一:层次遍历102. 二叉树的层序遍历(中等)# class TreeNode:# def __init__(self, x):# self.val = x#

2020-09-06 21:19:03 759

原创 Datawhale编程实践LeetCode分类练习——Task04:查找2之对撞指针/滑动窗口(Python)

两数之和三数之和最接近的三数之和四数之和字母异位词分组直线上最多的点数存在重复元素 II存在重复元素 III回旋镖的数量四数相加 II

2020-08-27 16:17:36 229

原创 Datawhale编程实践LeetCode分类练习——Task03:查找1之查找表/二分查找(Python)

搜索插入位置快乐数同构字符串有效的字母异位词单词规律两个数组的交集两个数组的交集 II分割数组的最大值根据字符出现频率排序有序数组中的单一元素

2020-08-22 12:40:11 315

原创 Datawhale编程实践LeetCode分类练习——Task02:动态规划(Python)

5. 最长回文子串72. 编辑距离198. 打家劫舍213. 打家劫舍II516. 最长回文子序列674. 最长连续递增序列

2020-08-21 16:55:11 386

原创 LeetCode周赛-202(Python)

最大值最小或最小值最大——二分unordered_map底层是哈希表,增删时间复杂度是O(1)5490. 吃掉 N 个橘子的最少天数提示:1 <= n <= 2*10^9抽象为0-

2020-08-19 17:34:57 118

原创 数据结构与算法-二维平面上使用回溯法

79.单词搜索200.岛屿数量130.被围绕的区域417. 太平洋大西洋水流问题

2020-08-18 23:21:53 153

原创 Datawhale编程实践LeetCode分类练习——Task01:分治(Python)

LeetCode分治50. Pow(x, n)53. 最大子序和169. 多数元素

2020-08-17 12:55:56 210

原创 数据结构与算法-LeetCode中的背包问题

0-1背包问题,即数组中的元素不可重复使用完全背包问题,数组中的元素可以重复使用常见背包问题分类1.组合问题2.True/False问题3.最大最小问题

2020-08-13 17:27:30 379

原创 数据结构与算法-回溯算法2之Combination Sum

Combination Sum

2020-08-11 17:31:41 233

原创 数据结构与算法-回溯算法1

回溯算法回溯算法框架经典问题排列-Permutation子集-Subsets组合-Combination去重策略有重复元素的排列问题回溯算法框架回溯法和DFS息息相关。回溯是“撤回一步”的意思解决一个回溯问题,实际上就是一个决策树的遍历过程。只需要思考3个问题:路径:已经做出的选择;选择列表:当前可以做的选择;结束条件:到达决策树底层,无法再做选择的条件。res = []def backtrack(路径,选择列表): if 满足结束条件: result.add(路径)

2020-08-11 12:45:00 420 1

原创 Datawhale零基础入门NLP赛事 -06 基于深度学习的文本分类3-BERT

06 基于深度学习的文本分类3-BERTBertBertBERT(Bidirectional Encoder Representations from Transformers)提供的是一个供其它任务迁移学习的模型,该模型可以根据任务微调或者固定之后作为特征提取器。微调将最后一层的第一个token即[CLS]的隐藏向量作为句子的表示,然后输入到softmax层进行分类。参考资料:比赛地址Datawhale零基础入门NLP赛事 - Task6 基于深度学习的文本分类3-BERTBert详解NL

2020-08-04 17:33:00 337

原创 Datawhale零基础入门NLP赛事-05基于深度学习的文本分类2

05基于深度学习的文本分类2Word2VecTextCNNTextRNN思路3:WordVec + 深度学习分类器WordVec是进阶款的词向量,并通过构建深度学习分类完成分类。深度学习分类的网络结构可以选择TextCNN、TextRNN或者BiLSTM。Word2Vec什么是Word2VecWord Embedding,将「不可计算」「非结构化」的词转化为「可计算」「结构化」的向量。Word2vec 是 Word Embedding 方式之一。word2vec 会产生向量,就可以作为后续任务

2020-07-31 23:19:29 191

原创 【SQL入门系列二】SQLZOO 分组

入门二5 SUM and COUNT5 SUM and COUNTAggregate functionsSUM, COUNT, MAX, AVGSUM//世界总人口SELECT SUM(population)FROM world//Africa的总GDPSELECT SUM(GDP) FROM worldWHERE continent='Africa'DISTINCI去掉SELECT得到的重复项//列出所有洲SELECT DISTINCT(continent)FROM w

2020-07-30 11:17:36 771

原创 Datawhale零基础入门NLP赛事-04基于深度学习的文本分类1FastText

04基于深度学习的文本分类1-FastText学习目标文本表示方法 Part2现有文本表示方法的缺陷FastText基于FastText的文本分类与传统机器学习不同,深度学习既提供特征提取功能,也可以完成分类的功能。学习目标学习FastText的使用和基础原理学会使用验证集进行调参文本表示方法 Part2现有文本表示方法的缺陷One-hot、Bag of Words、N-gram、TF-IDF等文本表示方法都或多或少存在一定的问题:转换得到的向量维度很高,需要较长的训练实践;没有考虑单词与

2020-07-27 22:27:07 328

原创 win10安装FastText

win10下安装FastText官方:‘Generally, fastText builds on modern Mac OS and Linux distributions. ’首先去python的各种第三方安装包https://www.lfd.uci.edu/~gohlke/pythonlibs/#fasttext找到适合自己版本的.whl文件,然后下载安装Ubuntu安装包时报错 E:Unable to locate package python3-pip一般新安装Ubuntu后需要先更新

2020-07-27 15:18:54 658

原创 【SQL入门系列一】SQLZOO-SELECT

0 SELECT basicsWHERESELECT population FROM worldWHERE name = 'Germany'IN list中的多项是否存在SELECT name, population FROM world WHERE name IN ('Sweden', 'Norway', 'Denmark');BETWEEN 范围SELECT name, area FROM world WHERE area BETWEEN 200000 AND 250000.

2020-07-25 22:30:41 545

原创 Datawhale零基础入门NLP赛事-03基于机器学习的文本分类

03基于机器学习的文本分类1.学习目标2.文本表示方法 Part12.1 One-hot2.2 Bag of Words2.3 N-gram2.4 TF-IDF3.基于机器学习的文本分类3.1 Count Vectors + RidgeClassifier3.2 TF-TDF + RidgeClassifier4.作业机器学习是对能通过经验自动改进的计算机算法的研究。机器学习通过历史数据训练出模型对应于人类对经验进行归纳的过程,机器学习利用模型对新数据进行预测对应于人类利用总结的规律对新问题进行预测的过程

2020-07-25 22:14:35 406

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除