MrTriste-CSDN博客

原创 Kaggle比赛分类与winner资料汇总（更新中）

1.介绍把比赛分为四类，Data Mining、Images、NLP、Speech Recognition，举几个例子：Data Mining：比如ctr预估、推荐，基本是不包括Deep Learning的比赛Images：图像类，Google AI Open Images - Object Detection TrackNLP：自然语言处理类，Quora Question Pairs...

2018-11-10 01:26:25 4333

原创 restore与run(tf.global_variables_initializer())

一种常见的需求是，加载ckpt里的图，然后在图上进行修改，那么就要用到TensorFlow的恢复模型要在图上进行修改，难免会引进新的变量，如果使用sess.run(tf.global_variables_initializer())就会将加载进来的数据情清空，那么该怎么办呢？可以先啥都不管把所有的图相关的部分构造好后，然后构建init_op，然后在restore前run(init_op)...

2018-08-27 14:25:53 1622

原创 tensorflow 恢复(restore)模型的两种方式

0.前言首先我们要理解TensorFlow的一个规则，首先构建计算图（graph），然后初始化graph中的data，这两步是分开的。1.如何恢复模型有两种方式（这两种方式有比较大的不同）：1.1 重新使用代码构建图举个例子（完整代码）：def build_graph(): w1 = tf.Variable([1,3,10,15],name='W1',d...

2018-08-27 14:18:01 16323

原创强化学习-An introduction之 On-policy Prediction with Function Approximation 个人笔记

Chapter 9 On-policy Prediction with Approximation我们之前讲过，强化学习的主要目标是学习value function，即状态到动作的映射。之前的方法都是tabular methods，即用一个table/array来记录state对应的action或者value，但是这样就有一个缺点需要的内存非常大，因此我们考虑用有参数的函数来表示value f...

2018-07-23 15:22:45 574

原创 python3 str与bytes的问题

python2/3的str与bytes今天把python2转python3时，在读写文件的时候出了很多问题，主要就是str和byte之间不能隐式转换。str与bytesstr经过encode变成bytes； bytes经过decode变成str。文件读写所以以后给自己定个标准：读文件： file = open(filename, 'r') # def...

2018-07-21 13:39:31 1159

原创强化学习-An introduction之 n-step Bootstrapping 个人笔记

Chapter 7 n-step Bootstrapping什么是bootstrapping？第四章summary中讲到：That is, they update estimates on the basis of other estimates. We call this general idea bootstrapping。即在其他估计的基础上更新估计，比如根据其他状态的估计值来更新...

2018-07-06 14:01:50 1077 2

原创强化学习-An introduction之时序差分（TD Learning）个人笔记

Chapter 6 Temporal-Difference LearningMC方法是通过考虑采样轨迹，克服了模型未知给策略估计造成的困难，但是它需要在完成一个采样轨迹后再更新策略的值估计；而之前介绍的基于DP的策略迭代和值迭代算法在每执行一步策略后就进行值函数更新。相比而言，MC方法效率低得多。主要原因是MC方法没有利用学习任务的MDP结构。TD Learning则结合了DP和MC的思想...

2018-07-05 20:21:00 1193 2

原创强化学习-An introduction之蒙特卡洛方法（MC）个人笔记

Chapter 5 Monte Carlo Methods蒙特卡洛方法不像前面几章那样假设我们对环境有充分的知识（即知道状态转移概率等），而是从真实的experience或者模拟的experience（只知道state、action、reward）来进行学习。这不是说MC方法不需要模型，而是模型不像之前几章那样提供足够的先验知识，在这里只用来生成experience。There we ...

2018-07-05 11:32:52 2208

原创强化学习-An introduction之动态规划（DP）个人笔记

Chapter 4 DP上一章的 two forms of the Bellman optimality equation：or1 Policy Evaluationupdate rule: vkvkv_{k} 收敛到vπvπv_{\pi} .常规的update使用两个数组来存放old和new values，这是two-array version；还...

2018-07-02 20:25:01 835

原创强化学习-An introduction之马尔科夫决策过程（MDP）个人笔记

Chapter 3 马尔科夫决策过程（MDP）MDP说白了就是面对不同的状态，采取一定行动后，有一定的概率到达某个状态。1 state, action最重要的两个东西就是状态和行动，强化学习说简单点就是面对不同的state采取怎样的action2 pp characterize the environment’s dynamics.3...

2018-07-02 00:24:14 454

原创强化学习-An introduction之多臂老虎机 (k-bandits)

Chapter 2 多臂老虎机k臂老虎机问题（2.1节）：You are faced repeatedly with a choice among k different options, or actions. After each choice you receive a numerical reward chosen from a stationary probability dis...

2018-06-08 23:27:17 1290

原创 K近邻（KNN）的Python实现

KNNKNN almost has no training process. At the very beginning, we can classify the test samples. K used to be lower than sqrt(#sample), determined by CV.代码在Github上代码：# -*- coding -*-import...

2018-04-25 17:26:02 473

原创逻辑斯蒂回归 Logistic Regression（LR）的python实现

LR有两种实现方式，IRLS和GradDes ，前者是基于Newton–Raphson algorithm更新参数的，后者是梯度下降。代码在Github上 IRLS :iteratively reweighted least squares, using Newton–Raphson algorithm to update.realized according to PRML se...

2018-04-25 17:18:54 1004 1

原创二分类支持向量机(SVM)的Python实现

SVMHere I just realize a simple SVM which only supports binary classification, named C-SVC. 代码在Github FormulationLinear max γs.t.yi(wxi+b)|w|≥γmax γs.t.yi(wxi+b)|w|≥γ max\ \...

2018-04-25 17:09:39 9527

原创 Python 编码问题，UnicodeDecodeError: 'ascii' codec can't decode byte/encode characters

编码以前接触过一些涉及编码的问题，但是总是以解决眼前的问题为主，如果遇到乱码的问题，一般解决的办法也都是改成UTF-8编码，很多时候这样就能解决问题。我们最熟悉的应该是ASCII码，占一个字节，一共有256个字符，常用的是前128个。Unicode编码的解释，如果在网上搜，有很多专业的解释，通常占两个字节，但如果要易于理解的话可以把它当成最基本的类，其他编码要互相转换可以借助Unico...

2018-04-25 16:57:00 4604

原创 Silver-Slides Chapter 4 - 蒙特卡洛方法（MC）与时序差分（TD）

Chapter 4 - MC-TDIntroductionLast lecture: Planning by dynamic programming Solve a known MDPThis lecture: Model-free prediction Estimate the value function of an unknown MDPN...

2018-04-12 18:03:38 1674

原创 Silver-Slides Chapter 3 - 强化学习之动态规划Dynamic Programming（DP）

Chapter 3 - DPIntroduction动态规划，分解成子问题MDP满足动态规划的Optimal substructure、Overlapping subproblems的两个性质。用于MDP的planning问题all of these methods can be viewed as attempts to achieve much the same e...

2018-04-11 15:13:44 438

原创 Silver-Slides Chapter 2 - 强化学习之马尔科夫决策过程 Markov Decision Process（MDP）

Markov ProcessesMDP被用来描述强化学习的可完全观测的环境。几乎所有的强化学习问题可以用MDP来描述，Optimal control primarily deals with continuous MDPs. Partially observable problems can be converted into MDPs. Bandits are MDPs with one s...

2018-04-10 20:19:23 585

原创 Silver-Slides Chapter 1 - 强化学习入门：基本概念介绍

一些知识点机器学习 = 监督学习 + 无监督学习 + 强化学习RL的不同之处：There is no supervisor, only a reward signalFeedback is delayed, not instantaneousTime really matters (sequential, non i.i.d data)Agent’s actions a...

2018-04-10 11:47:32 282

原创 TensorFlow实战：LSTM的结构与cell中的参数

看了关于LSTM的很多文章，感觉都讲的不错，唯独cell中的参数维度被忽略了，导致大体上能听懂，但是一涉及细节就比较模糊，所以想在这里写一篇侧重于LSTM参数维度的文章，以备大家查阅。文章会结合TensorFlow具体的代码，基本原理的话可以先去看一下原理篇，这里默认大家都了解基本的原理，这里推荐下自己写的LSTM详解反向传播公式推导。一些参数训练的话一般一批一批训练，即让b...

2018-03-25 19:01:58 16005 23

原创 LSTM详解反向传播公式推导

部分参考： http://colah.github.io/posts/2015-08-Understanding-LSTMs/1. 结构1.1 比较RNN：LSTM：其中的notation：1.2 核心思想：LSTM在原来的隐藏层上增加了一个 The key to LSTMs is the cell state, the horizont...

2018-02-08 00:42:32 29053 21

原创循环神经网络RNN详解反向传播公式推导+代码（十分详细）

部分内容引用自https://zybuluo.com/hanbingtao/note/5414581. Why RNN循环神经网络RNN为语言模型来建模，语言模型就是：给定一个一句话前面的部分，预测接下来最有可能的一个词是什么。RNN理论上可以往前看(往后看)任意多个词。2. RNN结构2.1 最基本的结构：xt−1,xt,xt+1" role

2018-01-29 02:09:32 16105 2

原创指针、引用&、地址&、指针的引用&、指针的指针**

指针*int *p = 0; //表示int *p; p=0; p指向地址为0的位置。 p = new int; //改变的是p指向的内存的地址 *p = 1; //地址为p的那块内存的值赋为1引用&int a; int b = &a; //b是a的别名，b和a除了名字不一样，其他（包括地址）都一样 b = 2;//a也变成2地址&int a = 1; int *b = &a;// 指针

2017-09-12 00:42:19 924

原创 Machine Learning In Action - Chapter11 - Association analysis

Chapter11 - Association analysis一个项集的支持度(support)被定义为数据集中包含该项集的记录所占的比例可信度或置信度（confidence)是针对一条诸如{尿布} ->{葡萄酒}的关联规则来定义的。这条规则的可信度被定义为“支持度({尿布，葡萄酒})/支持度({尿布})”。寻找频繁项集Apriori原理是说如果某个项集是频繁的，那么它的所有子集也是频繁的

2017-08-07 23:09:20 234

原创 Machine Learning In Action - Chapter 10 k-means clustering

Chapter10 - k-means clusteringk-均值算法流程：创建k个点作为起始质心（经常是随机选择）当任意一个点的簇分配结果发生改变时对数据集中的每个数据点对每个质心计算质心与数据点之间的距离将数据点分配到距其最近的簇对每一个簇，计算簇中所有点的均值并将均值作为质心python实现def ran

2017-08-07 00:54:50 224

原创 Machine Learning In Action - Chapter 9 Tree-based regression

Chapter9 - Tree-based regressionCART是classification and regression tree，分类与回归树，正如名字所说的，它其实有两种树，分类树和回归树。第三章中讲的决策树是ID3决策树，根据信息增益作为特征选择算法。CART树与前面说的树有什么差别呢？1.之前的生成树的算法在对某个特征切分的时候，将数据集按这个特征的所有取值分成很多部分，这样

2017-08-07 00:53:35 251

原创决策树损失函数对Nt的理解

决策树损失函数对Nt的理解为了避免出现过拟合的现象，我们要对决策树进行剪枝。设决策树的子节点集合为T，t是T中的一个元素，该叶节点有NtN_t个样本，其中k类的样本有NtkN_{tk}个，共K个分类 Ht(T)=−∑k=1KNtkNtlogNtkNtH_t(T)=-\sum_{k=1}^K\frac{N_{tk}}{N_t}log\frac{N_{tk}}{N_t}则损失函数可以定义为 Cα

2017-08-06 20:26:51 5601 2

原创 CART剪枝详解

CART之剪枝详解我们这里用的是代价复杂度剪枝算法。首先我们将一颗充分生长的树称为T0T_0 ，我们希望减少树的大小来防止过拟化，但又担心去掉一些节点后预测的误差会增大，那么如何达到这两个变量之间的平衡则是问题的关键，因此我们用一个变量α\alpha 来平衡，因此损失函数定义为如下： Cα(T)=C(T)+α|T|C_{\alpha}(T)=C(T)+\alpha|T| T为任意子树，C(T

2017-08-06 20:20:25 11190 15

原创决策树详解

决策树一般有三个重要部分，特征选择、生成、剪枝。特征选择有这么四种标准构建分类树的话是信息增益、信息增益比、基尼指数构建回归树的话是平方误差最小化。生成基本思路是，找到最佳分裂点，将数据集分成若干部分（具体地，普通决策树是根据最佳分裂特征的取值有多少个就将数据集分成几个部分，CART是只分成两部分，所以普通决策树一般处理离散型变量，CART离散型和连续型都可以处理，而且普通决策树增长的太快，很容

2017-08-06 20:18:22 3772

原创 Machine Learning In Action - Chapter 2 KNN

Chapter 2 - KNNKNN伪代码For every point in our dataset: calculate the distance between inX and the current point sort the distances in increasing order take k items with lowest distances to inX

2017-08-03 20:27:59 303

原创 Machine Learning In Action - Chapter 3 Decision Tree

Chapter 3 - Decision TreeThe kNN algorithm in chapter 2 did a great job of classifying, but it didn’t lead to any major insights about the data. One of the best things about decision trees is that

2017-08-03 20:26:09 295

原创 Machine Learning In Action - Chapter 4 naïve Bayes

Chapter 4 - naïve Bayes利用p(x|c)求p(c|x):p(c|x)=p(x|c)p(c)p(x)p(c|x) = \frac{p(x|c)p(c)}{p(x)}原理对N维特征向量w（w1,w2,…,wN）的数据集有k个类别，c1 c2 c3 …ck，现在想知道一个实例(x,y)的分类对(x,y)求分别属于k个类别的概率 p(ci|w)=p(w|ci)p(ci)p

2017-08-03 20:24:43 272

原创 Machine Learning In Action - Chapter 5 Logistic Regression

Chapter5 - Logistic RegressionFor the logistic regression classifier we’ll take our features and multiply each one by a weight and then add them up. This result will be put into the sigmoid, and we’l

2017-08-03 20:21:02 289

原创 Machine Learning In Action - Chapter 7 AdaBoost

Chapter7 - AdaBoostBagging与Boosting- Bagging:the data is taken from the original dataset S times to make S new datasets. The datasets are the same size as the original. Each dataset is built by ran

2017-08-03 20:15:38 257

原创 Machine Learning In Action-Chapter8 线性回归

Chapter8 - regression线性回归找到一个回归系数向量w，用y = xw来计算预测结果，问题就是如何运用现有的数据集找到最合适的w，一个常用的方法就是找出误差最小的w，如果简单地将误差加减，则正值和负值会抵消，因此选用平方误差。即 ∑i=1m(yi−xTiw)2\sum_{i=1}^m(y_i-x_i^Tw)^2 用矩阵替换掉求和符号即为 (Y−Xw)T(Y−Xw)(Y

2017-08-03 19:54:50 368

MrTriste的博客