codestorm04-CSDN博客

原创博客地址迁移说明

于2019.6迁移于原新浪博客http://blog.sina.com.cn/u/2732385971，部分博文未能自动迁移，需移步原博客目录地址。

2019-06-16 19:54:28 256

原创统计机器学习算法库Arma_ML

Arma_ML是一个基于C++实现的统计机器学习常见算法库，类似于Python中的Scikit-learn，能够完成多种传统的机器学习任务并包含自带的迁移于Scikit-learn的小型数据集，此外更重要的是能够帮助大家进一步了解常见分类、回归、降维、聚类等统计学习算法实现细节，对算法原理的掌握也有一定益处。项目开发基于C++的线性代数运算库Armadillo（也是因此而得名），因...

2019-06-16 19:25:32 471

转载 PBS环境------qsub, qstat, qdel

PBS(Portable Batch System)最初由NASA的Ames研究中心开发，主要为了提供一个能满足异构计算网络需要的软件包，用于灵活的批处理，特别是满足高性能计算的需要，如集群系统、超级计算机和大规模并行系统。PBS的主要特点有：代码开放，免费获取；支持批处理、交互式作业和串行、多种并行作业，如MPI、PVM、HPF、MPL；PBS是功能最为齐全, 历史最悠久, 支...

2019-10-10 16:33:12 5578

原创 RNN+Attention+Transformer+Bert

学习资料整理，关于Bert的学习路径需大致按照如下进行理解：1. Vanilla RNN(即最基础的RNN结构) 递归神经网络训练、推到、实现（网络资料整理） The Unreasonable Effectiveness of Recurrent Neural Networks2. Attention（nlp和图像领域关键模块）注意力机制 ...

2019-08-30 15:29:04 802

原创 SVD奇异值分解的原理&应用

原理可看：刘建平Pinard blogPCA思路及SVD应用SVD在PCA和LSI（latent semantics index）中的应用：https://www.cnblogs.com/peizhe123/p/5113357.htmlSVD在协同过滤和推荐算法中的应用：https://www.cnblogs.com/Xnice/p/4522671.html...

2019-08-01 12:42:33 259

原创【最优化】牛顿法的简单编程实验

Newton_Optimizing牛顿最优化方法的模拟实验理论原本应用于非线性方程组求根，通常也就是高阶方程组，和转化为求f(x)=0的根，有定理证明当阶数大于5时无解析解，因此通过优化方法求之。通过泰勒展开，可得x的更新公式。同时，类似地可在最优化任务中对f(x)’=0求得函数极值的必要条件，此时转化为求方程的根，可用牛顿法进行迭代。具体可参考：https://blog.csdn.n...

2019-07-30 22:32:58 1237

转载 git统计代码行数

转自：https://www.cnblogs.com/mabaoqing/p/10375210.html查看个人指定时期内代码行数，注意将 --author="user.name" 替换成自己的用户名git log --since="2018-07-16" --before="2019-02-14" --author="user.name" --pretty=tformat: --nums...

2019-07-14 13:27:22 191

转载 Ext4文件系统之文件数据组织

转自：https://www.jianshu.com/p/903af75665d9本篇文章将介绍一下Ext4文件系统是如何管理文件内数据。为了兼容之前版本的文件系统，Ext4整体实现比较复杂，本文重点介绍其extent模式。相对于Ext3文件系统，Ext4文件系统在数据存储方面做了一些优化处理，可以针对小文件和大文件有不同的模式，从而提高文件访问的性能。Ext3文件数据管理方式在Ext...

2019-07-03 22:14:55 765

转载蓄水池抽样算法（Reservoir Sampling）

许多年以后，当听说蓄水池抽样算法时，邱simple将会想起，那个小学数学老师带他做“小明对水池边加水边放水，求何时能加满水”应用题的下午。一、问题我是在一次失败的面试经历中听说蓄水池算法的。之后上网搜了搜，知道是一个数据抽样算法，寥寥几行，却暗藏玄机。主要用来解决如下问题。给定一个数据流，数据流长度N很大，且N直到处理完所有数据之前都不可知，请问如何在只遍历一遍数据（O(N)）的情况下...

2019-07-03 15:49:31 431

转载 GBDT、XGBOOST、LightGBM讲解

https://github.com/wangyuGithub01/Machine_Learning_Resources/blob/master/pdf/gbdt_wepon.pdf

2019-07-02 22:49:46 187

转载 L1、L2正则化与贝叶斯先验分布的关系

转自：https://note.youdao.com/ynoteshare1/index.html?id=2851b97199bcdc174001d72b1bec0372&type=note（1）频率学观点：认为参数w是固定的，数据集D有多个，所以要解决的问题是什么样的w能使当前的D出现的可能性最大假设给定输入x，其对应的label是t，且t服从高斯分布且均值为f(x)=wx+b...

2019-07-02 16:46:06 3037

转载由sklearn doesn't have attribute 'datasets'引发的思考

转自：https://stackoverflow.com/questions/41467570/sklearn-doesnt-have-attribute-datasetsstackoverflow上的高票回答：sklearnis apackage.This answersaid it very succinctly:when you import a package, onl...

2019-07-01 22:04:51 616

转载连续特征离散化的好处

转自：https://note.youdao.com/ynoteshare1/index.html?id=024fa3dbabf4b5a07eb72c8021e60f62&type=note连续特征的离散化：在什么情况下将连续的特征离散化之后可以获得更好的效果？Q:CTR预估，发现CTR预估一般都是用LR，而且特征都是离散的。为什么一定要用离散特征呢？这样做的好处在哪里？A:...

2019-06-29 22:43:20 1344

转自：http://blog.csdn.net/zhangf666/article/details/78860376在机器学习任务中，我们经常会遇到这种困扰：数据不平衡问题。数据不平衡问题主要存在于有监督机器学习任务中。当遇到不平衡数据时，以总体分类准确率为学习目标的传统分类算法会过多地关注多数类，从而使得少数类样本的分类性能下降。绝大多数常见的机器学习算法对于不平衡数据集都不能很好地工作。...

2019-06-29 16:26:59 5136 1

原创弱监督目标检测方法梳理

关于若监督目标检测的，大致理了一个方法脉络：其中WSDDN成为近期的主流方法（一）部分将输出矩阵分解为按类别C和按区域R的两个矩阵，训练时进行端到端的协同优化。Weakly Supervised Deep Detection Networks论文地址（二）中申明了针对目标检测任务现有的两类方法思路 1. 以WSDDN为代表的...

2019-06-28 14:09:29 8122

原创 C++实现SVM 算法

（一）数学推导首先熟悉SVM的基础数学原理，可根据一下几篇博客的详细推导作为参考（强烈推荐）：SVM解释：一、SVM的整体框架SVM解释：二、SVM的数学基础SVM解释：三、线性可分的情况SVM解释：四、线性不可分的情况SVM解释：五、SMO算法（二）实现流程捋一遍数学推导后准备着手实现，但发现数学推导的流程与程序实现的流程不尽相同，尤其是某些在数学上...

2019-06-24 21:55:48 10040 11

转载最大似然估计、最大后验概率与贝叶斯估计

转自：https://www.jianshu.com/p/7b9b979f1bffIntro众所周知，机器学习的过程一般分两个要点，第一是“模型”，第二是“优化”。“模型”这一点很好理解，就是要找到适合用于解决手头上预测问题的模型。机器学习训练过程的核心在于“优化”。而训练（trianing）一般可以分成以下几个步骤：定义假设空间H：即选择模型，不同的模型对应的就是不同的假设空间。 ...

2019-06-20 15:54:36 686

原创 C++ 因子分解机FM算法及实现

推荐系统与个性化广告系统中都涉及到用户点击率预估及浏览时长等的预估，点击率可通过简单地对<u, v>做一个[0, 1]之间的概率分值，u为针对某个用户，v为推荐的广告或内容。由于此类系统往往具有大量经过one-hot编码的离散特征，造成极端稀疏和高纬度特征，使得特征提取和回归点击概率变得效率地下。FM（Factorization Machine）通过一个比输入特征短的多的特征向量...

2019-06-17 11:55:11 928

原创递归神经网络训练、推到、实现（网络资料整理）

参考：RNN求解过程推导与实现人人都能用Python写出LSTM-RNN的代码！[你的神经网络学习最佳起步]Hinton 的课件我的最佳学习法就是通过玩具代码，一边调试一边学习理论。这篇博客通过一个非常简单的python玩具代码来讲解循环神经网络。[python]view plaincopyimportcopy,numpyasnp np.random.se...

2019-06-16 19:49:51 1841 1

原创 C++实现简单逻辑回归 Logistic Regression

逻辑回归是非常经典的分类算法，通过sigmoid非线性函数实现的二分类器，关于函数原型、分类算法原理可参考：https://blog.csdn.net/u014258807/article/details/80616647sigmoid函数定义为：函数图形为：其推导过程略，实现可参考github：https://github.com/codestorm04/Arma_ML...

2019-06-16 19:42:17 1815

转载详解 ROI Align 的基本原理和实现细节

转自：https://blog.csdn.net/u011918382/article/details/79455407ROI Align 是在Mask-RCNN这篇论文里提出的一种区域特征聚集方式, 很好地解决了ROI Pooling操作中两次量化造成的区域不匹配(mis-alignment)的问题。实验显示，在检测测任务中将 ROI Pooling 替换为 ROI Align 可以提升检测...

2019-06-16 11:31:02 1699

转载 Using Learning Rate Schedules for Deep Learning Models in Python with Keras

转自：https://machinelearningmastery.com/using-learning-rate-schedules-deep-learning-models-python-keras/Training a neural network or large deep learning model is a difficult optimization task.The cl...

2019-06-15 21:44:58 365

原创《将博客搬至CSDN》_codestorm_新浪博客

将博客搬至CSDN

2019-06-10 09:57:41 58

转载解决重复包含一个头文件时变量重复定义的问题

#include文件的一个不利之处在于一个头文件可能会被多次包含，为了说明这种错误，考虑下面的代码:#include "x.h"#include "x.h"显然，这里文件x.h被包含了两次，没有人会故意编写这样的代码。但是下面的代码:#include "a.h"#include "b.h"看上去没什么问题。如果a.h和b.h都包含了一个头文件x.h。那么x.h在此也同样被包含了两次，...

2018-08-29 13:13:07 4274

转载 C/C++之标准库和标准模板库

转自：https://www.cnblogs.com/ht-927/p/4726556.htmlC++强大的功能来源于其丰富的类库及库函数资源。C++标准库的内容总共在50个标准头文件中定义。在C++开发中，要尽可能地利用标准库完成。这样做的直接好处包括：（1）成本：已经作为标准提供，何苦再花费时间、人力重新开发呢；（2）质量：标准库的都是经过严格测试的，正确性有保证；（3）效率：关于人的...

2018-08-06 11:21:07 575

原创 Ubuntu 16.04 标题栏实时显示上下行网速、CPU及内存使用率_codestorm_新浪博客

有时感觉网络失去响应，就通过Ubuntu14.04自带的系统监视器程序来查看当前网速，但是这样很不方便，遂打算让网速显示在标题栏，那样就随时可直观的看到。一番搜索尝试后，成功实现！同时也实现了CPU、内存使用率等的显示。先来看下效果图：效果真是挺好的！之前需要通过deb包安装，现在可以通过添加PPA安装： [python]vi...

2018-01-20 15:25:37 105

原创递归神经网络训练、推到、实现（网络资料整理）_codestorm_新浪博客

参考：RNN求解过程推导与实现人人都能用Python写出LSTM-RNN的代码！[你的神经网络学习最佳起步]Hinton的课件我的最佳学习法就是通过玩具代码，一边调试一边学习理论。这篇博客通过一个非常简单的python玩具代码来讲解循环神经网络。那么依旧是废话少说，放‘码’过来！[python]viewplaincopyimp...

2018-01-09 12:34:36 151

转载 word2vec 中的数学原理详解_codestorm_新浪博客

word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包，它简单、高效，因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节，因而在一定程度上增加了这个工具包的神秘感。相关链接（一）目录和前言（二）预备知识（三）背景知识（四）基于...

2018-01-04 13:50:51 88

原创受限玻尔兹曼机（RBM）学习笔记（一）预备知识_codestorm_新浪博客

转自：http://blog.csdn.net/itplus/article/details/19168937目录链接（一）预备知识（二）网络结构（三）能量函数和概率分布（四）对数似然函数（五）梯度计算公式（六）对比散度算法（七）RBM 训练算法（八）RBM 的评估 ...

2017-12-22 11:39:52 79

原创递归神经网络不可思议的有效性

转载自：http://www.csdn.net/article/2015-08-28/2825569递归神经网络（RNNs）有一些不可思议的地方。我仍然记得我训练的第一个用于图片字幕的递归网络。从花几十分钟训练我的第一个婴儿模型（相当随意挑选的超参数）开始，到训练出能够针对图像给出有意义描述的模型。有些时候，模型对于输出结果质量的简单程度的比例，会与你的期望相差甚远，而这还仅仅是其...

2017-12-21 17:05:55 326

原创你应该掌握的七种回归技术_codestorm_新浪博客

转自：http://www.csdn.net/article/2015-08-19/2825492参考一份博客：http://www.cnblogs.com/pinard/p/6018889.html参考sklearn文档：http://scikit-learn.org/stable/modules/linear_model.html本文解释了回归分析及其优势，重点总结了应该...

2017-11-03 17:43:47 97

原创 sublime 配置_codestorm_新浪博客

[{ "keys": ["ctrl+d"], "command": "run_macro_file", "args": {"file": "res://Packages/Default/Delete Line.sublime-macro"} },{ "keys": ["shift+enter"], "command": "run_macro_file", "args": {"file":...

2017-10-22 20:01:46 98

转载简单易学的机器学习算法——因子分解机(Factorization Machine)_codestorm_新浪博客

转自：http://www.bubuko.com/infodetail-787893.html标签：因子分解机fmfactorizationmachine一、因子分解机FM的模型因子分解机(Factorization Machine, FM)是由Steffen Rendle提出的一种基于矩阵分解的机器学习算法。1、因子分解机FM的优势...

2017-09-12 16:37:03 684

原创 BFPRT 算法（快速选择算法）_codestorm_新浪博客

转自：http://blog.csdn.net/laojiu_/article/details/54986553一：背景介绍在一大堆数中求其前k大或前k小的问题，简称TOP-K问题。而目前解决TOP-K问题最有效的算法即是BFPRT算法，其又称为中位数的中位数算法，该算法由Blum、Floyd、Pratt、Rivest、Tarjan提出，最坏时间复杂度为O(n)。在首次接触T...

2017-09-12 13:34:21 210

转载 MySQL索引背后的数据结构及算法原理

转自：http://blog.codinglabs.org/articles/theory-of-mysql-index.html摘要本文以MySQL数据库为研究对象，讨论与数据库索引相关的一些话题。特别需要说明的是，MySQL支持诸多存储引擎，而各种存储引擎对索引的支持也各不相同，因此MySQL数据库支持多种索引类型，如BTree索引，哈希索引，全文索引等等。为了避免混乱，本文将只关注于...

2017-08-28 11:38:58 83

原创 logistic和softmax原理、联系

转自：http://blog.csdn.net/zhangliyao22/article/details/48379291logistic原文：http://blog.csdn.NET/ariessurfer/article/details/41310525softmax原文：http://blog.csdn.net/pi9nc/article/details/1933662...

2017-08-27 17:39:38 191

原创 dimension reduction （降维）方法总结_codestorm_新浪博客

1.feature selection redundant / irrelevant : filter: correlation / mutual information wrapper: others: decision tree2. feature extraction ...

2017-02-16 13:03:38 1443

原创神经网络学习摘要_codestorm_新浪博客

工具包： scikit-neuralNetwork数据集：mnist计算框架：gredient descent + back propagation梯度下降用于将目标函数（最理想为凸函数）最快速的下降到最低代价，但要考虑更新步长影响收敛到局部最优反向传播将更新每个节点的error的计算从每次都遍历整个网络变为一次遍历目标代价函数：二次型crossEntropy ...

2017-01-22 17:36:19 210

原创 Spring boot 注解区别_codestorm_新浪博客

转自：http://stackoverflow.com/questions/6827752/whats-the-difference-between-component-repository-service-annotations-in使用过的注解：@value @bean @qualifier @ConditionalOnProperty @primary@configura...

2016-11-28 18:49:17 129

原创 Spring Boot 属性配置和使用_codestorm_新浪博客

转自：http://www.cnblogs.com/softidea/p/5644755.htmlSpring Boot允许通过外部配置让你在不同的环境使用同一应用程序的代码，简单说就是可以通过配置文件来注入属性或者修改默认的配置。Spring Boot入门请看：http://blog.csdn.net/isea533/article/details/50278205Sprin...

2016-11-28 12:48:22 78

空空如也

空空如也