喂鱼W_y-CSDN博客

原创三年了，使用csdn

自从18年上班以来，就很少有时间去写博客了，主要是晚上经常10点之后下班，虽然早上上班晚，但是时间还是晚上的“美好”一点，早上多出来的2个小时只能在被窝里度过。因此，也浪费了不少时间。2020年，立下几个目标1、多写一点博客2、跳一次槽，去百度腾讯头条面试一下，看看几次几斤几两3、减肥难题...

2020-01-10 12:46:24 239 2

最近在入门storm实时流学习，开个博客记录下学习轨迹。一、基本概念拓扑(Topologies)一个Storm拓扑打包了一个实时处理程序的逻辑。一个Storm拓扑跟一个MapReduce的任务(job)是类似的。主要区别是MapReduce任务最终会结束，而拓扑会一直运行（当然直到你杀死它)。一个拓扑是一个通过流分组(stream grouping)把Spout和Bolt连接到一起的拓扑结构...

2019-04-07 15:39:48 340

转载 tensorflow学习日记04

本节我们将学习一下tensortflow里面对数据进行处理的tf.feature_column 特征列这个API。特征列特征列是将原数据转换成机器能识别处理的一种格式，特征列在输入数据（由input_fn 返回）与模型之间架起了桥梁。Tensorflow支持的特征列有如下这些，我们一个个来看数值列 - tf.feature_column.numeric_columntf.featur...

2019-01-19 00:46:25 487

转载如何理解机器学习评估指标AUC？

在机器学习中，模型评估是非常重要的一环，没有评估就没有优化可言。我们一般熟悉的准确率、召回率、F1值、均方误差等都是评估指标，AUC是其中最常见且好用的指标之一。AUC 是什么?在机器学习中，常用AUC来评估二分类模型的性能。AUC全称曲线下面积，曲线指的是ROC曲线。ROC曲线最早用于第二次世界大战的雷达工程中，后用于医学、机器学习等领域。对于二分类问题，模型会对每个样本预测一个得分s或者...

2019-01-17 00:23:12 891

原创 Bert模型浅析

本文通过ppt和大家简单聊一下关于nlp模型bert的一些知识，网上很多关于bert的解读，翻来覆去都是那些论文里的翻译之类的，十个人有九个相同的东西。本文简单的摘录了一些大佬之言，仅供参考。1、Bert简介先来聊一下nlp领域关于预训练的一个简单的发展历程。总所周知，图像领域的imagenet预训练对于图像处理有着相当大的意义，namenlp领域是否也存在这样的一个通用模型呢？从word2...

2019-01-04 21:17:10 5840

原创 spark-liblinear源码解析

目前ai平台已经支持Lr算法供大家使用，它是基于spark-liblinear这个分布式库进行开发封装的，其核心迭代算法为Trust-region Newton method 简称TRON。可能很多人并没有听说过这种算法，也不知为何要使用它，它与那些常见的SGD、L-BFGS等优化方法有何不同，下面让我们一探究竟。1、从LR模型说起LR模型常被用于二分类问题，给定数据 x\textbf xx ...

2018-11-15 18:58:22 550

原创 LR with spark liblinear

Logistic Regressionsparkliblinear 库的类关系图 1、LRGiven a set of training label-instance pairs ${(x_ i ,y_ i )}^ l_{i=1} , x i \in \mathbb{R}^ n , y i \in{−1,1}, \forall{i} $LR with L2 reg model...

2018-09-14 16:09:01 268

原创 SPARK liblinear库

《原文链接Distributed liblinear 库》一、一些优化方法截断牛顿方法，也称为无Hessian优化，[1]是一系列优化算法，用于优化具有大量自变量的非线性函数。截断牛顿方法包括重复应用迭代优化算法来近似求解牛顿方程，以确定对函数参数的更新。内部解算器被截断，即仅运行有限次数的迭代。由此得出，对于截断的牛顿方法，内部求解器需要在有限次迭代中产生良好的近似; [2] 共轭梯度已...

2018-09-01 18:14:39 383

转载菜鸟日记之学习scala（二）

一、基础1.1 声明值和变量在Scala中，鼓励使用val; 不需要给出值或变量的类型，这个信息可以从初始化表达式推断出来。在必要的时候，可以指定类型。在Scala中，仅当同一行代码中存在多条语句时才需要用分号隔开。1.2 常用类型Scala 7中数值类型：Byte, Char, Short, Int, Long, Float和Double，以及Boolean类型。跟Java...

2018-09-01 18:10:19 162

原创菜鸟日记之学习scala（一）

一、mac上配置scala1、首先检查是否已经安装java，在命令行中输入如下命令java -version# 若输出如下结果，表明java已安装，否则请先去官方下载安装java version "1.8.0_181"Java(TM) SE Runtime Environment (build 1.8.0_181-b13)Java HotSpot(TM) 64-Bit Server...

2018-07-25 22:01:02 244

原创爬虫入门实践 | 利用python爬取彩票中奖信息

系统环境：mac python版本：3.6.2(anaconda) 库：requests、BeautifulSoup爬取一些简单的静态网站，一般采取的策略为：选中目标，也就是需要爬取的网站url；观察结构，查看网页结构，联接结构；构思动手，选择Html下载器和解析器，最后存储数据。今天我们爬取对象是中彩网中3D彩票中奖信息。对应的URL为：http://kaijiang.zhcw...

2018-07-20 23:31:39 7607 5

转载新手入门 | Python生成器深度详解

概览 1、生成器可以避免一次性生成整个列表 2、生成器函数的运行过程解析及状态保存 3、生成器表达式的使用方法我们知道列表生成式有很多优点，运行速度快、编写简单，但是它一次性生成整个列表，如果列表很大会对内存造成很大压力，为了实现内存的节约，可以将列表生成式转换为生成器表达式。1、避免一次性生成整个列表如何避免，简单来说式需要时才逐次产生结果，而不是一次产生所有结...

2018-07-19 17:12:58 173

转载（转）Hinton、LeCun和Bengio——深度学习综述

本文是《Nature》杂志为纪念人工智能60周年而专门推出的深度学习综述，也是Hinton、LeCun和Bengio三位大神首次合写同一篇文章。该综述在深度学习领域的重要性不言而喻，可以说是所有人入门深度学习的必读作品。本文上半部分深入浅出介绍深度学习的基本原理和核心优势，下半部分则详解CNN、分布式特征表示、RNN及其不同的应用，并对深度学习技术的未来发展进行展望。原文链接：http...

2018-07-18 22:50:48 3116

原创新手入门 | 理解Python中的yield

没有用过的东西，没有深刻理解的东西很难保证自己会，而且一旦被人问起就支支吾吾不知从何说起。这是很多新手学习Python过程中会遇到的问题（当然包括本菜鸟）。本文主要介绍一下python中的生成器和yield关键词。首先需要说明一下python中的迭代器(iterator)与生成器(constructor)。一、迭代器python中可以直接作用于for循环的对象，比如：列表、元祖、字典、...

2018-07-15 16:21:07 779

转载 Google自动编码框架AutoML

概述：什么是AutoML？目前机器学习（machine leraning）成功的关键在于人类工程师完成如下的工作：预处理数据选择适当的功能选择一个适当的模型选择系列优化模型超参数后处理机器学习模型严格分析所得结果AutoML自动机器学习致力于研究机器学习自动化实现，面向没有专业机器学习知识的用户。同时也向专业机器学习人士提供了新的工具，如：执行深层表示的框架搜索；分析超参...

2018-07-14 23:24:28 3674

原创 Python编程之Maximum Subarray II

Maximum Subarray II 给定一个数组，寻找两个连续不相交的子串，使其和最大。比如： [1, 3, -1, 2, -1, 2]，那么 [1, 3] 和 [2, -1, 2] 或 [1, 3, -1, 2] 和 [2]都有最大的和7。思路是分层两段，左边和右边分别计算max subarray，然后两边加起来最大的就是结果。def maxTwoSubArrays(n...

2018-06-26 17:31:43 471

转载 tensorflow学习日记03

变量保存与导入 tensorflow内置的参数导出和导入基本用法，用于保存训练好的模型参数import tensorflow as tf"""变量声明，运算声明例：w = tf.get_variable(name="vari_name", shape=[], dtype=tf.float32)初始化op声明"""#创建saver对象，它添加了一些op用来save和res...

2018-06-16 09:48:52 173

转载 tensorflow学习日记02

损失函数tf.python.ops.nn_ops.sparse_softmax_cross_rntropy_with_logits(logits, labels, name=None)def sparse_softmax_cross_entropy_with_logits(logits, labels, name=None):#logits是最后一层的z（输入）#Each entry ...

2018-06-08 19:46:22 225

原创 [lintcode553] Bomb Enemy 炸弹人 python实现

题目描述 Given a 2D grid, each cell is either a wall ‘W’, an enemy ‘E’ or empty ‘0’ (the number zero), return the maximum enemies you can kill using one bomb. The bomb kills all the enemies in the same ...

2018-06-07 13:11:57 1443

转载画小猪佩奇之python实现

最近社会猪可是火遍了大江南北有大牛用代码花了一个，真的是人才啊用python的turtle库来画小猪佩奇。虽然看起来简单，但是需要耐心跟一定的画画功底。话不多说，上代码+注释版# coding:utf-8import turtle as tt.pensize(4) # 设置画笔的大小t.colormode(255) # 设置GBK颜色范围为0-255t.color((...

2018-06-06 18:21:14 2776

转载 tensorflow学习日记 01

（一）命令行参数全局环境下编写代码import tensorflow as tfflags = tf.flags # flags 是一个文件：flags.py，用于处理命令行参数的解析g工作logging = tf.logging# 调用flags内部的DEFINE_string行数来制定解析规则flags.DEFINE_string("para_name_1", "defaul...

2018-06-06 16:09:47 162

原创卷积神经网络中1*1卷积核的用处

最近在看Google的Inception、Resnet以及一些最新的CNN网络时发现其中常常用到1*1的卷积核，一直不太明白这样不就是复制前一层网络信息吗？后来发现1*1卷积真的很有用。对于一张图片28*28*1这样的单通道图片，其的确没什么作用。但是如果对于28*28*16中多通道图片，使用6个1*1卷积核之后可以将其压缩成28*28*6，也就是图片高和宽不变，改变了通道数。好处1：In...

2018-06-05 20:19:41 1416

转载 PCA的数学原理（转）

首先我们直接给出PCA算法步骤：设有m条n维数据。 1）将原始数据按列组成n行m列矩阵XXX 2）将X的每一行（代表一个特征字段）进行零均值化，即减去这一行的均值 3）求出协方差矩阵C=1mXXTC=1mXXTC=\frac{1}{m}XX^{T} 4）求出协方差矩阵的特征值及对应的特征向量 5）将特征向量按对应特征值大小从上到下按行排列成矩阵，取前k行组成矩阵P 6）Y=PXY=...

2018-06-05 20:11:00 599

原创深度学习之Batch Normalization

BN（Batch Normalization)，顾名思义也就是“批规范化“。目前很多深度学习网络中都会加入BN层，那么它为何这么有效呢？1、BN是什么？与激活层、卷积层、池化层一样，BN也属于神经网络的一层。在每次SGD时，通过mini-batch来对相应的activation做规范化操作，使得结果（输出信号各个维度）的均值为0，方差为1(cnn中BN一般加在卷积层与激活层之间)。但是...

2018-05-28 15:43:44 311

转载深度学习在CTR中的应用

▌ 前言预测用户响应如点击率和转换率在许多web应用程序中是十分重要的，包括web搜索、个性化推荐和在线广告。其与图像和语言中的连续原始特征不同，web空间中的输入特征是多域的，大多数是离散和分类的。主要的预测模型要么局限于线性模型，要么需要手动建立高阶组合特征，前者失去了探索特征交互的能力，后者需要大量的计算。随着深度学习其强大的表达能力和灵活的网络结构在 NLP、图像、语音等众多领域取...

2018-05-23 21:19:35 502

原创机器学习之优化算法(从SGD到Adam)

我们已经知道梯度下降法，需要沿着整个训练集的梯度反向下降。使用随机梯度下降方法，选取小批量数据的梯度下降方向，可以在很大程度上进行加速。SGD及其变种可能是机器学习中应用最多的优化算法。我们按照下面的顺序一一理解一下这些算法。SGD->SGDM->NAG->AdaGrad->RMSProp->Adam->Nadam1、随机梯度下降(SGD)核心是按照...

2018-04-25 16:33:29 6203 1

转载机器学习之在线学习算法FTRL

现在做在线学习和CTR常常会用到逻辑回归（ Logistic Regression），而传统的批量（batch）算法每次迭代对全体训练数据集进行计算，无法有效地处理超大规模的数据集和在线数据流。google提出的FTRL（Follow-the-regularized-Leader）算法，在处理诸如逻辑回归之类的带非光滑正则化项（例如1范数，做模型复杂度控制和稀疏化）的凸优化问题上性能非常出色。...

2018-04-21 20:57:14 1751

翻译机器学习之统计知识

一、什么是最大似然估计、最大后验估计以及贝叶斯参数估计抛掷三次硬币，如果三次都是正面，那么问下一次硬币正面朝上的概率是多少？这种情况下，我们需要根据已观察到的三次样本数据D来估算概率正面朝上的概率p。最大似然估计最大似然估计\bf{最大似然估计}一种方法是找到能最大化观测数据的似然函数P(D;θ)P(D;θ)P(D; \theta)的参数θθ\theta的值。这里θθ\theta是...

2018-04-21 19:22:25 406

原创机器学习之面试题

翻看csdn里的博客，无意间看到一篇分享机器学习面试经验的文章，里面博主列举了他面试遇到的问题，我觉得很不错，然后加上我个人的理解分享给需要的人。1、什么是boosting tree？提升方法（boosting）是一种常见的统计学习方法，它的理论基础是：强可学习与弱可学习是等价的，在概率近似正确（PAC）学习的框架下：强可学习是一个概念，若存在一个多项式的学习算法能够学习它，并且正...

2018-04-21 13:53:43 2382

转载机器学习之自编码器

自编码器（autoencoder）是神经网络的一种，经过训练后能尝试将输入复制到输出。其内部有一个隐藏层h，可以产生编码表示输入。该网络由两部分组成：一个由函数h=f(x)h=f(x)h=f(x)表示的编码器和一个产生重构的解码器r=g(h)r=g(h)r=g(h)。一般我们需要加一些约束给自编码器，使得其输出只是近似于输入，强制模型考虑输入数据的哪些部分需要被优先复制，从而学习数据中的有用特性。...

2018-04-19 13:15:08 2448

翻译机器学习之FM与FFM（Factorization Machines）

FM是机器学习中的一种类似于SVM的算法模型，常用于高维稀疏的数据中。相比SVM中的多项式核，其同样可以捕捉数据中不同变量之间的作用关系。但是相比SVM，它具有如下几个优点: 1、FM允许在非常稀疏的数据下进行参数估计，SVM不行。2、FM具有线性复杂度，可以在原始状态下进行优化，不依赖于支持向量，比如SVMs。3、FMs是一种适用于任意实值特征向量的通用预测器。而其他的一些对于数据有限制。首...

2018-04-19 00:01:58 4175

转载神经网络之激活函数

隐藏单元的选择是神经网络设计中的一个活跃的研究领域，目前尚未有明确的指导性理论原则。通常我们都默认选择整流线性单元作为隐藏单元，但仍有一些其他类型的隐藏单元是可用的。我们尝试建立一些对每种隐藏单元的基础直觉，通常我们无法预先得知哪种隐藏单元表现最好，设计过程中需要不断的试错，用不同的隐藏单元组成网络进行训练，最后用验证集来评估其性能。我们知道大多数参数化机器学习模型都是使用基于梯度的优化方...

2018-04-03 19:25:09 495

原创 nlp之词汇分布式表征

1、word embedding词嵌入，也叫词向量。对于文本数据，我们需要将其转换为数值型才能输入到模型中。词向量就是这样一种转换数据的方法。通常我们表示文本数据是将其one-hot编码，比如某文本有10000个不同的词汇，我们将其编码成10000维的向量，其中只在某一位数值是1，其他是0。那么一个语句包含了多个词汇，我们如何将其转化为多维向量。一种是纯粹的自用one-hot编码即可，但是这样...

2018-03-28 14:58:54 1800

原创 python随笔3月

1、用位运算实现两个数的交换In [1]: x, y = 1, 2In [2]: x, y = y, x # python 可以直接交换In [3]: print('x={0},y={1}'.format(x,y))out: x=2,y=1In [4]: x = x ^ y # 利用位运算In [5]: y = x ^ yIn [6]: x = x ^ yIn [7]: pr...

2018-03-24 19:54:43 204

翻译神经机器翻译和序列-序列模型：教程

一、介绍本教程介绍了一组全新的技术，不同地称为“神经机器翻译”或“神经序列到序列模型”。这些技术已被用于处理人类语言的许多任务，并且可以成为任何想要对某种顺序数据建模的人的工具箱中的强大工具。本教程假设读者知道数学和编程的基础知识，但不会假设任何特殊的神经网络或自然语言处理经验。它试图解释所涵盖的各种方法背后的直觉，然后用足够的数学细节对它们进行深入研究，以具体地理解它们，并提出实施练习的建议...

2018-03-21 14:11:11 1105

翻译深度学习模型(two)-LSTM

循环神经网络（Recurrent Neural Networks）翻译自：Understanding LSTM Networks当你阅读这篇文章时，你会根据已掌握的词汇来理解文中词语的意思，你不会说仍掉所有的东西来重新进行思考，因为人的思考是具有连续性的。传统的神经网络无法做到这一点，这是一个很大的缺点。例如，假设您想分类电影中每个时间点发生的事件类型。目前还不清楚传统神经网络如何利用电...

2018-03-16 17:26:29 6601

转载深度学习模型汇总(one)

1、卷积神经网络CNN\quad从神经学角度来说，卷积神经网络的设计灵感来自人脑视觉皮层对外界事物的感知，人眼以图像的形式把感知到的事物传递给大脑，大脑童工逐层的对该图像进行抽象，抽取出图像的边角等代表图像的高维特征给大脑作出准确的判断。\quadCNN的两个核心操作：卷积和池化.卷积：主要作用是抽取特征，是网络具有一定转移不变性，也有一定降维作用。一般设定一个3*3或5*5的卷积窗...

2018-03-15 16:25:23 12134 1

转载 python实现二叉树的先中序或中后序转换

1、已知二叉树的先中序，求树的结构# Definition for a binary tree node.# class TreeNode:# def __init__(self, x):# self.val = x# self.left = None# self.right = Noneclass Solution: ...

2018-03-06 14:11:58 748

翻译 leetcode395:至少有K个重复字符的最长子字符串

Example: Input: s = “ababbc”, k = 2 Output: 5 The longest substring is “ababb”, as ‘a’ is repeated 2 times and ‘b’ is repeated 3 times.code:class Solution: def longestSubstr...

2018-03-06 12:49:09 1168

转载 python实现判断平衡二叉树

代码如下：# Definition for a binary tree node.# class TreeNode:# def __init__(self, x):# self.val = x# self.left = None# self.right = Noneclass Solution: def isBa...

2018-03-02 18:33:15 2367

空空如也

空空如也