wuzqchom-CSDN博客

原创偏差（Bias）与方差（Variance）

偏差方差标签（空格分隔）：未分类1.问题背景NFL(No Free Lunch Theorem)告诉我们选择算法应当与具体问题相匹配，通常我们看一个算法的好坏就是看其泛化性能，但是对于一个算法为什么好为什么坏，我们缺乏一些认识。“Bias-Variance Decomposition”就是从偏差和方差的角度来解释一个算法的泛化性能。2. 一点点数学“Bias-Variance Decomposit...

2017-07-13 20:14:17 28399 3

原创 TensorFlow中CNN的两种padding方式“SAME”和“VALID”

在用tensorflow写CNN的时候，调用卷积核api的时候，会有填padding方式的参数，找到源码中的函数定义如下（max pooling函数也是一样）： def conv2d(input, filter, strides, padding, use_cudnn_on_gpu=None, data_format=None, name=None)源码中对于pad...

2017-07-08 11:30:57 120283 22

原创 L2正则化（L2 Regularization）

标签（空格分隔）：机器学习1. L2L_2正则化项的导出正则化是机器学习中一个防止过拟合的一个重要手段通常，过拟合一个显著地表现是能够很好地拟合当前的数据，但是泛化能力不强。首先假设模型学到了多项式： H10：w00+w1x1+⋯+w10x10H_{10}：w_0^0+w_1x^1+\cdots+w_{10}x^{10} 即H10≡{w∈R10+1}H_{10}\equiv\{ w\in R^

2017-02-25 16:08:54 6464

原创常见Transformer位置编码

相对于RNN这样的序列模型来说，Transformer可并行是一个很大的优势。但可并行性带来一个问题，由于不是从前到后，所以模型对于位置信息是不敏感的。于是在Transformer最早提出时就定义了位置编码（Positional Encodings）的概念，本文章旨在介绍常见位置编码方式。

2024-10-31 20:35:21 1238

原创 tokenization（二）子词切分方法

接上回，子词词元化（Subwords tokenization）是平衡字符级别和词级别的一种方法，也是目前用得最多的方法。子词词元化的目标有2个：● 常见词不应该切分为更小的单元● 罕见词应该被分解为有意义的子词。

2024-06-16 21:34:15 1676

原创 tokenization（一）概述

tokenization是包括大语言模型在内所有自然语言处理的任务的基础步骤，其目标是将文本数据转化为数值。包括：基于词的方法、基于字符的方法和基于子词的方法。

2024-06-10 16:37:49 916

原创 Python同一字符串两次运行生成的MD5码不一致问题

项目中需要import hashlibmd5_machine = hashlib.md5()def gen_md5_id(item): md5_machine.update(item.encode('utf-8')) return 'concept:' + md5_machine.hexdigest()同一个字符串两次运行产生的哈希码竟然不同，如下所示：>>> gen_md5_id('123')'concept:202cb962ac59075b964b071

2021-05-13 22:01:46 3392 2

原创蓄水池采样算法（Reservoir Sampling）

问题描述假定有一个元素个数未知的数据流，要求随机其中的选择kkk个元素，且保证每个元素选中的概率相等。方案先将前kkk个数取出来放入结果集中，然后从第k+1k+1k+1个数开始遍历。假设遍历到第iii个数，以 ki\frac{k}{i}ik的概率替换掉蓄水池中的某个元素即可。证明不失一般性，我们假设数据流共有n个元素。当i<=ki<=ki<=k时，所有元素直接保留，所以第i个元素进入过蓄水池的概率为1。当i=k+1i=k+1i=k+1时，需要执行替换操作，对于在蓄水池

2021-03-13 18:02:09 1092 1

原创解决tensorboader启动报错“ValueError: Duplicate plugins for name projector”

今天在启动tensorboader的时候失败了，报错ValueError: Duplicate plugins for name projector查看了原因主要是版本冲突问题所致。但是tensorflow相关的报卸载之后，重新装同样的版本，也还是没有解决报错问题。最后在使用pip list的时候最开始的时候有：-ensorboard-1.14.0-ensorboard-1.13.1-b_nightly-2.1.0-ensorboard-1.14.0好像有点异常。跑到目录Versions

2020-10-30 13:19:14 896

原创 Vim编辑器批量缩进

测试文本如下 1 Line one 2 Line two 3 Line three 4 Line four假设我们要将所有行缩进，直接使用>G就可以批量缩进一个制表符： 1 Line one 2 Line two 3 Line three 4 Line four想反缩进的话使用<G就可以2. 假设我们要将某指定行之后缩进，先跳到指定行再使用>G。 1 Line one 2

2020-10-17 19:17:49 418

原创 Python中函数 str 和 repr 的区别

简而言之：__str__ 的目标在于可读性（对终端更友好）__repr__ 的目标在于无歧义（更有助于调试）举个栗子（Difference between str and repr?）：>>> import datetime>>> today = datetime.datetime.now()>>> str(today)'20...

2020-03-28 11:18:12 425

原创 Python常见用法汇总

文章目录1. 正则表达式匹配中文2. python字典按照key和value排序3. 获取一段文本的字典4. 将词转为数字，或将数字转为词（接上）5. python list删除元素6. ubuntu修改python为python27. No module named 'tensorflow.python'8.python中的lamda表达式简介：9. python中从文件中读取列表list10....

2019-09-05 17:49:52 483

原创 Python中整数的实现机制

Python中的一切东西皆为对象，那么每次给变量赋值是不是都需要新建一个对象呢？在阅读了《Python源码剖析》之后，终于找到了答案实际编程过程中，像1、3、5这样的整数的使用频率比整数10000、11000使用更为频繁，对于低频整数每次都创建空间可能对于程序的性能影响并不大，但是对于较小的整数，由于其使用频率非常高，所以每次申请赋值都需要为其分配一个新的空间，无疑会大大降低程序的效率。对于...

2019-05-13 12:33:04 755 1

原创 Spark获取两个RDD的映射关系数据

问题场景：有两个RDD的数据集A和B以及一组关于这两个RDD数据的映射关系，如下图所示：以及A和B的各元素映射关系的RDD，如下图所示：上述映射关系，代表元素a和c同义，若为url，则表示只想同一个页面，元素b和d同理。以第一列所组成的元素作为关键字，第二列作为值的集合。现要求映射对，使得在该映射关系下，B的值集合可以覆盖A的值几何的元素。如上结果应该为：（b, d）。因为A中以b为键...

2018-10-22 23:49:55 2308 1

原创 Latex常见用法汇总

1.如何将表格竖排在表格过长的时候，我们有时候不得不牺牲美观性，将表格竖排。这时候加一个宏包：\usepackage{rotating} 然后将:\begin{table}...\end{table}改成\begin{sidewaystable}...\end{sidewaystable}即可。...

2018-05-04 16:22:21 1706

原创 mysql导入与导出表数据

在使用mysql将csv文件导入数据库的表中的时候出现如下错误： ERROR 1148 (42000): The used command is not allowed with this MySQL version 解决方案如下：通常我们进入mysql数据库的命令是：mysql -u root -p然后输入密码。这里只需要将进入数据库的命令改成：mysql --l...

2018-04-13 20:57:37 516

原创使用BibTex格式时缩小参考文献的字体

在使用BibTex写参考文献的时候，所有参考文献通常是写在一个后缀为.bib文件当中。例如：所有的参考文献按照bibtex格式写在references.bib文件当中，引用时按照以下格式： \bibliographystyle {splncs} \bibliography{references} 其中splncs为参考文献的格式，会议提供，下面的就是自己的参考文献文件(注意: 没有.

2017-11-21 14:12:18 8581

转载【转】计算机类学术论文 28个常见出版社一般写法（参考文献用）

最近在写参考文献时候要求加出版商，出版城市，各大学术BibTex格式会议文章并没有出版商和城市这一项，刚开始感觉好烦，后面其实发现常见的出版社就那么几个，无意中发现了新浪博客中的博文:计算机类学术论文 28个常见出版社一般写法（参考文献用），将其转载过来重新使用表格排版，以便后续查看。序号出版社一般写法出版地备注 1 AAAI Menlo Park, CA A

2017-10-10 20:08:58 8856 2

原创 Batch Normalization

1. 背景首先来看看归一化之前和归一化之后的代价函数示意图，左边的最归一化之前，右边为归一化之后，最中间的点为我们要优化的最优点（图片来自Andrew最新deeplearning.ai改善深层神经网络课程的1.9 Normalizing inputs）。我们可以看到，在归一化之前，不同的特征的取值范围可能有所不同，这样带来的不好的地方就是在进行梯度下降的时候，学习率不能够设置太大

2017-09-18 22:31:22 1317

原创浅谈Attention-based Model【源码篇】

转载请标明出处：http://blog.csdn.net/wuzqchom/article/details/77918780此为本人阅读tensorflow源码的记录，主要在一些步骤上加了一些注释和少许个人理解，如有不足之处，请予指正。计划分为三个部分：浅谈Attention-based Model【原理篇】浅谈Attention-based Model【源码篇】浅谈Attentio...

2017-09-09 22:54:19 12338 1

原创 Python切片赋值操作

1. 问题首先来看一小段列表推到的python代码a = [1,2,3]b = a# 赋值1b[:] = [x+1 for x in a]print(a,b)# 赋值2b = [x-1 for x in a]print(a,b)来看看输出吧：[2, 3, 4] [2, 3, 4][2, 3, 4] [1, 2, 3]可能有人会有疑问，为什么同样是复制操作，结果却不同？2. step

2017-09-09 20:53:28 6824

原创 Sampled Softmax

sampled softmax原论文：On Using Very Large Target Vocabulary for Neural Machine Translation 以及tensorflow关于candidate sampling的文档：candidate sampling1. 问题背景在神经机器翻译中，训练的复杂度以及解码的复杂度和词汇表的大小成正比。当输出的词汇表巨大时，传统的sof

2017-08-10 20:34:45 8413

翻译 Seq2Seq模型

前言：此文翻译自TensorFlow tutorial： Sequence-to-Sequence Models 阅读完之后感觉挺好的，所以萌生了翻译的念头。本文的尽量在做到意思正确的情况下，做到不尬翻，但由于是第一次尝试翻译，另加上英语水平有限，难免有所出入，如有不当，请予指正。Sequence-to-Sequence模型正如之前已经在RNN Tutorial讨论的一样（如果你还没有

2017-08-03 21:55:30 8110

原创浅谈Attention-based Model【原理篇】

转载请标明出处：http://blog.csdn.net/wuzqchom/article/details/75792501 计划分为三个部分：浅谈Attention-based Model【原理篇】（你在这里）浅谈Attention-based Model【源码篇】浅谈Attention-based Model【实践篇】0. 前言看了台大的李宏毅老师关于......

2017-07-22 19:24:02 56773 3

原创 tensorflow中取值

最近在写用tensorflow的程序时，中途遇到想取出tensorflow中的返回值是什么，可是其返回值也是一个tensor。了两种方法：tf.cast(value,dtype=int)tf.to_int32(value)可是，着两条语句返回的都是一个tensor的信息，最后找到了这篇博客，两种方法都可以得到同样的结果：import tensorflow as tfa = tf.constant...

2017-07-18 10:47:49 11932 1

原创 Comparison method violates its general contract!

今天在刷LeetCode题目的时候，问题使用HashMap按照value排序来解决，自定义比较器，但是报错：java.lang.IllegalArgumentException: Comparison method violates its general contract! 原比较器的写法：Comparator<Map.Entry<Integer, Integer>> byMapValues =

2017-07-01 21:48:34 553

原创逻辑斯蒂回归（Logistic Regression）

在之前的博客，简单的介绍了线性回归，今天来看看它的一个进阶Logistic Regression。1. 问题背景线性回归可以让我们呢学习得到特征和目标label的权重关系，新来的一组测试样本，用同样的特征，它可以告诉我们一个预测值。但是很多时候我们需要的是一个更加有意义的值，比如在CTR预估的时候我们预测用户点击投放广告的概率，医院里预测一个人心脏病发的概率。Logistic Regre(LR)就可

2017-06-30 23:02:49 1331

原创从AdaBoost到GBDT（part 2）

从AdaBoost到GBDT若上面的式子使用梯度下降求解，则可将式子变换为：minηminh1N∑Nn=1exp(−yn(∑T−1t=1αtgt(xn)+ηh(xn)))\min\limits_{\eta}\min\limits_{h} \frac{1}{N}\sum_{n=1}^{N}exp(-y_{n}(\sum_{t=1}^{T-1}\alpha_{t}g_{t}(x_n)+\eta h(x_

2017-04-06 22:53:06 860

原创从AdaBoost到GBDT（part 1）

标签（空格分隔）： ML看到网上关于AdaBoost和GBDT资料都不少，可是鲜有资料介绍他们联系，刚好之前有看过，最近复习到此，觉得有所收获，所以记录下来。此为读书笔记，若有错误，请予纠正。前情概要：涉及公式较多，如要阅读，请提前找一个安静场所。另一个角度看AdaBoost我们已经知道AdaBoost每一次的样本的权重更新公式如下： Ut+1n={Utn∗♣tUtn/♣t,incorrect

2017-04-06 22:51:45 761

原创线性回归（Linear Regression）

标签（空格分隔）：机器学习此为笔者在学习过程中的读书笔记，文章主要关于机器学习模型的知识与一些个人感受，不妥之处，请予指正。1. 学习目标对于银行贷款问题，假如我们要根据顾客的一些属性得到是否可以贷款给顾客，那么二分类问题就可以得到解决。但是试想，如果银行到底应该贷款多少钱给顾客（比如支付宝的蚂蚁花呗）？这个就需要算法的输出的是一个实数值而不是”+1”和”-1”这样的label。那么银行如何知道

2017-02-25 14:03:05 1117

原创关于Java中Stack类的使用

关于Java中Stack类的使用标签（空格分隔）： java- 为什么不用Stack类《Java编程思想》第四版一书中明确不建议我们使用java.util.Stack类，一直保留只是为了兼容以前的版本，在17.13.3中提到了原因。主要是因为： 1. Stack类是继承自Vector类，而不是使用Vector来实现Stack，这就产生了一个问题，Vector上可以使用的方法Stack类都可以使用，

2017-02-25 14:01:26 2044

原创 GibbsLDA++ Invalid (empty) document!

在使用GibbsLDA++-0.2的时候，碰到错误 “Invalid (empty) document!”因为我用的是中文文档，虽然深信这个和语言没有太大关系，但还是网上查询了一些相关资料，无果。经过一段时间的琢磨，发现出现这种情况只可能：1. 文档确实存在2. 文档中按照制定格式3. 文档中第一行的文档数和真实文档数要匹配4. 文档中不能有空行出现以上任何一种情况都会

2016-10-19 10:24:03 1383

原创 psql: FATAL: role “username” does not exist

由于在程序中用到了psql数据库运行数据，是因为当前的用户为username使用：sudo -s -u postgres把当前用户切换成postgres，运行就没有问题了

2016-09-25 09:28:56 8195

转载 QT5读取中文乱码问题

在头文件中加#pragma execution_character_set("utf-8")问题解决

2016-03-29 16:36:06 572

wuzqChom的博客