Young_Foo_-CSDN博客

原文链接：https://www.jiqizhixin.com/articles/2020-01-31-7对话系统一般分为两种：任务型对话系统和闲聊型对话系统。本文主要讨论前者。任务型对话系统，也称目标导向型对话系统，多用于垂直领域业务助理系统，如微软小娜、百度度秘、阿里小蜜等。这类系统具有明确要完成的任务目标，如订餐、订票等。任务型对话的架构框架主要包含如下几个模块：ASR：输入为语音，输出为文字；TTS：输入为文字，输出为语音；自然语言理解模块（NLU）：输入为文字，输出为语义帧（包含

2021-10-27 12:12:05 1527

原创《C++ Primer Plus》学习笔记

C++ Primer Plus 第六版第一章预备知识主要有三个点：C++在C的基础上添加了面向对象编程（OOP）和泛型编程，前者更倾向于数据，后者则是独立于类型，提供了执行常见任务的工具；C++源代码需要经过编译、链接两个步骤才得到最终的可执行代码。编译是将源代码转成机器能理解的目标代码（object code），该过程由编译器完成，Windows一般是Microsoft Visual C++ 2010，Linux一般是g++，MacOS一般是clang；链接是将目标代码同使用的函数的目标代码以

2021-10-19 23:34:40 195

原创乐理学笔记

文章目录第一课五线谱线与间七个基础的乐音谱号分组等音谱表第二课音符单纯音符附加音符复附点音符符干的写法休止符第一课五线谱线与间七个基础的乐音七个乐音的唱名分别为：do, re, mi, fa, sol, la, si谱号高音谱号：g谱号低音谱号：f谱号高音谱号和低音谱号的绘制起点，都在sol上，和中央C都间隔一个线。可以以此为参照点，快速确定位置。C谱号绘画成一个竖线加一个大写的B，中间的开口就是中央C的位置。分组等音升高半音，降低半音升1和降2互为

2021-10-15 21:45:26 459

原创文本编解码tokenizer

import jsonimport refrom typing import Listclass CharacterTokenizer: """ Tokenizer的功能是实现文本的编解码。编码，即把字符转成数字，但是实际生活中的字符是无限的，我们总可以遇到新的字符，而这些字符在训练集中并不能得到充分训练，于是我们暂时用<unk>来表示。编码过后，无限的字符变成有限的id；而后，在解码阶段，将id恢复成原始的字符，那些可以恢复的字符都是得到充分训练的

2021-10-09 17:52:36 694

原创史诗级歌曲

《从没离开过》林志炫《天堂》腾格尔

2021-10-09 17:06:30 72

原创 NLP文本分类[doing]

本文主要收录常见的文本分类算法，包括LR、XGBOOST、TextCNN、DPCNN、HAN、BERT。TextCNN1TextCNN是将CNN应用到文本分类任务上的经典模型。模型结构1. 词向量层词向量矩阵xn×kx_{n \times k}xn×k，nnn表示句子的长度，kkk表示词向量的维度，通道包含静态词向量和动态词向量。2. 卷积层沿着字符的方向进行一维卷积，每个filter的卷积结果都是一个feature map（和二维卷积得到的矩阵相比，一维卷积得到的feature map是

2021-10-08 14:52:21 167

原创 TODO List

初稿排序算法集锦：待补齐其他排序算法，以及各个算法的时间复杂度；（2021-10-08）补充实验润色

2021-10-08 14:30:26 64

原创排序算法集锦

排序算法是入门就会学到的算法，但是它却不是那么简单。常见的排序算法有选择排序、插入排序(insert sort)、冒泡排序(bubble sort)、快速排序(quick sort)、归并排序(merge sort)、堆排序(heap sort)。插入排序插排一般看成是排序算法的baseline，它的时间复杂度是O(n2)O(n^2)O(n2)def InsertSort(arr): if not arr: return for i in range(1, len(a

2021-10-08 00:49:30 59

原创如何研究和学习

总结研究和学习的方法论

2021-10-07 14:28:13 76

原创解决序列长期依赖的法宝——注意力机制

注意力的种类有如下四种：加法注意力, Bahdanau Attention点乘注意力, Luong Attention自注意力, Self-Attention多头点乘注意力, Multi-Head Dot Product Attention（请转至Transformer模型）1. Bahdanau AttentionNeural Machine Translation by Jo...

2020-02-06 18:46:27 1914

原创参数估计：从目标函数到最优模型参数

最小二乘法 Least Squares Method二乘是平方的意思，感觉最小二乘法就相当于均方误差（MSE）了，最小二乘法的思想是找到一组参数θ=(θ0,θ1,...,θn)\theta=(\theta_0, \theta_1, ..., \theta_n)θ=(θ0,θ1,...,θn)使得∑i=1n(hθ(xi)−yi)2\sum_{i=1}^n(h_\theta(x_i)-y_i)...

2020-01-21 15:17:03 935

原创关于统计机器学习的一些想法

机器学习分为频率学派和贝叶斯学派，频率学派认为模型的参数是固定的，不同的输入数据进来，就会得到不同的输出数据，只要这些数据满足确定的统计规律即可。基于训练数据来训练模型的过程，其实就是一个模型不断优化、参数不断更新的过程，直到参数收敛了，得到了最优参数，那么模型也就确定了。这样思路最终得出了统计学习方法，统计学习方法的前提就是认为数据存在统计规律。并且训练数据和测试数据的统计规律相似。接下里...

2019-12-29 13:42:21 163

原创机器学习基础——逻辑回归

逻辑回归是一个判别分类模型。逻辑回归的在线性回归的基础上，加了一个sigmoid函数，即z=w⋅xf(z)=11+e−z\begin{aligned}z & = w \cdot x\\f(z) & = \frac{1}{1+e^{-z}}\end{aligned}zf(z)=w⋅x=1+e−z1于是得到f(x)的计算公式：f(x)=11+e−w⋅x=ew⋅x...

2019-12-29 11:15:48 116

原创语言模型

语言模型为句子s=w1w2⋯wls = w_1w_2\cdots w_ls=w1w2⋯wl的概率分布：p(s)=p(w1)p(w2∣w1)⋯p(wl∣w1⋯wl−1)p(s) = p(w_1)p(w_2|w_1) \cdots p(w_l|w_1 \cdots w_{l-1})p(s)=p(w1)p(w2∣w1)⋯p(wl∣w1⋯wl−1)p(s)p(s)p(s)反映了字...

2019-12-29 01:16:43 117

原创 Bert源码（一）

微调代码文件 run_classifier.py开始部分通过tf.flags.FLAGS来设置参数，分为必选参数和可选参数。必选参数data_dir 数据集所在目录bert_config_file bert预训练模型的config文件，以json文件形式储存task_name 任务名称，默认带了’cola’, ‘mnli’, ‘mrpc’, 'xnli’四个任务vocab_file ...

2019-12-26 15:16:24 866

Matrix

原创 shell常用命令

原创对话系统笔记