![](https://img-blog.csdnimg.cn/2020012115451681.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
自然语言处理
文章平均质量分 64
natural language processing
Young_Foo_
NLP算法工程师
展开
-
对话系统笔记
原文链接:https://www.jiqizhixin.com/articles/2020-01-31-7对话系统一般分为两种:任务型对话系统和闲聊型对话系统。本文主要讨论前者。任务型对话系统,也称目标导向型对话系统,多用于垂直领域业务助理系统,如微软小娜、百度度秘、阿里小蜜等。这类系统具有明确要完成的任务目标,如订餐、订票等。任务型对话的架构框架主要包含如下几个模块:ASR:输入为语音,输出为文字;TTS:输入为文字,输出为语音;自然语言理解模块(NLU):输入为文字,输出为语义帧(包含原创 2021-10-27 12:12:05 · 1527 阅读 · 0 评论 -
文本编解码tokenizer
import jsonimport refrom typing import Listclass CharacterTokenizer: """ Tokenizer的功能是实现文本的编解码。编码,即把字符转成数字,但是实际生活中的字符是无限的,我们总可以遇到新的字符, 而这些字符在训练集中并不能得到充分训练,于是我们暂时用<unk>来表示。 编码过后,无限的字符变成有限的id;而后,在解码阶段,将id恢复成原始的字符,那些可以恢复的字符都是得到充分训练的原创 2021-10-09 17:52:36 · 694 阅读 · 0 评论 -
NLP文本分类[doing]
本文主要收录常见的文本分类算法,包括LR、XGBOOST、TextCNN、DPCNN、HAN、BERT。TextCNN1TextCNN是将CNN应用到文本分类任务上的经典模型。模型结构1. 词向量层词向量矩阵xn×kx_{n \times k}xn×k,nnn表示句子的长度,kkk表示词向量的维度,通道包含静态词向量和动态词向量。2. 卷积层沿着字符的方向进行一维卷积,每个filter的卷积结果都是一个feature map(和二维卷积得到的矩阵相比,一维卷积得到的feature map是原创 2021-10-08 14:52:21 · 167 阅读 · 0 评论 -
语言模型
语言模型为句子s=w1w2⋯wls = w_1w_2\cdots w_ls=w1w2⋯wl的概率分布:p(s)=p(w1)p(w2∣w1)⋯p(wl∣w1⋯wl−1)p(s) = p(w_1)p(w_2|w_1) \cdots p(w_l|w_1 \cdots w_{l-1})p(s)=p(w1)p(w2∣w1)⋯p(wl∣w1⋯wl−1)p(s)p(s)p(s)反映了字...原创 2019-12-29 01:16:43 · 117 阅读 · 0 评论