自然语言处理
OldBabyy
这个作者很懒,什么都没留下…
展开
-
基于神经网络的机器阅读理解综述学习笔记
基于神经网络的机器阅读理解综述学习笔记一、机器阅读理解的任务定义1、问题描述机器阅读理解任务可以形式化成一个有监督的学习问题:给出三元组形式的训练数据(C,Q,A),其中,C 表示段落,Q 表示与之相关的问题,A 表示对应的答案。我们的目标是学习一个预测器 f,能够将相关段落 C 与问题 Q作为输入,返回一个对应的答案 A 作为输出:f:(C,Q)→Af:(C,Q)\rightarrow Af:(C,Q)→A一般地,我们将段落表示为 C={w1C,w2C,w3C,…,wmC} ,将问题表示为原创 2020-11-13 16:21:30 · 918 阅读 · 0 评论 -
自然语言处理学习笔记(2)——二元语法与中文分词
自然语言处理学习笔记(2)——二元语法与中文分词一、 语言模型1. 语言模型模型指的是对事物的数学抽象;语言模型(Language Model,LM)则指的是对语言模型的数学抽象。定义语言模型:把句子表示为单词列表 w = w1w2…wk,每个wt,t∈[1,k] 都是一个单词,则:p(w)=p(w1w2⋯wk)p(w)=p(w_1w_2\cdots w_k)p(w)=p(w1w2⋯wk)=p(w1∣w0)×p(w2∣w0w1)×⋯×p(wk+1∣w0w1w2⋯wk)=p(w原创 2020-11-10 19:22:49 · 1905 阅读 · 0 评论 -
自然语言处理学习笔记(1)——词典分词
自然语言处理学习笔记(1)——词典分词一、相关定义(P32)中文分词:将一段文本拆分为一系列单词的过程,这些单词顺序拼接后等于源文本。词典分词:一个确定的查词与输出的规则系统,仅需要一部词典和一套查词典的规则,是最简单、最常见的分词算法(语言是时刻在发展变化的,任何词典都只是某个时间节点拍摄的一张快照)。词的定义:在语言学上,词语是具备独立意义的最小单位。二、切分算法1. 完全切分(P36)完全切分指的是:找出一段文本中的所有单词(并不是标准意义上的分词),不考虑效率的话,朴素的完全原创 2020-11-10 19:21:30 · 1876 阅读 · 0 评论 -
Python 3.8 安装HanLP最新教程(For Windows 用户)
Python 3.8 安装HanLP最新教程(For Windows 用户)第一步:先安装JDKHanLP主项目采用Java开发,所以需要JDK或者JRE。下载地址注意:需要保证JDK位数、操作系统位数和Python位数一致,由于Python版本是3.8,所以安装的是jdk–8u271-windows-x64版本。第二步:设置JAVA_HOME环境变量鼠标右击***我的电脑->属性->高级系统设置->环境变量***在系统变量里新建JAVA_HOME变量,变量值为:C原创 2020-11-10 19:15:43 · 2644 阅读 · 0 评论