自然语言处理
xlm289348
这个作者很懒,什么都没留下…
展开
-
自然语言处理综论
状态机、形式规则系统、逻辑以及概率论和其他的机器学习工具;从熟悉的计算范型出发,这样的模型本身就可以给出为数不多的算法。其中最重要的算法是状态空间搜索(state space search)算法和动态规划(dynamic programming)算法。状态机就是形式模型,形式模型应该包括状态、状态之间的转移以及输入表示等。深度优先算法、最优先搜索算法、A*搜索算法;原创 2013-01-23 14:26:05 · 664 阅读 · 0 评论 -
字频信息存储
从汉字内码到数组下标的转换:id= (c1-176) * 94 + (c2 - 161)c1= id / 94 + 176 c2 = id % 94 + 161二维数组向一维数组的转化n =a * k + bba =n / k 的整数部分b =n % k (n模 k 的值在0 - k-1之间)10 = a * 3 + b a=3,b原创 2013-01-24 17:29:25 · 426 阅读 · 0 评论 -
句法分析
自顶向下的分析是从树根开始推导的;S->z1->z2->...->zn 所用到的规则放在一个后进先出的堆栈里,开始时堆栈为空,这个堆栈的作用是记录最近所用到的规则;堆栈的作用是记录最近所用到的规则;假定左部符号为A的规则的排列顺序是Pa.1,Pa.2,...,算法如下: 局部分析表:序号:标明是整个分析过程中的第几个据不分析;根 : 标明该局部分析过程的树根;起原创 2013-01-21 15:15:08 · 1194 阅读 · 0 评论 -
词性标注类函数
class CCoMatrix:public CObject{ private: int CorpusSize;//语料规模int *TagFreqs;//每种词性标记的出现次数,一位数组int *Matrix;//共现频度矩阵,用一维数组来模拟二维数组public:CStringArray *pTags;//词性标记集CStringArray *pOpenTags原创 2013-01-17 15:33:21 · 689 阅读 · 0 评论 -
自然语言使用的算法
在拼音错误更正中使用最小编辑距离算法,在语音识别和机器翻译中使用的Viterbi(算法 Viterbi algorihm)和向前算法(forward algorithm),在句法剖析中使用CYK算法(CYK algorithm)和Earley算法(Earley algorithm).原创 2013-02-17 17:19:53 · 1957 阅读 · 0 评论 -
最佳路径的搜索
根据语料库,各个候选词都有相应的费用:“结合/成/分子/时”,它的总费用为12.289;而按最大匹配法得到的切分结果“结合/成分/子时”,总费用为13.451。这个问题,可以用多阶段决策过程的动态规划方法来解决。最短路径有个重要特征;如果从起点A经过P,H到达终点G是一条最短路径,那么,由P出发和经过H到达终点G所走的这条路径,对于从P出发到终点G所有可能的不同路径来说,必定也是最短的。原创 2013-02-27 10:42:38 · 921 阅读 · 0 评论 -
分词方法
最大匹配法 用最大匹配法(Maximun Match Method)分词需要一个词表(称为“底表”),分词过程中就用文本中的候选词去跟词表中的词匹配。匹配成功,则认为候选词是词,予以切分;否则就认为不是词。所谓“最大匹配”,就是尽可能地用最长的词来匹配句子中的汉字串。算法描述:1)待切分的汉字串S1,以切分的汉字串S2(S2初始为空串);2)如果S1为空串,转(6);3)原创 2013-02-26 17:30:38 · 627 阅读 · 0 评论 -
(一)数学基础篇
1 概率论 Ω 样本空间;概率满足两个条件:(1)p(Ω)=1 (2)互不相交事件概率和=事件空间和的概率条件概率:P(A∩B)=P(B)P(A|B)=P(A)P(B|A)A B 事件交集的概率(A B 时间同时发生的概率)= 事件B的概率乘以事件B发生的情况下事件A的概率=事件A的概率乘以事件A发生的情况下事件B的概率原创 2013-03-18 15:30:52 · 573 阅读 · 0 评论