自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

yemantu5的专栏

我是一名刚刚接触自然语言处理不久的新手,希望有经验的前辈能够提点并指导我。谢谢您。

  • 博客(14)
  • 资源 (3)
  • 收藏
  • 关注

原创 自然语言处理学习笔记(009)

今天上课,发现有几个老师说的概念比较模糊,在这里做下笔记。1.训练语料和测试语料是什么,它们有什么作用?2.训练集和发展集,测试集是什么?3.多级词性标注是什么?1和2其实我感觉是一个意思。训练集是用来建立模型的,从这些模型中再发现规律。测试集应该就是发展集用来评估模型的预测等能力。多级词性标注可能就是将某些词性划到第一个等级,某些到第二个。比如:名词和动词是第一级,形容词是第

2012-10-10 16:22:45 375

转载 自然语言处理学习笔记(008)

(转)中文分词算法在自然语言处理技术中的研究及应用                                                                                                                       --作者 吴巧玲摘 要:中文分词是自然语言处理处理的基础,有着极其广泛的实际应用。可以说,在各类中文信息

2012-10-10 16:21:56 1001

原创 自然语言处理学习笔记(007)

分词标注一体化--概率全切分标注模型       词性标注的基本方法有两种基于规则的方法和基于统计的方法。基于规则的方法需要采用人工的方法构建大量的语法规则, 该方法不易保证规则的完备性和在真实文本处理中的有效性。基于统计的方法主要有基于隐马尔可夫模型、基于最大熵的方法和决策树等方法。其中基于马尔可夫模型的方法是词性标注领域应用最广泛、最成熟的方法。       概率全切分标注模型是一种改

2012-10-10 16:21:08 296

原创 自然语言处理学习笔记(006)

常用的分词方法         自然语言处理常用的分词方法有正向和逆向最大匹配、最短路径、全切分、最大概率、N-最短路径等方法。现在流行起来的还有最大熵模型、HMM模型、决策树、BP神经网络、n-gram等方法。        现在我很想把它们在分词中的联系和区别都一一搞清楚。        最大匹配分词方法简单、容易实现, 但是无法解决上面提到的歧义问题。因此分词结果的正确率不是很高,

2012-10-10 16:17:42 373

转载 自然语言处理学习笔记(005)

各种算法的英语翻译array algorithm数组算法bounded variable algorithm边界变量算法dynamicprogramming algorithm动态规划算法enumerativealgorithm枚举算法Euclid's algorithm欧几里得算法FFT algorithm快速傅里叶算法fuzzyalgorit

2012-10-10 16:15:18 353

原创 自然语言处理学习笔记(004)

目前分词技术的一些算法         目前对于分词技术存在三大类方法:      1.基于机械匹配(基于词典、词库或者也叫基于字符串匹配),主要是先生成一个词库,按照词库来分。       (1)从扫描的方向有正向匹配和逆向匹配;       (2)从分词长度不同的方向有最大匹配和最小匹配;       (3)从是否与词性标注过程相结合的角度,又可以分为单纯分词方法和分词与标注相结合的一

2012-10-10 16:14:30 780

转载 自然语言处理学习笔记(003)

(转)语言学流派有哪些?需要了解哪些知识?--中央电大  胡吉成 语言学流派我们教材没有介绍,是本课程教学大纲增补的内容,学生要注意通过网上资料了解有关内容要求。介绍语言学流派的目的不在于死记几个概念,这样没有任何意义,而是给大家指出一个学习研究的方向,提供一个深入研究的线索,知道语言学史上还有这样一些观点,还有这样的成就,或者说还有这样一些有待进一步研究的问题,大家如有兴趣,可以深入

2012-10-10 16:10:52 2517

原创 自然语言处理学习笔记(002)

读冯志伟老师和张宜的对话有感        冯志伟教授:中国语言学家,研究方向为计算语言学和应用语言学,懂得汉、英、德、法、俄、日等多种语言,多年来一直从事语言学和计算机科学的跨学科研究。 冯老在24EN专栏的网址:http://www.24en.com/column/fengzhiwei/index_7.htm

2012-10-10 16:06:23 775

原创 自然语言处理学习笔记(001)

学习自然语言处理之初对其的了解        去年的时候有接触过人工智能方向的一个分支--信息检索。但也只是知道一点小皮毛而已,不如称其为入门好了。       今年7月份开始学习,因为刚好是暑假,所以接下来的两个月时间基本上都是在原地兜兜转转,也不知给绕晕了多少回。9月份开学了,比较系统地接触到了自然语言的学习方法,开始抓住了重点,明确了方向。虽然在自然语言组会上听到的那些文献分析以

2012-09-22 23:12:15 509

原创 Perl学习笔记(005)

先记一个小知识点:质数就是素数。合数就是不是质数的数。1既不是质数也不是合数。       发现一个很有趣的现象。其实编程语言的很多写法规则虽然都不是一样的,但是核心的算法是一样的。只要掌握了算法的核心,编程就不是一件难事,而是一件手到擒来的事情。

2012-09-22 23:10:53 257

原创 Perl学习笔记(004)

matlab是matrix labrary的简称,是一款数学建模软件,在自然语言处理中常常被用到。听研究室的前辈说NLP中的聚类,分类以及矩阵分析等等常常用这个软件进行研究。matlab中有许多关于自然语言处理的包。不过现在正在学习的初级阶段,等到10月份的样子再学习matlab吧。       关于表达式中字符串的优先级,其实我也搞得不是很清楚,所以一般搞不清楚时都是多加几个括号。

2012-09-22 23:09:24 352

原创 Perl学习笔记(003)

(1) \ b表示词界,\B表示非词界。eg:(a)正则表达式 / \ bthe\ b /表示单词the。        (b)/ \ Bthe /表示the前面可以是任何字符。        (c)/ \ bthe /表示the后面可以跟任何字符。但是注意,此处有一特殊情况:就算有词界符号\ b,the的前面还是可以接$符号。因为$不是数字,字母或者下划线。所以它不受词界的约束。(从

2012-09-22 23:08:39 241

原创 Perl学习笔记(002)

在猜数字游戏中:      (1)比如:$think=int(rand (10));#此rand()函数的意思是指取0-9这10个数字。如果要取1-10这0个数字的话就用 int(rand (10))+1;      (2)如果我输入字母的话,它也可以判断大小!无论我输入多长的字母,显示出来的结果都说才得比较小。难道这就是我上次在递增递减中发现的字母字符在首位的话,此变量的值就默认为-1。

2012-09-22 23:07:38 351

原创 Perl学习笔记(001)

Perl的递增和递减Perl语言的递增和递减和其他语言的规则不同。它不仅和首字符是字母还是数字有关,还和字母数字字符的多少以及长度有关系。还有:在Perl运算中,变量被赋以数字字符时,数字字符也要加双引号。递增运算1.变量首字符为数字,后面接的也为单纯的数字,即直接对数字递增。$a="999";$a++;print "$a\n";答案为1000。2.变量首字

2012-09-22 23:02:09 412

java、jsp源码

简单易学哦,是一个简单的界面源码呢。如果你愿意和我一起进步的话,赶紧联系我吧。

2010-12-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除