自然语言处理(NLP)—— 期末复习总

1. 结构主义方法The structural Approach

1.1 语素学Graphemics/音素学phonemics

        音素phonemes、书面符号written signs、字符character。这一部分关注语言的最小声音单位(音素phonemes)以及这些声音如何通过书面符号written signs或字符character来表示。在语音学中,音素是区分意义的最小语音单位,而书面符号或字符则是这些音素在书写系统中的表现。

        形态学Morphology:意义的最小单位Minimal unit of meaning。形态学研究词的结构,尤其是通过词根、前缀、后缀等形态变化来构成不同意义的词。这里的 最小单位 指的是构词素,是词汇意义的最小单位,可以是词根也可以是词素。

        句法学Syntax:短语的语法结构the grammatical structure of phrase。句法学关注词、短语和句子是如何组合在一起的,以及这种组合遵循的规则。句法结构决定了词语如何排列组合,以及这种组合对意义产生的影响。

        语义学Semantics:在短语层面构建意义。语义学研究语言的意义,包括词汇的意义(词义学)和句子的意义(句义学)。它关注如何从词语和短语的组合中构建出复杂的意义。

        语用学Pragmatics:理解超越单个句子的整个话语的意义。语用学是研究语言如何在实际使用中发挥作用,考虑到语言的社会功能和上下文因素。它关注的是语言如何根据特定的社会情境和交际目的来传达意义,包括话语的隐含意义、语境的作用以及非言语交际等。

2. WordNet

        是一个大型的英语词典,与传统词典不同的是,它以网络的形式组织词汇的语义关系。它主要关注于词汇语义学(Lexical Semantics),是研究单词意义及单词间关系的一个领域。WordNet 将英语单词分组为一系列同义词集,每个同义词集代表一个基本的语义概念,并且用一系列关系将这些同义词集连接起来,从而形成一个复杂的网络。

2.1 同义词集(Synset)

        在WordNet中,最基本的组成单元是“同义词集”(Synset),每个同义词集包含一组意义相近的单词。例如,“汽车”、“轿车”和“车辆”可能会被归入同一个同义词集。通过这种方式,WordNet不仅提供了每个词的定义,还展示了词与词之间的不同关系,如下:

        同义关系(Synonymy):显示词与词之间的同义关系,如“快乐”和“高兴”。

        反义关系(Antonymy):显示词与词之间的反义关系,如“好”和“坏”。

        上位词/下位词关系(Hypernymy/Hyponymy):展示词之间的层级关系,例如“果树”是“苹果树”的上位词,而“苹果树”是“果树”的下位词。

        部分-整体关系(Meronymy/Holonymy):表示物体部分与整体之间的关系,例如“车轮”是“汽车”的部分,而“汽车”是“车轮”的整体。

        属性关系(Attribute):词汇可以描述某一属性,例如“重量”是物体的属性。

        WordNet的这种组织方式使它成为了处理自然语言处理(NLP)任务中的一个宝贵资源,特别是在语义分析、词义消歧、机器翻译等领域。通过理解词汇间的这些关系,计算机程序可以更好地处理自然语言,实现对人类语言更深层次的理解。

3. 语言错误(Speech Error)

        是语言学和心理学研究中的一个重要现象,它帮助我们理解人类在寻找和组织语言过程中word finding的机制 mechanism。通过分析这些错误,我们可以更好地了解语言生成的过程和潜在的心理机制。以下是几种常见的语言错误类型及其例子:

3.1 错误选择(Mis-selection)

        这种错误涉及到错误地选择了词语,或者将两个词语混合成了一个新词。

        混合例子(Blend Example):"buggage"("baggage" 和 "luggage" 的混合,即行李的意思)。

3.2 错误排序(Mis-ordering)

        在句子中词语出现的顺序错误。

        预期(Anticipation):在例句 "I’m not a *cabinet…" 中,"cabinet"(橱柜)这个词比预期更早地出现在句子中,表明了预期错误。

        坚持(Perseveration):"How many pints in a *pint … liter" 在这个例子中,"pint"(品脱)这个词在句子中不适当地重复出现,表明了坚持错误,即一个词不适当地重复。

        交换(Exchange):"Just *piece a *put of cardboard in it" 在这个例子中,"piece" 和 "put" 这两个词的位置发生了交换。

3.3 遗漏(Omission)

        句子中缺少了词语。

        例:"It's an extremely *∅ project"(这是一个极其……的项目)在这里,句子缺少了一个形容词来修饰 "project"(项目)。

3.4 添加(Addition)

        句子中多出了不需要的词语。

        例:"He behaved *as like a fool"(他表现得像个傻瓜)在这里,多出了一个不需要的词 "as"。

        通过研究这些语言错误,研究者能够洞察到人类大脑在语言处理过程中的复杂性和灵活性,以及在言语产出过程中大脑如何进行快速的词汇选择和组织。这些错误揭示了语言产出不仅仅是线性的或简单的过程,而是一个复杂的认知过程,涉及到多种脑区的协调和大量的心理计算。

4. 音位接近性(Phonetic Proximity)

        是指单词之间在发音上的相似性,这种相似性有时会导致在言语中不小心使用了错误的单词。当两个或多个单词在发音上非常接近时,人们在快速说话或不太专注时容易将它们混淆,导致意外的替换或错误。

4.1 马拉普罗普主义(Malapropism)

        是一个具体的例子,它描述的是一种特定类型的语言错误,其中一个单词被另一个发音相似的单词错误地替代,尽管这两个单词的意义相差甚远。这个术语来源于理查德·布林斯利·谢里登的喜剧《误会》中的一个角色,名叫Mrs. Malaprop,她经常误用词汇,导致话语中出现荒唐可笑的误解。

        例如,某人可能错误地使用“prescription”(处方)一词来替代“subscription”(订阅),因为这两个单词在发音上相似,尽管它们的意义完全不同。这类错误通常是无意的,反映了说话者在语言产出过程中的认知过程,特别是在词汇选择和言语规划方面的复杂性。

        音位接近性和马拉普罗普主义的研究揭示了人类言语处理中的一个重要方面:我们的大脑在处理和产出语言时,不仅仅依赖于单词的意义,还受到它们发音相似性的影响。这种现象突显了言语理解和产出是一个高度复杂且动态的认知过程,涉及到对语音、语义和语用信息的综合处理。

5. 舌尖现象(Tip of the Tongue,简称TOT)

        这是一种常见的心理现象,指的是当人们确信自己知道某个特定的单词或信息(如人名、地名等),但暂时无法回忆起来的状态。这种现象通常伴随着一种强烈的感觉,即答案就在“舌尖上”,即将想起来,但就是暂时想不起来。

        TOT现象为心理学家和语言学家提供了独特的视角,来研究单词在心理词典(mental lexicon)中是如何被组织和访问的。心理词典是指人脑中存储的关于词汇的知识库,包括单词的意义、发音、拼写等信息。以下是一些关于TOT现象以及它如何帮助我们理解心理词典的组织和访问方式的见解:

5.1 词汇的组织

        TOT现象暗示了心理词典中的词汇可能按照某种网络结构被组织起来,其中单词之间根据意义、发音或使用频率等因素相互关联。当我们试图回忆一个特定的单词时,这些关联有助于触发相关的记忆,但有时可能只能触发部分信息(如单词的首字母、音节数量或与之相关的词汇),而不是整个单词。

5.2 词汇的访问

        TOT现象揭示了词汇访问过程的复杂性。在尝试回忆一个单词时,人们可能能够访问到关于该词的某些信息(如意义或发音的一部分),但无法完全检索出整个词汇。这表明心理词典中的信息访问可能涉及多个阶段,包括初步的词义激活和后续的详细词形或词音检索。

5.3 记忆检索的障碍

        TOT现象还突显了记忆检索过程中可能遇到的障碍。某些情况下,与目标单词相似的词汇(无论是在意义还是发音上)可能会被错误地激活,干扰或阻碍对正确单词的检索。这种现象反映了心理词典中信息检索的动态性和潜在的错误。

5.4 年龄和经验的影响

        研究表明,TOT现象的频率可能受到个体年龄和语言经验的影响。随着年龄的增长,某些人可能会经历更多的TOT事件,这可能与认知能力的变化或词汇存储的结构调整有关。同时,对于第二语言学习者,他们在第二语言中可能更频繁地经历TOT现象,这反映了语言学习和熟练度对词汇检索的影响。

        总的来说,TOT现象提供了一个窗口,让我们能够探究和理解人类大脑中词汇信息的组织和访问机制。通过研究TOT现象,科学家能够深入了解语言处理的复杂性,以及认知和语言能力如何在人脑中实现。

6. 失名症(Anomia)

        失名症(Anomia)是一种语言障碍,其特点是在言语中检索单词时出现困难,尤其是在试图找到特定名词或动词时。这种障碍通常是由大脑受损引起的,如中风、脑损伤或某些类型的神经退行性疾病(例如阿尔茨海默病)。失名症可以影响到任何年龄段的人,严重程度不一,从轻微的词汇检索困难到严重的言语交流障碍都有可能。

        失名症患者通常能够理解他人的言语,并知道他们想要表达的概念,但就是无法找到正确的词汇来表达自己的想法。这种现象在某种程度上类似于舌尖现象(Tip of the Tongue, TOT),但失名症是由于大脑的实际损伤造成的,是一种病理状态,而不仅仅是正常的认知现象。

6.1 失名症的表现形式包括

        言语中断:在说话过程中经常出现停顿,因为患者在尝试寻找特定的单词。

        用词不当:可能会使用与目标词语发音相近但意义完全不同的词语来代替,或者使用非常笼统的词语(如“东西”或“那个”)。

        描述性言语:由于无法直接命名对象或概念,患者可能会采用描述的方式来间接表达,例如,无法说出“钟”这个词,可能会说“用来看时间的东西”。

6.2 治疗失名症

        治疗方法依赖于病因以及症状的严重程度,通常包括语言治疗来提高患者的词汇检索能力和言语交流能力。语言治疗师可能会使用一系列策略和练

### NLP自然语言处理开卷期末考试题目及复习资料 对于NLP自然语言处理课程的开卷期末考试,准备过程应注重理解和应用核心概念而非单纯记忆。这类考试通常侧重于评估学生对理论的理解及其实际运用能力。 #### 考核重点 考核内容可能围绕以下几个方面展开: - **基础理论**:掌握形式化定义、模型结构以及算法原理等基础知识[^1]。 - **案例分析**:能够结合具体应用场景解释技术实现细节并讨论其优缺点[^2]。 - **编程实践**:编写简单的程序来解决特定任务,比如分词、句法解析或是情感分类等问题。 #### 复习建议 为了更好地应对这样的考试形式,可以采取如下策略: - **梳理笔记与教材**:整理课堂上讲授的关键点,并对照教科书加深印象。 - **练习真题**:如果可以获得往年的试题,则可以通过模拟测试熟悉命题风格和答题技巧。 - **参与讨论交流**:加入学习小组分享见解,在互动中巩固所学知识。 #### 示例题目 以下是几个典型的NLP领域内适合用于开卷考试的形式化的例子: 1. 给定一段英文文本,请设计一个基于规则的方法来进行命名实体识别(NER)。描述该方法的工作流程,并指出潜在局限性。 2. 解释什么是条件随机场(CRF),它如何应用于序列标注任务?请提供至少两个实际场景下的应用实例。 3. 对比两种不同的机器翻译框架——统计机器翻译(SMT) 和神经网络机器翻译(NMT),分别阐述它们的优点和不足之处。 ```python # Python代码片段展示了一个简单的TF-IDF计算函数作为复习的一部分 from sklearn.feature_extraction.text import TfidfVectorizer def calculate_tfidf(corpus): vectorizer = TfidfVectorizer() tfidf_matrix = vectorizer.fit_transform(corpus) feature_names = vectorizer.get_feature_names_out() dense = tfidf_matrix.todense() denselist = dense.tolist() df = pd.DataFrame(denselist, columns=feature_names) return df.head() corpus = [ 'This is the first document.', 'This document is the second document.', 'And this is the third one.', 'Is this the first document?', ] print(calculate_tfidf(corpus)) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

思诺学长-刘竞泽

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值