信息检索导论 第一讲 概论 数据、信息、知识、智慧信息检索系统 信息资源库、 第二讲 自然语言处理基础 文档的基本概念 从内部看,文档具有两部分:数据(提取词项),结构(语法) 从外部看:表现形式 元数据 自然语言内容分析 字面歧义 语义歧义 指代消解 词项提取 文档语音识别和编码识别理论上都可以看成分类问题。可以参考文本分类方法 词法分析 词块问题、数字问题 非用词去除 归一化 词干还原和词性归并 第三讲 倒排索引 第四讲 布尔检索模型 一、基本概念 布尔逻辑 AND\OR\NOT不二查询 二、查询优化 问题 AND优先级更高 三、短语查询 第五讲 三、编辑距离 四、拼写校正