宗成庆《文本数据挖掘》学习笔记:第一章绪论


第一章:绪论

1.数据挖掘

广义解释:数据挖掘是指从大量数据中挖掘有趣的模式和知识的过程。

数据源:数据库,数据仓库、web、其他信息存储库或动态地流入系统的数据。

文本数据挖掘:从自然语言文本中挖掘用户感兴趣的模式和知识的方法和技术,也称文本挖掘。

文本:TXT文件,doc/docx,PDF文件和HTML文件等各类以语言为主要内容的数据文件。

2.文本数据挖掘

文本数据挖掘的挑战:对非结构化自然语言文本内容的分析和理解。

  1. 文本内容都是非结构化的
  2. 文本内容是用自然语言描述的不是纯用数据描述的

因此,文本数据挖掘是自然语言处理(NLP)、模式分类(pattern classification)和机器学习(ML)等相关技术结合的综合技术。

文本挖掘类型

  1. 目标问题明确具体,只是不知道答案。
  2. 有大概的目的,但是没有明确的问题。

两种类型并没有明确的界限。

3.文本挖掘任务

在实际应用中通常需要集中相关技术结合起来完成某个应用任务。
例如,一个问答系统(Q&A)系统通常需要问句解析、知识库搜索、候选答案推断和过滤、答案生成等几个环节。

典型的文本挖掘技术:
1)文本分类:将给定的文本划分到事先规定的文本类型。

2)文本聚类:将给定的文本集划分成不同的类别。与文本分类的算法和模型有很多交集。

3)主题模型:从文本中挖掘隐藏在文本背后的主题和概念。

4)情感分析与观点挖掘:根据文本所表达的观点和态度等主观信息对文本进行分类,或者判断某些文本的褒贬极性。

5)话题检测与跟踪:众多新闻事件中报道和评论中挖掘、筛选出文本的话题。

6)信息抽取:从非结构化、半结构化的自然语言文本中抽取实体、实体属性、实体间的关系以及事件等事实信息,并形成结构化输出的一种文本数据挖掘技术。

7)文本自动摘要:利用自然语言处理方法自动生成摘要的一种方法。

4.文本挖掘困难

  1. 文本噪声和非规范性表达
  2. 歧义表达与语义的隐蔽性
  3. 样本收集和标注困难
  4. 挖掘目标和结果的要求难以准确表达和理解
  5. 语义表示和计算模型不甚奏效

5.概要

  1. 文本挖掘方法大致分为知识工程和统计学习
  2. 网络大数据时代,统计机器学习成为主流,与深度学习,也就是基于神经网络的机器学习属于同一类方法,统称为数据驱动。
  3. 第二章介绍数据预处理,是后续所有模型和算法实现之前的准备阶段。
  4. 第三章文本表示是后续几章所用模型的基础,准确表示文本,运用数学模型。
  5. 第四章文本分类,第五章文本聚类,第六章是主题模型,是其他文本挖掘技术的理论基础,或者说是基础模型,有时候也被作为具体应用。
  6. 第七到十章可以看作是文本挖掘的应用技术。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值