宗成庆《文本数据挖掘》学习笔记：第一章绪论

最新推荐文章于 2022-11-29 20:54:53 发布

Attention守恒

最新推荐文章于 2022-11-29 20:54:53 发布

阅读量760

点赞数

分类专栏：文本数据挖掘学习笔记文章标签：数据挖掘机器学习大数据 python 人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44157403/article/details/119064917

版权

学习笔记同时被 2 个专栏收录

17 篇文章 0 订阅

订阅专栏

文本数据挖掘

8 篇文章 2 订阅

订阅专栏

文章目录

第一章：绪论

第一章：绪论

1.数据挖掘

广义解释：数据挖掘是指从大量数据中挖掘有趣的模式和知识的过程。

数据源：数据库，数据仓库、web、其他信息存储库或动态地流入系统的数据。

文本数据挖掘：从自然语言文本中挖掘用户感兴趣的模式和知识的方法和技术，也称文本挖掘。

文本：TXT文件，doc/docx，PDF文件和HTML文件等各类以语言为主要内容的数据文件。

2.文本数据挖掘

文本数据挖掘的挑战：对非结构化自然语言文本内容的分析和理解。

文本内容都是非结构化的
文本内容是用自然语言描述的不是纯用数据描述的

因此，文本数据挖掘是自然语言处理（NLP）、模式分类（pattern classification）和机器学习（ML）等相关技术结合的综合技术。

文本挖掘类型：

目标问题明确具体，只是不知道答案。
有大概的目的，但是没有明确的问题。

两种类型并没有明确的界限。

3.文本挖掘任务

在实际应用中通常需要集中相关技术结合起来完成某个应用任务。
例如，一个问答系统（Q&A)系统通常需要问句解析、知识库搜索、候选答案推断和过滤、答案生成等几个环节。

典型的文本挖掘技术：
1）文本分类：将给定的文本划分到事先规定的文本类型。

2）文本聚类：将给定的文本集划分成不同的类别。与文本分类的算法和模型有很多交集。

3）主题模型：从文本中挖掘隐藏在文本背后的主题和概念。

4）情感分析与观点挖掘：根据文本所表达的观点和态度等主观信息对文本进行分类，或者判断某些文本的褒贬极性。

5）话题检测与跟踪：众多新闻事件中报道和评论中挖掘、筛选出文本的话题。

6）信息抽取：从非结构化、半结构化的自然语言文本中抽取实体、实体属性、实体间的关系以及事件等事实信息，并形成结构化输出的一种文本数据挖掘技术。

7）文本自动摘要：利用自然语言处理方法自动生成摘要的一种方法。

4.文本挖掘困难

文本噪声和非规范性表达
歧义表达与语义的隐蔽性
样本收集和标注困难
挖掘目标和结果的要求难以准确表达和理解
语义表示和计算模型不甚奏效

5.概要

文本挖掘方法大致分为知识工程和统计学习
网络大数据时代，统计机器学习成为主流，与深度学习，也就是基于神经网络的机器学习属于同一类方法，统称为数据驱动。
第二章介绍数据预处理，是后续所有模型和算法实现之前的准备阶段。
第三章文本表示是后续几章所用模型的基础，准确表示文本，运用数学模型。
第四章文本分类，第五章文本聚类，第六章是主题模型，是其他文本挖掘技术的理论基础，或者说是基础模型，有时候也被作为具体应用。
第七到十章可以看作是文本挖掘的应用技术。

Attention守恒

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。