《数据仓库》读书笔记：第11章非结构化数据和数据仓库

最新推荐文章于 2024-05-10 08:29:28 发布

search-lemon

最新推荐文章于 2024-05-10 08:29:28 发布

阅读量1.1k

点赞数 1

分类专栏：数据仓库文章标签：数据仓库

本文链接：https://blog.csdn.net/weixin_44056920/article/details/113577655

版权

14 篇文章 0 订阅

订阅专栏

该系列博文为《数据仓库 Building the Data Warehouse》一书的读书笔记，笔者将书中重点内容进行概括总结。大致保留书中结构，一部分根据自己的理解进行调整。如发现问题，欢迎批评指正。

	非结构化数据	结构化数据
数据产生的场景	临时的，非正式的活动占优势的情况，例如PC机和Internet网。数据不存在格式，记录，关键字	具有高度次序化的特点，受数字支配的领域产生
基本形式	电子邮件，电子数据表，文本文件，PDF文件，PPT文件等	标准DBMS，报告，索引，数据库，域，记录等
基本形式	通信：相对较短，分布有限，生命周期较短文档：内容较长，面向广大读者，生命周期较长。（文档比通信大的多，比通信面向更广泛的读者，比通信可利用周期更长。）	抽象（或元数据）；实际存在形式

将非结构化数据与结构化数据结合，也能够挖掘出关联的更多信息。这两个领域之间的公共关联是文本。但仅仅文本匹配是随机和几乎没有意义的，在文本匹配中存在着很多问题。

拼错（两个环境中相似的单词无法判断是否为同一含义）
上下文（同一单词在不同上下文可能有不同含义）
同名
昵称
不完整的名字
词干
……

预处理：
为了使匹配有意义，需先将非结构化数据进行基本的编辑：
① 将无关紧要的停顿词删除
② 将单词简约成词干（去掉词尾，如ing,ed等）
概率匹配
概率匹配在最好的情况也不是完美的，基于匹配的强度（匹配变量的多少）形成一个匹配的概率。
从每个环境搜集可能有用的信息，通过匹配过程中的相关数据，确定两者之间是否可以匹配。（如判断两个人名是否为同一人，可搜索相关数据，如社会保险号，地址等信息判断）
主题匹配
通过文档主题形成的数据与结构化环境建立联系。
① 数据原始匹配（结构化环境中任何地方发现一个词语是文档主题的一部分都会匹配，容易产生误导，意义不大）
② 元数据关联（通过元数据与主题产生关联）

组织非结构化数据的方法：

① 导出主题：根据词语出现的次数和频率建立文档的主题；
② 使用产业特征主题组织非结构化数据：搜集到产业特征主题，在非结构化环境中定位到这些主题词语，加以分析，即可计算出非结构化文档与主题的符合程度。

标识符：用来专门标识一条记录的数据，如社会保险号、驾照号等
紧密标识符：指存在高概率的标识符，比如名字，比标识符确定的概率小

数据仓库环境中使用非结构化数据的基本方法：

① 将非结构化数据迁移到结构化环境中；
② 创建“两层数据仓库“，一层对应非结构化数据，一层对应结构化数据。

在这里插入图片描述

非结构化数据形象化	结构化数据形象化
收集文档和词语–>编辑词语–>对词语分析和聚集–>”自组织图形象化（SOM：self-organizingmap）“	实质是数据的显示，可以有很多形式来表示数字数据，如条形统计图表，圆形分格统计图表，常被认为是”商业智能“