该系列博文为《数据仓库 Building the Data Warehouse》一书的读书笔记,笔者将书中重点内容进行概括总结。大致保留书中结构,一部分根据自己的理解进行调整。如发现问题,欢迎批评指正。
《数据仓库》读书笔记:第11章 非结构化数据和数据仓库
1. 非结构化数据简介
非结构化数据 | 结构化数据 | |
---|---|---|
数据产生的场景 | 临时的,非正式的活动占优势的情况,例如PC机和Internet网。数据不存在格式,记录,关键字 | 具有高度次序化的特点,受数字支配的领域产生 |
基本形式 | 电子邮件,电子数据表,文本文件,PDF文件,PPT文件等 | 标准DBMS,报告,索引,数据库,域,记录等 |
基本形式 | 通信:相对较短,分布有限,生命周期较短 文档:内容较长,面向广大读者,生命周期较长。 (文档比通信大的多,比通信面向更广泛的读者,比通信可利用周期更长。) | 抽象(或元数据); 实际存在形式 |
2. 结构化与非结构化的集成
将非结构化数据与结构化数据结合,也能够挖掘出关联的更多信息。这两个领域之间的公共关联是文本。但仅仅文本匹配是随机和几乎没有意义的,在文本匹配中存在着很多问题。
2.1 将两个独立环境匹配的风险
拼错(两个环境中相似的单词无法判断是否为同一含义)
上下文(同一单词在不同上下文可能有不同含义)
同名
昵称
不完整的名字
词干
……
2.2 解决匹配风险的方法
- 预处理:
为了使匹配有意义,需先将非结构化数据进行基本的编辑:
① 将无关紧要的停顿词删除
② 将单词简约成词干(去掉词尾,如ing,ed等) - 概率匹配
概率匹配在最好的情况也不是完美的,基于匹配的强度(匹配变量的多少)形成一个匹配的概率。
从每个环境搜集可能有用的信息,通过匹配过程中的相关数据,确定两者之间是否可以匹配。(如判断两个人名是否为同一人,可搜索相关数据,如社会保险号,地址等信息判断) - 主题匹配
通过文档主题形成的数据与结构化环境建立联系。
① 数据原始匹配(结构化环境中任何地方发现一个词语是文档主题的一部分都会匹配,容易产生误导,意义不大)
② 元数据关联(通过元数据与主题产生关联)
组织非结构化数据的方法:
① 导出主题:根据词语出现的次数和频率建立文档的主题;
② 使用产业特征主题组织非结构化数据:搜集到产业特征主题,在非结构化环境中定位到这些主题词语,加以分析,即可计算出非结构化文档与主题的符合程度。
2.3 两环境数据关联方式
- 通信(非结构化数据的一类,另一类是文档)可以在标识符级别进行匹配,也可以使用概率匹配在紧密标识符上匹配。
标识符:用来专门标识一条记录的数据,如社会保险号、驾照号等
紧密标识符:指存在高概率的标识符,比如名字,比标识符确定的概率小
- 非结构化数据使用关键字到元数据或者库级上匹配。
3. 两层数据仓库
数据仓库环境中使用非结构化数据的基本方法:
① 将非结构化数据迁移到结构化环境中;
② 创建“两层数据仓库“,一层对应非结构化数据,一层对应结构化数据。
3.1 非结构化数据可视化
非结构化数据形象化 | 结构化数据形象化 |
---|---|
收集文档和词语–>编辑词语–>对词语分析和聚集–>”自组织图形象化(SOM:self-organizingmap)“ | 实质是数据的显示,可以有很多形式来表示数字数据,如条形统计图表,圆形分格统计图表,常被认为是”商业智能“ |
自组织图的特点:
① 根据文档出现的信息形成信息群,观察信息群,相同特征和关系的数据被分组以便于参考;
② 支持向下钻取;
③ 快速关联文档的能力。
通过使用SOM,企业能查看上千文档,并能直观地检查数据及其关联。
非结构化数据仓库存储的数据:
① 标题,作者,日期,位置等;
② 文档的前n个字节;
③ 文档自身/通信自身
④ 内容信息
⑤ 关键字信息(关键字,简单索引,主题,产业特征)
参考书籍
[1] 《数据仓库》William H.Inmon著,王志涛等译,机械工业出版社。