《数据仓库》读书笔记:第11章 非结构化数据和数据仓库

该系列博文为《数据仓库 Building the Data Warehouse》一书的读书笔记,笔者将书中重点内容进行概括总结。大致保留书中结构,一部分根据自己的理解进行调整。如发现问题,欢迎批评指正。

章节博文
1《数据仓库》读书笔记:第1章 决策支持系统的发展
2《数据仓库》读书笔记:第2章 数据仓库环境
3《数据仓库》读书笔记:第3章 设计数据仓库
4《数据仓库》读书笔记:第4章 数据仓库中的粒度
5《数据仓库》读书笔记:第5章 数据仓库和技术
6《数据仓库》读书笔记:第6章 分布式数据仓库
7《数据仓库》读书笔记:第7章 主管信息系统和数据仓库
8《数据仓库》读书笔记:第8章 外部数据与数据仓库
9《数据仓库》读书笔记:第9章 迁移到体系结构化环境
10《数据仓库》读书笔记:第10章 数据仓库和Web
11《数据仓库》读书笔记:第11章 非结构化数据和数据仓库
12  待续……

1. 非结构化数据简介

非结构化数据结构化数据
数据产生的场景临时的,非正式的活动占优势的情况,例如PC机和Internet网。数据不存在格式,记录,关键字具有高度次序化的特点,受数字支配的领域产生
基本形式电子邮件,电子数据表,文本文件,PDF文件,PPT文件等标准DBMS,报告,索引,数据库,域,记录等
基本形式通信:相对较短,分布有限,生命周期较短
文档:内容较长,面向广大读者,生命周期较长。
(文档比通信大的多,比通信面向更广泛的读者,比通信可利用周期更长。)
抽象(或元数据);
实际存在形式

2. 结构化与非结构化的集成

将非结构化数据与结构化数据结合,也能够挖掘出关联的更多信息。这两个领域之间的公共关联是文本。但仅仅文本匹配是随机和几乎没有意义的,在文本匹配中存在着很多问题。

2.1 将两个独立环境匹配的风险

拼错(两个环境中相似的单词无法判断是否为同一含义)
上下文(同一单词在不同上下文可能有不同含义)
同名
昵称
不完整的名字
词干
……

2.2 解决匹配风险的方法

  • 预处理
    为了使匹配有意义,需先将非结构化数据进行基本的编辑:
    ① 将无关紧要的停顿词删除
    ② 将单词简约成词干(去掉词尾,如ing,ed等)
  • 概率匹配
    概率匹配在最好的情况也不是完美的,基于匹配的强度(匹配变量的多少)形成一个匹配的概率
    从每个环境搜集可能有用的信息,通过匹配过程中的相关数据,确定两者之间是否可以匹配。(如判断两个人名是否为同一人,可搜索相关数据,如社会保险号,地址等信息判断)
  • 主题匹配
    通过文档主题形成的数据与结构化环境建立联系
    ① 数据原始匹配(结构化环境中任何地方发现一个词语是文档主题的一部分都会匹配,容易产生误导,意义不大)
    ② 元数据关联(通过元数据与主题产生关联)

组织非结构化数据的方法:

导出主题:根据词语出现的次数和频率建立文档的主题;
使用产业特征主题组织非结构化数据:搜集到产业特征主题,在非结构化环境中定位到这些主题词语,加以分析,即可计算出非结构化文档与主题的符合程度。

2.3 两环境数据关联方式

  • 通信(非结构化数据的一类,另一类是文档)可以在标识符级别进行匹配,也可以使用概率匹配在紧密标识符上匹配。

标识符:用来专门标识一条记录的数据,如社会保险号、驾照号等
紧密标识符:指存在高概率的标识符,比如名字,比标识符确定的概率小

  • 非结构化数据使用关键字到元数据或者库级上匹配。

3. 两层数据仓库

数据仓库环境中使用非结构化数据的基本方法:

① 将非结构化数据迁移到结构化环境中;
② 创建“两层数据仓库“,一层对应非结构化数据,一层对应结构化数据。

在这里插入图片描述

3.1 非结构化数据可视化

非结构化数据形象化结构化数据形象化
收集文档和词语–>编辑词语–>对词语分析和聚集–>”自组织图形象化(SOM:self-organizingmap)“实质是数据的显示,可以有很多形式来表示数字数据,如条形统计图表,圆形分格统计图表,常被认为是”商业智能

自组织图的特点
① 根据文档出现的信息形成信息群,观察信息群,相同特征和关系的数据被分组以便于参考;
② 支持向下钻取;
③ 快速关联文档的能力。
通过使用SOM,企业能查看上千文档,并能直观地检查数据及其关联。

非结构化数据仓库存储的数据:
① 标题,作者,日期,位置等;
② 文档的前n个字节;
③ 文档自身/通信自身
④ 内容信息
⑤ 关键字信息(关键字,简单索引,主题,产业特征)

参考书籍

[1] 《数据仓库》William H.Inmon著,王志涛等译,机械工业出版社。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值