【阅读笔记】Goods: Organizing Google’s Datasets

最新推荐文章于 2023-01-06 12:05:59 发布

喝巫昂黄

最新推荐文章于 2023-01-06 12:05:59 发布

阅读量1k

点赞数 1

分类专栏：论文笔记文章标签：数据仓库

本文链接：https://blog.csdn.net/weixin_47573613/article/details/122611032

版权

• 摘要
	○ 介绍GooDs
		§ 重新考虑如何组织大规模的组织结构化数据集
		§ 提取元数据的范围：从每个数据集中的显著信息到数据集之间的关系（个体信息到个体之间的关系）
		§ 运用元数据提供数据集访问和操作的服务
	○ 讨论需要克服的技术挑战
		§ 爬取和推断数十亿的数据集的元数据
		§ 维护元数据目录的一致性
		§ 运用元数据为用户提供服务
	○ 目标：对构建大规模企业级数据管理系统具有借鉴意义
1. 介绍
	○ 大公司内部数据集暴涨
		§ 原因：为了竞争优势，对数据集的滥用
		§ 对于公司而言，数据集与源码、基础设施同样重要
		§ 没有一个标准的数据集管理方法
		§ 需要开发标准灵活的数据集管理方法
	○ 企业数据管理方法
		§ Enterprise Data Management (EDM)
			□ 企业中组织数据集的常用方法
			□ 生成数据集和管理数据集都在一套系统内
		§ 事后（post-hoc）方法
			□ 类似数据湖（data lade）的概念
				® 数据累计成“湖”
				® 访问数据就是从湖中钓鱼（“fish”the right datasets）
			□ 采取事后的模式
				® 不介入数据的生产和使用
				® 为已经生成的数据提供管理工具
	○ Google Dataset Search（GooDs）
		§ 采用事后（post-hoc）方法
		§ 维护一个数据集目录
			□ 通过爬取数据集的信息来发现数据集并收集其元数据
				® 元数据包括所有者、访问时间、内容特征、生产管道的访问记录等
				® 借助额外的来源来推断元数据
		§ 将有关的数据集和其元数据在目录中进行关联操作（不改变数据集本身）
		§ 提供数据集的依赖关系（上游和下游数据集）
		§ 允许用户通过众包的方式扩展目录
		§ 用于搜索、监视、可视化数据流等
	○ GooDs架构（图1）
		§ 底层：持续的在不同存储系统中爬取数据集和数据集相关的元数据信息，此外还通过其他的来源来推断元数据
		§ 中层：生成数据集的中央目录，将有关的数据集以及其元数据在目录中进行关联
		§ 上层：提供搜索，监视，可视化数据流的服务
			□ 显示数据集的上游数据集和下游数据集，当发现数据集存在问题时可以通过检查起源来确定是否是由于上游数据集的变化导致。同样的，团队想要对管道作出重大更改或者在已有数据集中发现bug时可以迅速通知下游
			□ 提供仪表盘，用户可以获得数据集的统一视图和数据集的依赖关系，检测数据集的特性，当特性发生异常通知所有者
			□ 搜索引擎：搜索所有数据集，缩小搜索结果和找到最新或潜在的重要数据集。为每个数据集提供概要页面。页面中提供与当前数据集相似的数据集信息，有助于发现互补数据集。
			□ 提供众包扩展元数据目录，数据集所有者可以对数据集进行注释，帮助用户确定适合的数据集。数据集审计员可以标记包含敏感信息的数据集，并提醒数据集所有者或提示审查
2. 挑战
	○ 数据集规模
		§ 仅仅对所有工程师可读的数据集索引，数据集数量就超过260亿
		§ 如果增加被限制的数据集并支持更多存储系统，数据集数量将增加一倍以上
		§ 即使在每个数据集花费一秒的时间并使用1000太机器并行处理260亿数据集，也要花费约300天的时间
		§ 元数据推理的计算量呈指数增长的问题加剧了规模问题
	○ 多样性
		§ 数据集有不同的格式和存储系统，很难定义出一个涵盖所有数据集类型的单一数据集概念
			□ 隐藏由于数据集多样性和复杂性所造成的访问查询的差异
		§ 元数据提取成本的差异
			□ 与数据集的大小和元数据的类型有关
			□ 需要确定哪些数据集是重要的，根据拥有特定类型的元数据的成本和收益执行元数据推断
		§ 多样性也体现在数据集的相互关系中，而数据集的相互关系也反过来影响我们在目录中建模和存储元数据的方式。
	○ 目录条目的流动率
		§ 目录中每天都有大量（约十亿）旧的数据集被删除，同时也会有几乎同等数量的新条目添加
		§ 在这种程度的流失率下，需要考虑哪种数据集需要优先计算，哪种数据集需要优先加入目录中
			□ 对临时数据集数据集重要性的判断
	○ 元数据的不确定性
		§ 由于GooDs采用事后非侵入方式识别和分析数据集，无法完全确定所有类型的元数据
		§ 由于问题的规模，GooDs对数据集的分析只能是一个近似的过程，不够精准
	○ 计算数据集的重要性
		§ 推断目录中的数据集的相对重要性是一个挑战
			□ 什么使数据集变得重要”这个基本问题很难回答
			□ 为了了解其重要性，通常需要在更全局的上下文中检查数据集
		§ 数据集对用户的重要性
			□ 企业环境下，结构化数据集的重要性与web搜索环境中的重要性有很大的不同
				® 来源链接是二者唯一明确的联系，但这并不代表重要性就一致
				® 可以用于Web搜索的许多信息，数据集并不具备
				® 数据集可以提供Web页面没有的结构化上下文
		§ 当我们在推导出元数据时为数据集设定的优先级（多样性那一小节中）可以作为重要性的另一个参考
	○ 恢复数据集语义
		§ 理解数据集内容的语义对于搜索、排序和描述数据集非常有用
			□ 可以通过内容的语义改进搜索
		§ 将原始字节提升到概念的抽象级别，有助于元数据的推导
		§ 从原始数据中识别语义是一个困难的问题，即使对于小数据集也是如此
			□ 因为数据中没有足够的信息来进行这种推理
			□ 对大规模的数据集进行语义推理更加的困难
3. GooDs目录
• 虽然每个独立的存储系统都维护一个目录，但每个目录都有不同类型的元数据
• 数据通常不受约束的跨系统流动
• GooDs目录提供了整个公司可用数据集的统一的全局视图
•