每当您在阅读的文本中偶然发现表格时,您应该直观地掌握以这种方式呈现的数据背后的含义——表格数据结构是在考虑到人类的情况下创建的。
如果您尝试搜索“表格符号”或“如何阅读表格”,您将找到有关如何让您的软件解析表格的说明。另一方面,人类应该发现它是不言而喻的!
如果我考虑表格的内容,我可能会发现表格符号不言自明,但是从内容中猜测符号的含义听起来很不愉快!让我们形式化表格符号。
符号:不分内容
笛卡尔平面
任何表格都是二维的,并且可以在笛卡尔平面上表示。
任何表,无论多么复杂,都包括:
- 带有标题单元格的x 轴,
- 带有标题单元格的y 轴,
- 内容单元格,每个单元格对应一个且只有一个 ( x , y ) 标题对,以及
- 类别,非单元格,只是对标题单元格进行分组。
我们可以将自然界中的任何表格转换为这种简化的结构,我们称这种简化的表格为规范化表格。
类别
例如,标题单元格y1、y2和y3属于对象的同一类别,而y4、y5和y6属于另一个类别的情况很常见。
在规范化表中,我们将通过在每个标题单元格中分别提及标题单元格所属的类别来表示这一点:
但是,这可能会开始显得笨重,并且您会经常看到这样的级联设计:
注意我们仍然使用严格的 2D 数据结构。“Cats”和“Dogs”不是表格单元格——它只是帮助我们避免在每个标题单元格中重复类别的语法糖。
这种级联可以变得任意复杂,但它总是可以展平为二维结构。
邪恶:(0, 0) 单元格
您可能已经注意到,我们的标准化表格永远不会填满最左边的最上面的 单元格。
这不能是标题单元格,任何内容单元格都不能成为它的目标。
在真实的表格中,它经常被填满,这就是我们需要查看表格单元格中单词的含义才能解析表格符号的地方。
最左边的最上面的单元格是,或者:
- 所有x 轴标题单元格的类别
- 所有y 轴标题单元格的类别。
您必须阅读标题单元格的内容以确定它在此特定表格中的位置。
例如,在我们的“复杂级联表”中,(0, 0) 单元格中填充了“仪器”一词。查看x 轴标题单元格,我们看到“ Instruments: 2002, Apr 15 ”。查看我们的y 轴标题单元格,我们看到“工具:联邦基金(有效) ”。
后者更有意义(就像这个官僚机构所能做的那样),我们假设这个假的(0, 0) 单元格实际上是整个 y 轴标题列的一个类别。
符号:考虑内容
正如您在邪恶的 (0, 0) 单元格中看到的那样,在某些时候我们必须开始查看单元格中文本背后的含义。
看看下表,讽刺地取自“写作清晰的科学”博客。
纯粹看表格的形式,人们会猜测这些是x 轴和y 轴标题:
然而,这种情况并非如此。“治疗”实际上是邪恶的 (0, 0) 单元格,而“ IU/L ”不是内容单元格——它是标题单元格的一部分。
以下是我们将如何规范化此表:
如果您的表已经处于规范化状态,如上所示,您无需阅读其内容即可了解其结构,我认为这就是符号的方式。
读表
在一个完美的世界里,我们不必通读表格中的文本来解析它的结构。但是,即使我们的表格结构完美,也还是需要一些猜测才能理解表格的内容!
剩下的歧义是将 ( x1 , y1 )标题单元元组连接到内容单元的动词。为了能够像阅读正确的直接文本一样阅读表格,我们需要一些句子模板“ x1 verb y1 ”。一些作者很有帮助地在表格标题中包含了这样一个“ x1 动词 y1 ”的句子模板。更频繁地,我们要收集必要的
从周围的上下文中提取句子结构,我发现意识到这种必要性和这个过程非常有帮助