从生产库中通过ETL抽取数据到数据仓库,最先接触且最重要的一层是ODS层。ODS层数据的质量、数据见关系会影响到后续数据加工的难道和数量。
对于从源库中整合到ODS层时,一定要做好数据分析和发现。在ODS层,如果是严禁的3NF关系模型,则没有必要一定建立一层与原库表结构相同的数据层。因为,第一、数据量很大时,这一层占用空间太大,第二、如果ODS层中最好3NF的数据模型,则一定可以在这里(ODS层)查找到源库库中相应的字段值(当然需要通过关联)。
对于ODS层,一定要规范好该层的数据。该层的空字段越少越好。一定要做好该层数据质量的检验。入库之前,做好数据的分析和标识。常见的情况有:源表该字段为空,通过关联关系关联不出来相应的数据,关联后得到的数据不是规范的数据等等情况。
数据发现指潜在的多个实例中抽取数据后的整合。对于有相同意义的多个实例中的数据,我们插入到ODS时一定要做好数据整合,这样在数据仓库中才能得到规范化的数据。