当前位置:首页 > 技术专区 >

如何决定哪些表需要delta增量更新

 数据仓库增量数据处理一般发生在从 Source 到 Staging 的过程中,从 Staging 到DW 一般又分为维度 ETL 处理和事实 ETL 处理两个部分。那么实际上从 Source 到 Staging 的过程中,就已经有意识的对维度和事实进行了分类加载处理。通常情况下,作为维度的数据量较小,而作为业务事实数据量通常非常大。因此,着重要处理的是业务事实数据,要对这一部分数据采取合适的增量加载策略。

 
通常情况下,对数据仓库从 Source  到 Staging 增量数据的处理可以按照这种方式:
 
    对于具有维度性质的数据表可以在 Staging 中采取全卸载,全重新加载的模式。即每次加载数据的时候,先将 Staging 表数据清空掉,然后再重新从数据源加载数据到 Staging 表中。
    对于具有事实性质的数据表,需要考虑使用上面通用的集中增量数据处理的方案,选择一个合适的方式来处理数据。保证在 Staging 事实中的数据相对于后面的 DW 数据库来说就是新增的或者已修改过的数据。
 
但是也不排除大维度表的情况出现,即具有维度性质的数据表本身就非常庞大,像会员表有可能作为维度表,动辄百万甚至千万的数据。这种情况下,也可以考虑使用合适的增量数据加载策略来提高加载的性能。
至于从 Staging 到 DW 的这一过程,通常情况下包含了维度 SCD 过程和事实 Lookup 过程
 
报名热线 021-62932189