大数据之数据仓库结构
发布时间:2021-06-05 13:25:05 所属栏目:大数据 来源:互联网
导读:大数据之数据仓库分层 什么是数据分层? 数据分层的好处 一种通用的数据分层设计 举例 各层会用到的计算引擎和存储系统 分层实现 数据分层的一些概念说明 7.大数据相关基础概念 1. 什么是数据分层? 数据分层是一套行之有效的数据组织和管理方法,使得数据体系
|
大数据之数据仓库分层
什么是数据分层?
数据分层的好处
一种通用的数据分层设计
举例
各层会用到的计算引擎和存储系统
分层实现
数据分层的一些概念说明 7.大数据相关基础概念
1. 什么是数据分层?
数据分层是一套行之有效的数据组织和管理方法,使得数据体系更有序。
2. 数据分层的好处
(1)清晰数据结构
每一个数据分层都有它的作用域和职责,在使用表的时候能更方便的定位和理解。
(2)减少重复开发
规范数据分层,开发一些通用的中间层数据,能够减少极大的重复计算。
(3)统一数据口径
通过数据分层,提供统一的数据出口,统一对外输出的数据口径。
(4)复杂问题简单化
将一个复杂的任务分解成多个步骤完成,每一层解决特定的问题。
一种通用的数据分层设计
ODS:存放原始数据
DW:存放数仓中间层数据
APP:面向业务定制的应用数据
大数据之数据仓库分层
3. 举例
以下是一个电商网站的数据体系设计,只关注用户访问日志这部分数据。
大数据之数据仓库分层
4. 各层会用到的计算引擎和存储系统
大数据之数据仓库分层
5.分层实现
大数据之数据仓库分层
在确定建模思路和模型类型之后,下一步的工作是数据分层。数据分层可以使得数据构建体系更加清晰,便于数据使用者快速对数据进行定位;同时数据分层也可以简化数据加工处理流程,降低计算复杂度。
我们常用的数据仓库的数据分层通常分为集市层、中间层、基础数据层上下三层结构。由传统的多层结构减少到上下三层结构的目的是为了压缩整体数据处理流程的长度,同时扁平化的数据处理流程有助于数据质量控制和数据运维。
在上下三层的结构的右侧,我们增加了流式数据,将其添加成数据体系的一部分。这是因为当前的数据应用方向会越来越关注数据的时效性,越实时的数据价值度越高。
但是,由于流式数据集的采集、加工和管理的成本较高,一般都会按照需求驱动的方式建设;此外,考虑到成本因素,流式数据体系的结构更加扁平化,通常不会设计中间层。
下面来具体看下每一层的具体作用。
![]() (编辑:阳江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |


