资讯热度排行榜

大话数仓，数据仓库（一）

来源:互联网日期:2023/11/23 16:53:56 阅读量:(0)

数据仓库，是越来越流行的数据解决方案。传统烟囱式的数据开发模式，显然不能满足日益增长的数据需求，而作为大数据量化方案、解决大数据问题、发掘数据价值的大数据仓库被很多公司采纳使用。想要建设好数据仓库，就要了解数据仓库模型设计及其原理、怎样处理数据仓库建设的需求分析？又如何处理基础数据元和维度表、事实表？下面就来简单谈谈数据仓库。

一、什么是数据仓库？

数据仓库的概念

数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合，用于支持管理决策、商业营销、运营分析。数据仓库实际上是一种数据存储，它将各种异构数据源中的数据集成在一起，并保持其语义一致，为企业决策提供支持。

1.面向主题。在较高层次对数据综合、归类，针对某一分析领域所抽象出来的分析对象。

构建主题的步骤：首先抽象出需要分析的主题域，确定每个主题域需要分析的维度、其所包含哪些数据表。一般主题域所有表都有一个连接键，作为主题的一部分，通过这个连接键可把主题域所有表关联汇总成一张宽表。如会员主题，分为会员基本信息、会员积分数据、会员的资产数据、会员的行为数据、会员的信用等多张表。

2.集成的。数据来源的格式类型不同；编码、命名格式、属性单位不一致，然后对原有数据进行综合、计算。

把不同表、不同类型的数据放入到统一的数据仓库中。如Mysql、Oracle、Redis、Hbase中的数据，我们通过同步全量数据把数据存入统一的系统中。对于增量数据设置定时抽取，可以采用并发架构，多任务同时同步，把数据持续存到我们的分布式文件系统中来。

3.时变的。数据仓库的数据是不同时间的数据集合；随时间变化不断增加、删除、综合数据；数据仓库表结构中一般都带有时间字段。

数据仓库的数据不是一成不变的，它是随着时间变化不断新增内容，更新与时间有关的综合数据，这些数据一般都包含有时间字段。

4.稳定非易失的。.数据仓库中的数据一般只插入新增，不做update更新、delete删除操作。

数据是经过抽取而形成的分析型数据，不具有原始性(不是第一手数据，一般是经过其他数据源或业务系统，抽取到数据仓库中)，主要供企业决策分析之用，执行的主要是查询操作，一般情况下不执行更新操作。抽到数据仓库的数据在ODS层不做任何操作，来保持数据的原始性(不改变字段属性，不补值等操作)。

二、数据仓库建模理论

数据一般用于两种目的，一种是基于操作型记录保存，一种是分析决策的制定。简单来说，前者是操作系统保存数据(OLTP-联机事务处理)，一般仅反映数据的最新状态，按单条记录事务性来处理数据；其优化的核心是更快地处理事务；后者是分析系统使用数据(OLAP-联机事务分析)，按大批量方式处理数据；其核心是高性能、多维度处理数据。针对两种不同的数据用途，如何组织数据，高效的使用数据，这里就涉及到数据建模的问题。