什么是数据建模以及如何进行数据建模?

数据建模涉及为特定目的定义数据内容和结构, 通常分为三个阶段:概念模型, 逻辑模型, 物理模型. 概念模型概述了高级数据需求, 逻辑模型添加了更多细节, 而物理模型是数据模型在特定数据仓库中的实现, 如雪花.

Datameer Spectrum vs . Tableau Prep
数据建模云数据仓库时代的图标

面向分析的数据建模

数据治理框架

两种最突出的分析建模方法来自 数据仓库 创新者比尔·因蒙和拉尔夫·金博尔.  

前者提倡面向主题的数据建模方法(按主题领域组织), 而后者, 金博尔法, 重点关注将数据组织到事实表和维度表中,即通常所说的星型模式.  

每种方法都为数据仓库和模型添加了结构, 这也需要冗长的变更管理过程.

在这两种方法中,数据都是使用 ETL模式 -提取、转换和加载. 

数据建模云数据仓库时代的图标

云数据仓库时代

security-和-data-governance

云数据仓库的出现和流行改变了十大网赌正规网址下载对数据转换和建模的看法. 

 新 英语教学模式 (提取, 负载, 和转换)处理提取, 将这些摘录装入CDW, 然后在目标系统中发生转换.

这种方法允许组织利用CDW的廉价且可伸缩的计算和存储服务,并通过分离数据加载和数据创建灵活性.

在云数据仓库中, EL和T是分开的, 数据工程师负责EL,数据工程师和分析社区之间分担T的责任——大部分数据建模都发生在T中.”

协作工具绿色图标

步骤1:将数据放入CDW

在现代数据环境中,数据来自各种来源.  增长最快的分析数据源来自SaaS应用程序和云服务, 这些源具有高度复杂的数据结构和api.  

现代预构建的EL或“数据加载器”工具, 比如Fivetran, Hevo, 针, 和更多的, 专注于消除源数据中的复杂性,并以最有效的方式将“对象”复制到云数据仓库中.

因此, 您的团队将使用的初始数据模型是云数据仓库中的一组表,它们看起来像来自数据源的对象, 相似地分组, 并且包含所有相同的字段. 

数据建模低代码图标

步骤2:规范化数据建模

一旦数据在CDW中并且经过了第一阶段的数据争用, 数据工程团队可以将原始数据转换为表示特定主题的规范化数据模型.

  例如表示用户报告对象(如客户)的数据维度和事实, 联系人, 领导, 机会, 活动, 等.

规范化数据模型的主要原理是创建共享数据, 用于多个用例的可重用组件.  创造这个的一些好处 语义层 有以下几种:

  • 为每个主体和该主体内的场创造一个真相的单一版本.
  • 为每个学科的数据提供共享和标准化的定义和文档;
  • 数据模型的透明度,以及如何构建数据模型以在分析社区中建立信任.

 来构建这些规范化数据模型,  数据工程团队将从各个业务和分析团队收集需求. 这些通常是最大化重用和消耗的需求的超集. 

人图标

步骤3:用例数据建模

数据建模的最后一步是创建特定于分析用例的数据集或数据集.  对于云数据仓库中的现代数据建模,该任务通常由数据分析师完成.  为什么?  这归结为角色和技能:

  • 数据工程师往往更了解数据本身,也就是数据所在的位置, 它的结构和格式是怎样的, 以及如何获得这些数据,而不是企业如何使用这些数据.  这使得它们在将数据导入CDW和第一次通过数据建模方面发挥了理想的作用.
  • 数据分析师对原始数据了解较少,但完全了解业务将如何使用数据以及如何将其纳入分析.  这使得它们成为用例数据建模和转换的理想角色.

数据分析师可能有不同的技术技能,但他们更愿意把更多的时间花在他们擅长的事情上——分析——而不是编码数据转换.  这就是低代码或无代码数据转换UI变得至关重要的地方, 无需分析师编写复杂的SQL代码和类python脚本.

用例数据建模和转换通常包括:

  • 特定于用例的数据清理, 例如识别和修复异常值或删除记录,
  • 数据形成和简化,例如对数据进行排序和组织, 消除不需要的字段, 将数据范围缩小到时间段或特定维度, 和
  • 数据丰富,以添加特定于分析的新的计算字段,或上传特定于用例的本地文件, 例如外部或部门特定的数据.

数据模型的最佳最终形式将是一个单一的扁平数据结构——一个巨大的, 宽表.  这, 随着物质化, 消除了每次为分析执行查询时执行昂贵的join的需要.

用于雪花CDW的转换Saas工具

Datameer SaaS数据转换解决方案是 业界首创 集成到Snowflake中的协作、多角色数据转换平台.

 它汇集了你的整个团队-数据工程师, 分析工程师, 分析师, 和数据科学家——在一个单一的平台上,直接在Snowflake中协作转换和建模数据, 确保数据安全,并使用Snowflake的可扩展计算和存储.

使用云数据仓库和ELT流程的现代数据栈产生了对数据栈内现代化数据建模的需求.  

数据建模和转换是否阻碍了分析的现代化?  你的数据和分析工程成本是否暴涨? 

那么Datameer就是你的解决方案!

希望很快能见到你,谢谢 🥂

为雪花构建的无代码分析

立即免费试用
友情链接: 1 2 3 4 5 6 7 8 9 10