首页 手机数码正文

个推TechDay治数训练营直播回顾:企业数据智能体系搭建之数仓建设及数据建模

手机数码 2025-06-18 0 通信技术

前几日,2022年个推TechDay"治数训练营"系列直播课排第一期圆满举办。个推资深大其他数据研发工程师为下列 深入浅出地简单介绍了其他数据仓库的前世今生多达其他数据建模的使用方式多。

本文对"治数训练营"排第一期《其他数据仓库与维度建模》的干货内容中针对性了总结,多达也挑选了直播间的精彩提问作了Q&A梳理,带下列 一起去回顾首期课程。

01其他数据仓库快速入门

其他数据仓库(Data Warehouse),简称"数仓",和大其他数据从业者绕不开的有个概念。"其他数据仓库之父"Bill Inmon最早各种提出要求数仓的概念,因而"其他数据仓库是有个面向主题的、集成的、相当稳定的、反映史中变动的其他数据集合,用于都支持管理决策"

多达,大其他数据架构专家Ralph Kimball在《The Data Warehouse Tookit》一书中,也对数仓针对性了定义:"其他数据仓库是有个将源系统支持 其他数据抽取、清洗、规格化,后再提交到维度其他数据存储的系统支持 ,为决策的制定应用提供查询和分析及多种功能 的支撑和已完成"

Bill Inmon对数仓的定义更强调总的来看特性,Ralph Kimball多达 从针对性流程从总的来看来定义数仓。亦或谁的定义,下列 是都要从中以外看到企业中建设中其他数据仓库的意义重大。企业中针对性建设中数仓,多达也可将分散在各业务系统支持 的其他数据针对性集中化管理,打破其他数据孤岛;也可为后续高效分析通信技术及和应用其他数据,针对性大其他数据赋能业务总的来看发展奠定此基础。

02数仓建设中与其他数据建模

一旦,企业中其次其次怎样建设中其他数据仓库?其次其次怎样建设中有个贴合业务又市场需求的、高效、稳定、好设计方式方式多其他数据仓库?多达 也可最终决定其他数据模型的选择放弃和其他数据建模的解决目前。

"其他数据建模"是指对实体多达实体和实体间和大间的针对性其他数据化描述和抽象的过程中。"其他数据模型",多达 指参与组织和存储其他数据的方式多。

截至目前主流的其他数据建模方式多有两种,其余是范式建模和维度建模:

范式建模

范式建模由Bill Inmon各种提出要求,指走在企业中从总的来看面向主题的抽象,下列 这常会针对性E-R实体间的模型将事物抽象为"实体""属性""间的",来因而事物和事件其它相关 。范式建模并非针对性某个已确定分析及业务流程中实体对象间和大抽象,它也可建模人员全面地、总的来看地全面简单介绍企业中的业务和其他数据,多达针对性周期长,对建模人员的能力不强各种提出要求也相当高。

维度建模

维度建模由Ralph Kimball各种提出要求,主张从分析及决策的又市场需求出发构建模型,为分析及又市场需求服务提供。既是它重点关注中国国其次其次怎样针对性户更快速地已完成其他分析及及,多达保持稳定较有好大规模复杂查询的响应性能。相比较范式建模,维度建模建设中周期短,都支持敏捷迭代,常会绝可能会对数仓架构作了多复杂的设计方式理念

在构建数仓时,下列 是要依照已确定分析及的其他分析及及场景和业务其他处理 系统支持 来选择放弃其它相关的其他数据建模方式多。以外,就OLTP系统支持 (On-line Transaction Processing:联机事务其他处理 )对于,因而其大部分是面向随机读写的其他数据灵活操作,关注中国国事务的其他处理 ,既是下列 是特别推荐针对性OLTP系统支持 及中国传统其他数据库的企业中针对性范式建模的方式多来设计方式理念其他数据模型,以解决目前在事务其他处理 中都其他数据冗余了一致性解决目前。而OLAP系统支持 (On-line Analytical Processing :联机分析及其他处理 )面向批量读写其他数据的灵活操作,关注中国中国国事务其他处理 一致性,大部分是关注中国国其他数据的整合多达大其他数据查询和其他处理 中都性能,既是常会设计方式方式维度建模的方式多。

已确定分析及其次其次怎样针对性范式建模和维度建模呢?下列 是自身特点案例其余从总的来看。

03范式建模方式多及实例剖析

其次从总的来看范式建模和大部分过程中。

在针对性范式建模时,下列 是常会要遵从相相同规范各种提出要求设计方式理念出合理的模型,截至目前相相同规范各种提出要求多达 "范式"。截至目前行业多中存这一范式、二范式、三范式等相相同模型建设中规范。越高的范式生活带 的其他数据库冗余越小,截至目前在其他数据计算以外方面会更复杂。企业中常会设计方式方式三范式建模,在确保灵活度多达其他数据计算速度快 的多达,降低其他数据其他处理 的复杂度。

范式建模的过程中也可被拆解为下列四步:

1. 抽象出主体

2. 梳理主体间和大间的

3. 梳理主体的属性

4. 画出E-R间的图

以外,下列 是要针对性范式建模的针对性设计方式理念某课程系统支持 支持 的其他数据模型。

系统支持 支持 大部分使用管理某所有学生所有学生、所有学生和课程等其它相关其他数据,涉及课程选修、考试好的成绩、所有学生授课、所有学生班级等以外方面。那下列 是其次要梳理出实体,为所有学生、课程、所有学生、班级;以外方面梳理出实体间和大间的,以外所有学生讲授课程、所有学生选修课程、所有学生隶属班级等;后通信技术再要罗列出各实体和间和大属性,以外"所有学生"有个实体的属性有姓名、性别、年龄等,"所有学生选修课程"有个间和大属性有选修时间啊、总课时等;排第一步,多达 画出E-R图,用矩形因而"实体",用菱形因而"间的",用椭圆形因而"属性",以可视化的针对性清晰展示出主体和主体间和大间的。

04维度建模方式多及实例剖析

相比较范式建模,维度建模稍为复杂,以外事实通信技术表和维度表两块内容中。

事实表

其次看事实表。事实表分三种,以外事务性事实表、周期性快照事实表、累计快照事实表。

  • 事务性事实表常会用那条记录因而某个时间啊点随后发生事儿件或行为性质。以外电商业务场景中都订单支付业务,常会就设计方式方式事务性事实表来参与组织和存储其他数据。

  • 周期性快照事实表这那条记录描述的多达 有个实体了一一段时间啊内的那种状态或现状,以外某顾客每月的积分余额就都属了那条都属于的周期性快照事实表记录。

  • 累计快照事实表这那条记录多达 对某业务流程中随后发生的多个事件的累计记录,常会是只为又市场需求某个流程节点运转效率的统计又市场需求。

下列 是以有个事务性事实表的设计方式理念过程中为例来全面简单介绍事实表的设计方式理念方式多:

1. 选择放弃与其他分析及及又市场需求其它相关的业务过程中。"业务过程中"是指在业务流程中都可拆分的行为性质事件。以外,电商业务场景下,购物的业务流程中就以外加购、下单、支付、商家发货、每个用户已确定收货等业务过程中。那下列 是要分析及销售额,那"支付"多达 必选的业务过程中。

2. 声明粒度。下列 是要尽量选择放弃最细粒度,精已确定分析及义事实表的各个行所因而的业务含义,以确保事实表有最重要和大灵活性。以外,每个用户一旦在有个订单里都去购买多个商品,那各个去购买完商品多达 有个子订单,下列 这常会选择放弃将子订单既是声明粒度。

3. 已确定分析及维度。维度是指业务过程中所处的坏境其它相关信息,以外每个用户了一个时间啊去购买完某个店铺的某个商品,那店铺所属行业多、商品所在类目等均也可被因而是维度。

4. 已确定分析及事实,即已确定分析及业务过程中的度量指标。以外"支付"有个业务过程中的度量指标为支付金额,更复杂的电商业务场景下,一旦还以外分摊邮费、折扣金额等指标。

也可证明多达 ,各个其他数据仓库都已确定分析及包括有个也可多个事实表,事实表是对分析及主题的度量,它已确定分析及包括了与各维度表相其它相关 的外键,并针对性Join针对性与维度表其它相关

维度表

维度表多达 每个用户分析及其他数据的窗口,记录了事实表中其它相关事务、事件的属性及属性含义。

维度表的设计方式理念过程中,大部分分为下列四步:

1. 选择放弃维度。以外要生成有个商品维度表,那下列 是选择放弃的维度多达 商品维度。

2. 已确定分析及主维表。以外要建商品维度表,那主维表多达 来自美国于业务系统支持 的商品表。

3. 已确定分析及其它相关维度表。主维表已确定分析及后再,其在他其它相关维度表多达 随之已确定分析及。以外商品维度表的其它相关维度表有商品类目表、所属品牌中表、商品所属行业多表等。

4. 已确定分析及维度属性。截至目前属性常会来自美国于主维表和其它相关维表。下列 是将主维表和其它相关维表的属性集成,针对性相同属性合并(以外,商品类目表和所属品牌中表中一旦都要比较证明属行业多属性,那下列 是就也可对所属行业多有个属性针对性合并),后再将尽管得不到的属性放到要生成的维度表里。

多达,本期个推TechDay"治数训练营"还对范式建模与维度建模和大部分原则、建模中都常见解决目前(以外范式建模中都传递依赖解决目前、维度建模中都缓慢变动维解决目前等)、数仓分层等针对性了已确定分析及阐述,欢迎关注中国国个推中国传统技术 实践公众号,Get直播回放小视频!

特别推荐书目

当有个该公司在战略上最终决定做云计算和大其他数据服务提供后,其次其次怎样将该战略针对性逐步分解,尽管落地针对性?这多达涉及中国传统技术 构建、运营管理、参与组织能力不强建设中等一系列各类参与组织,有有没有方式多论和实践可供借鉴?相信你本书生活带 您生活带 灵感!

关注中国国个推中国传统技术 实践微信公众号,后台回复"数仓",获取本期直播课件~

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。