数据集市(Data Mart)是一个经过精心设计的数据子集,由一组专门的表构成,旨在满足特定数据团队、社区或业务部门(如营销或工程团队)的需求。与数据仓库相比,数据集市通常更加小型且针对性强,通常作为企业更大规模数据仓库的子集存在。数据集市被广泛应用于分析、商业智能和报告。自 1970 年代初,由 ACNielsen 首次推出的数据集市以来,它为用户提供了数字方式存储信息的工具,以助力销售工作,从而成为中央数据仓库与数据湖进化过程中的第一步。
由企业数据团队构建和管理,尽管某些情况下也可能由业务单元的领域专家自行构建和维护。
业务组数据管理员负责维护数据集市,最终用户拥有只读权限——他们可以查询和查看表格,但无法进行修改,以避免技术能力不足的用户意外删除或更改关键业务数据。
通常采用维度模型和星型模型进行设计。
包含来自企业更大规模数据仓库的精选数据子集,这些数据经过清洗和标准化处理,使其易于理解和查询。
围绕特定业务线或用例的独特需求进行设计。
用户通常通过SQL 命令查询数据。
目前,数据集市主要分为以下三种类型:
独立型数据集市独立型数据集市并非数据仓库的一部分,其形式类似于 ACNielsen 最初提供的数据集市。此类型的数据集市通常聚焦于某一个业务领域或主题。数据来源既可以是内部数据,也可以是外部数据,经过转化、处理后加载到数据集市中,存储到需要时使用。
依赖型数据集市依赖型数据集市与现有数据仓库结合在一起,采用自上而下的方法,将所有数据集中存储在一个位置,并明确选定某部分数据用于研究或分析目的。
混合型数据集市混合型数据集市将数据仓库数据与其他数据源结合起来。这种类型的数据集市在多数据库环境中应用非常广泛,且能够快速实施。混合型数据集市非常适用于小型数据密集型应用场景,同时擅长数据清理任务,能够满足新增产品或组织部门的快速集成需求。
👉 【点击查看】2025年最新 DatabaseMart 优惠码及特价云服务器方案汇总
单一数据源数据集市可以作为特定业务线的单一数据源,这样每个人都可以基于相同的数据和事实开展工作。
简化访问业务用户可以直接访问经过精心整理的数据集市来获取他们关心的数据,无需通过数据仓库的所有数据进行繁琐的查询和表连接操作。
尽管企业数据仓库的初衷是为了满足所有数据管理需求,但它很难满足不同部门的多样化需求和目标。为了弥补这一不足,各部门往往会自行复制并创建数据集市(有时会得到企业 IT 部门协助),以满足其自助分析和部门级报告需求。结果导致,数据集市逐渐形式化为数据孤岛或企业角度的“数据影子副本”。虽然这些数据副本能够很好地服务于部门需求,但从企业整体视角来看,导致难以实现数据的一致性。
Lakehouse 平台通过将所有企业数据仓库和数据集市整合到一个统一的平台上,从而解决了数据孤岛问题,同时提供安全性和数据治理功能。不同团队仍可以根据业务需求创建各自的数据区,而任何数据集市或“增强型副本”都因其基于同一个 Lakehouse 平台创建——由数据目录发现并遵循数据治理规则(如标签和数据字典)。因此,所有增强的副本都可以被发现,避免产生重复的类似副本。