合作机构:阿里云 / 腾讯云 / 亚马逊云 / DreamHost / NameSilo / INWX / GODADDY / 百度统计
现代组织需要一个模块化的数据架构来支持复杂的企业环境,同时为业务用户提供数据访问。以下是一些关键考虑因素。
过去几十年来,数据分析架构最佳实践已经经历了多个时代,数字化转型强调了实现数据战略现代化和利用数据使用机会的必要性。这些时代包括:
数据访问和自助分析的广泛化正在推动当前从LDW时代向主动元数据时代的演变。首席数据和分析官(CDAO)同样希望将数据用例扩展到LDW无法处理的范围。其中包括主数据管理、企业间数据共享、B2B数据集成、合作伙伴数据共享、应用程序数据集成等。
但什么是元数据,它在这一演变中扮演什么角色?
元数据描述数据的不同方面,例如数据的上下文。它是作为数据在企业系统中移动的副产品而产生的。元数据有四种类型:技术元数据、操作元数据、业务元数据和社交元数据。这些类型中的每一种都可以是组织收集但不主动分析的“被动”元数据,也可以是使用相同数据识别两个或多个系统之间的操作的“主动”元数据。
主动元数据可以实现自动化、提供见解并优化用户参与度,并且是自助分析的关键推动者。然而,要实现其潜力,需要一个能够平衡可重复性、可重用性、治理、权威、来源和优化交付等要求的数据架构。
数据分析领导者看到了两种选择,可以将其数据架构从目前大多数运营的LDW时代发展到主动元数据时代。这些选项是数据编织或数据网格。这些独立概念的共同目标是为使用数据的每个人(包括数据科学家、数据分析师和数据工程师以及数据消费者)提供更轻松的数据访问。尽管许多数据领导者将数据编织和数据网格视为相互竞争的数据架构方法,但更准确地说,它们被视为互补。
数据编织是一种新兴的数据管理和数据集成设计概念。其目标是实现灵活、可重用和增强的数据集成,以支持整个企业的数据访问。
对于许多组织来说,数据编织是逻辑数据仓库模型的自然演变,因为它利用现代化数据架构中的现有技术和元数据。数据编织设计不存在“淘汰和替换”。相反,它利用沉没成本,同时为新的数据管理支出提供优先级和成本控制指导。
数据编织从不同角度提供优势:
决定数据编织设计是否适合组织的两个因素是:元数据完整性和组织中的数据编织主题专业知识。具体来说,元数据太少的组织将看不到数据编织的好处。缺乏元数据还增加了对主题专家(SME)的依赖,他们可以帮助发现、推断甚至创作元数据,这可能会抵消数据编织设计相对较低的SME要求。
数据网格是一种允许分散数据管理的架构方法。其目标是支持定义、交付、维护和管理数据产品的工作,使数据消费者能够轻松查找和使用数据产品。数据网格架构基于将数据责任分散和分配给最接近数据的人并将该数据作为服务共享的概念。
数据网格最常见的驱动因素是:业务线(LOB)具有更多的数据自主权、减少对中央IT的依赖以及利用数据去中心化来打破孤岛(尽管可能需要在网格架构内进行一些数据集中化)。尽管其吸引力显而易见,但请注意以下先决条件和挑战。
该术语与因组织模式、数据管理和技术实施而异的各种方法相关。组织驱动因素也各不相同。其中包括消除IT瓶颈,以及合理化由LOB主导的数据管道创建或由云现代化数据管理计划触发的孤立数据集。
数据分析领导者不应采用数据网格架构作为解决数据管理挑战的看似简单的解决方案。尽管它正式化了常见做法,但它放弃了LOB专家的数据责任,这可能会导致孤立数据使用激增。
如果各个部门的数据素养、自主性和数据技能差异很大,并且组织缺乏实施数据管理活动的能力,那么中央IT将需要提供更多支持——至少在一开始是这样。LOB可以通过创建新角色(例如数据产品所有者)来管理数据产品的定义、创建和治理,从而在数据网格环境中实现更大的自主权。然而,缺乏构建分布式数据技能承诺的组织应该避免数据网格。
数据网格架构实现通常基于云并使用共享存储和处理。然而,每个LOB用于数据交付、维护和治理的工具将根据用例以及生产者和消费者之间的合同而有很大差异。这些合同定义了数据产品的范围、SLA和运营成本,例如可用性、计算成本、访问并发性、治理和质量策略、上下文和语义。没有明确合同的组织通常会面临共享性和可重用性限制,这违背了开发数据网格架构的目标。
数据网格将数据治理的责任转移给领域应用程序设计者和用户。对于要自主构建和公开数据产品的LOB,它必须定义符合首席信息安全官(CISO)和首席数据官(CDO)或中央治理委员会的中央指导的本地数据治理和数据管理。在成熟的数据网格组织中,业务组织通过中央IT支持来实施自己的治理策略,而不是相反。
对于元数据不完整的组织来说,数据网格是一个可行的选择。只要他们拥有具有主题专业知识的数据架构师,他们就可以从数据网格开始并并行构建其活动元数据存储。
使用本地、云、多云、云间和混合部署进行运营的数据领导者将需要修改其现有的数据架构策略,以支持其当前和未来的复杂性。精心规划且强大的数据架构可确保新技术与现有基础设施相一致,并能够支持未来的需求,包括跨云提供商、SaaS解决方案和本地资源部署等的集成和互操作性。数据架构制定重点围绕以下方面考虑:
根据数据和分析(D&A)团队组织、共享和分析数据的方式设计数据管理架构。
TOP