数据目录(Data Catalog) 与元数据管理的重要性发表时间:2021-12-06 09:43 随着数据湖、大数据、 自助数据分析和数据科学的数据管理变得更加复杂,元数据的作用也在发生变化,元数据的重要性呈指数级增加。当前,一个准确和易于访问的元数据是必要的。数据目录被看成是当前元数据管理的最佳工具。数据目录已成为元数据的“金标准”和数据管理的基石 数据目录的核心定义:“通过元数据集合,结合数据管理和搜索工具,帮助分析人员和其他数据用户找到他们需要的数据,制成可用数据清单,并来评估数据的可用性”。 数据目录作为共享元数据的资源。所有数据开发人员都可以通过目录共享它,任何寻求数据知识的人都可以在目录中找到它。所有这些都是与元数据相关的活动。客观上说,BI时代的元数据管理工作是一项艰巨而复杂并充满挑战性的工作。即便是充满痛苦的,但这也是我们不能回避的一项重要工作,不同类型的元数据对不同类型的用户业务应用起到了至关重要的作用,如果没有有效的元数据那也就没有办法实现有效的数据管理。 元数据的重要性元数据的真实价值可以在它提供的答案中找到。用户对数据的可信度、延迟性、血缘关系、敏感性等都有疑问,有时他们想找到其他了解或使用过数据的人来获得更多的信息。他们需要了解访问、隐私和安全限制、成本等多个方面。从数据集名称和属性到使用、访问、许可和主题专家的元数据,是回答许多问题的关键。 元数据对于以下三种不同数据使用者角色的重要性: • 数据使用者——需要元数据来帮助他们找到用于报告、分析和数据科学工作的数据,并评估这些数据,以确保他们得到正确可用的数据集 • 数据管理员——需要元数据来观察数据的使用情况,理解数据消费者的需求和兴趣,并有效地管理共享数据的收集 • 数据拥有者——需要元数据来识别和保护敏感数据,跟踪数据血统,并建立对数据的信任。 ![]() 元数据和目录元数据是数据目录的核心。每个目录都会收集有关数据清单以及与数据相关的流程、人员和平台的数据。业务、流程和技术元数据以及数据目录的元数据工具可以满足这些工作,但是数据目录可以做得更多。 他们收集关于数据集的元数据、关于处理的元数据、用于搜索的元数据 以及关于人员和关于人员的元数据。 数据目录可通过以下功能更改规则,并提升元数据管理的最佳实践: • 众包的元数据:通过应用算法和机器学习,可以自动收集许多目录元数据。但有时最有价值的元数据是个人和群体的知识和经验。收集作为用户评级、评论、技巧和技术的知识可以丰富元数据收集,并将部落知识转换为共享和持久的数据管理资源。 • 关于人的数据:数据管理和数据分析终究还是人的行为活动。知道哪些人有数据角色和关系,和这些角色的性质很有价值。数据目录捕获元数据,以识别数据用户、 数据创建者、数据管理员和数据主题专家。 • 自动的元数据发现。数据拥有者具备海量存储的数据,但是他们并不清楚自己拥有的数据到底有哪些,甚至不清楚数据对他们意味着什么。所以,如果没有自动发现数据的能力,就很难对一个PB级的数据库进行操作。自动元数据发现是数据编目的一个重要组成部分。但是,数据目录中的大部分元数据都是众包和协作的结果。 总结数据准备、数据分析和数据科学工具都认为,当与数据编目相结合时,用户的投资汇报率会显著增加。要实现数据编目的好处,就要从业务和技术方面开始了解数据编目的内容和原因。然后将数据管理实践付诸行动,以管理元数据,并鼓励协作和众包来丰富元数据。系统地、逐步地扩展数据目录的覆盖范围,最终扩展到所有数据消费者和利益相关者。有了这种数据编目方法,在通过增加数据分析能力、加速分析以及提高分析结果的质量和可靠性,体验到真正的业务改变! |