跳转到主要内容
Chinese, Simplified

category

数据目录是组织中有组织的数据资产清单。单击此处了解2021年数据目录的定义、示例和最佳实践。

数据目录被定义为组织中所有数据资产的库存。它可以帮助数据专业人员为任何分析或业务目的找到最相关的数据。数据目录使用元数据创建组织中所有数据资产的信息丰富且可搜索的清单。本文讨论了数据目录的定义、构建过程,以及2021年数据目录的10大最佳实践。

目录

  • 什么是数据目录?
  • 数据目录过程:关键步骤及示例
  • 2021年数据目录十大最佳实践

什么是数据目录?

数据目录是组织中所有数据资产的清单,可帮助数据专业人员为任何分析或业务目的找到最相关的数据。它是一个数据清单,并提供必要的信息来评估数据是否适合预期用途。它还帮助分析师和其他数据用户找到他们为特定目的所需的目标数据。

让我们考虑一下图书馆的类比。

当你想知道图书馆里是否有特定的书时,你通常会使用图书馆目录。除了它的可用性,目录还告诉你这本书的版本和位置。简而言之,目录为您提供了书籍的各种详细信息,以决定您是否需要它。如果需要,它会告诉您如何找到它。这是当今许多对象存储、数据库和数据仓库的基本功能。

现在,让我们扩大图书馆目录的影响力,使其覆盖全国的每一个图书馆。想象一下,你只有一个用户界面,你可以在这个国家的每一个图书馆找到你想要的书的副本。你也可以在这个用户界面上找到你想要了解的每一本书的所有细节。

这正是数据目录对所有组织数据所做的工作。它为您提供了一个单一而全面的视图,可以查看所有数据,而不是一次只查看一个数据存储。

Aberdeen Strategy&research最近进行的研究表明,数据编目赋予用户分析能力,进而推动业务绩效。拥有数据目录的用户不仅报告了总客户群的增加,而且现有客户的满意度也有所提高。

数据目录元数据主题

data catalog

数据目录元数据主题

在当今大数据和自助分析时代,数据目录已成为元数据管理的关键。现代的元数据比商业智能(BI)时代的元数据要广泛得多。

Data catalog

数据目录用户推动增强的业务执行

资料来源:Aberdeen Strategy&Research开启新窗口

根据Aberdeen的研究,如今的公司所处理的数据环境同比增长超过30%,有些甚至远高于此。数据目录工具通过在一个集中的平台上组织来自多个来源的数据,使数据团队能够更有效地定位、理解和利用数据。

数据目录主要关注数据集(即可用数据的库存),然后将这些数据集与丰富的信息联系起来,让相关人员了解管理数据的信息。数据目录的核心是以下元数据主题:

让我们详细了解每个元数据主题:

1.数据集

数据集是组织人员访问的文件和表格。这些可以位于数据湖、仓库、主数据存储库或任何其他共享数据资源中。

2.人员元数据

这描述了处理数据的人员,包括消费者、策展人(curators)、管理人员(stewards)、主题专家等。

3.搜索元数据

此元数据支持标记和关键字,以帮助人们查找数据。

4.处理元数据

这一类别详细阐述了在数据的整个生命周期中进行管理时应用的各种转换和派生

5.供应商元数据

供应商元数据包括从外部来源获取的数据,因为它通知来源以及与数据相关联的订阅或许可限制。

另请阅读:什么是数据治理?定义、重要性和最佳实践

数据目录过程:关键步骤及示例

构建有效的数据目录有五个步骤。让我们详细了解每一步:

1.捕获数据

构建数据目录需要捕获所有数据。为了确保收集正确的数据,需要回答两个问题:捕获哪些元数据以及如何捕获?

让我们一次解决每一个问题。

要捕获哪些元数据?

使用数据的形状、结构和语义填充数据目录是构建数据目录的第一步。大多数数据用户,如数据科学家、数据工程师、业务分析师和其他人,都是根据数据所在的模式或表来引用数据的。以以下问题和答案为例:

  • 在哪里可以找到至少购买了一件商品的客户?
    • 检查“客户_采购”表
  • 发票是如何生成的?
    • 发票中有一个或多个订单。请查看“发票”和“订单”表中的数据。如果发票已经付款,您可以在“付款”表中找到付款。

如今,流式数据和非表格数据(如JSON、Parquet structs)随处可见,它们的数量明显在以不断增长的速度增长。即使您现在不使用这些技术,也要寻找一个支持嵌套数据结构并允许您在未来集成流技术的数据目录

最后,一个有效的数据目录必须能够捕获数据沿袭。数据沿袭使用户能够看到数据的来源和数据的轨迹。这对于提供用户在使用数据时经常需要的上下文至关重要。,

如何获取元数据?

一旦建立了数据目录,您将需要一个可以方便地代表您填充目录的工具。这节省了大量时间,因为它避免了手动更新数据生态系统中的每个数据库、表和字段。所有主要的数据库和数据存储(例如,AWS S3)都有可用的API,允许您提取表示数据形状和语义的元数据。因此,在构建数据目录时,您应该考虑自动填充元数据的能力。

在某些情况下,您可能无法直接连接到数据库。例如,考虑您不想公开敏感数据,或者您使用的是不公开的托管数据库。在这种情况下,您应该能够使用示例文件和数据存储中的提取,作为直接连接到数据库的替代方案。

在最坏的情况下,当一切都失败时,您应该能够在没有自动化的情况下自行快速捕获数据。考虑到不同数据库的所有客户端库的更改频率,不能保证有一个完美的过程或工具。因此,拥有一个自己修复问题的选项对于构建一个健壮的数据目录至关重要。

另请阅读:2021年十大数据治理工具

2.指定联络点

在构建数据目录之后,确定每个数据资产的重要人员是谁是很重要的。因此,将数据用户(如所有者)分配给数据资产非常重要。这允许有其他问题或查询的用户联系合适的个人。

不同数据用户的问题可以分为两类:

  • 此数据资产的业务上下文
    • Null对此字段意味着什么?
  • 数据资产的技术属性
    • 谁可以将此新字段添加到架构中?

数据目录可能有许多类型的所有者(例如,数据管理员【data steward】、技术所有者、企业所有者、高管所有者等)。然而,数据管理员和技术所有者发挥着重要作用。数据管家使您的用户能够知道向谁查询所有与业务相关的信息。同时,技术所有者可以回答数据用户可能存在的技术导向问题。

创建数据目录时,可以将任务分配给所有者。这些任务旨在确保您的数据目录有良好的文档记录,并对其他队友有用。

3.记录每次互动

当你开始在数据目录中记录你的数据时,你想要捕获的大量信息一开始可能看起来势不可挡。假设您有两个数据库,每个数据库都有几十个表。每个表还有一些字段。此时此刻,您似乎已经看到了几千个数据资产

因此,您可以先选择一种方法,然后随着时间的推移慢慢添加文档。这将确保您在几个月内达到一定的覆盖率,可能达到90%或更低。一些常见的方法包括:

  • 无论何时了解,都要记录下来

当每个人学习到尚未记录的新内容时,都应该负责更新数据目录。

  • 当代码发生更改时,请更改文档

随着团队发布新功能,相关团队成员应更新数据文档。

  • 为团队成员留出时间

让你的每个团队成员每周花一个小时,或者每天早上花15分钟在数据目录上。这将允许他们为他们熟悉的数据资产添加新的文档,或者研究他们不知道的数据资产。

所有数据资产都应该在数据目录中有丰富的文本文档,以便用户能够突出显示关键点。数据目录还应为用户提供将资产分组到公共集合中的能力。这可以通过标记数据来实现。例如,如果您希望能够看到关于您所有个人身份信息(PII)的报告,您可以用“PII”标记包含此类数据的所有表和字段。

此外,当你的数据目录允许你的用户与你的数据进行对话时,你就释放了文档的力量。当用户有一个关于数据的问题,并且该数据最终得到了回答时,那么这个问题、答案以及导致答案的对话都应该记录在目录中。

这使得下一个有类似问题的数据用户能够查看之前的对话,并理解答案的上下文。这节省了时间,因为重复同一组问题和答案的无数对话都会被记录下来。例如:

  • 人员A:我如何从电脑连接到数据库?
  • 人员B:您只需要登录VPN,就可以直接指向数据库主机。(记录在案)

在本例中,人员A可以参考人员B对所需解决方案的书面回答。

另请阅读:什么是企业数据管理(EDM)?定义、重要性和最佳实践

4.确保数据目录是最新的

组织面临的主要挑战之一是保持数据目录的新鲜性。开发人员通常会偶尔更改数据库的结构,并经常创建新的管道。数据科学家和业务分析师通常会创建数据立方体或在分析环境之间移动数据,以同样频繁地创建新的仪表板。引用这些模式,您的数据目录应该在可能的情况下自动识别这些更改,并相应地更新自己

为了确保数据目录是新鲜的,一些用户交互来仔细检查信息的质量和陈旧性是很重要的。当用户认为基础文档可能陈旧或过时时,您的数据目录可以使用治理操作来促使他们采取行动。

5.根据需要进行优化

每个公司都根据自己的要求和需要使用数据目录。因此,您需要为组织使用数据目录的方式设置标准和规范。这里需要注意的是,您的团队计划使用数据目录的方式将极大地影响您捕获文档的方式。因此,如果你不知道你的团队将如何使用数据目录,那么你花在记录数据上的时间很可能会导致结果不充分。

您的团队可以采取一些常见做法来优化与数据目录的交互:

  • 设置标准化的文档格式,并跨数据库、模式、字段和数据沿袭使用。
  • 确定关键的学习模块,并用一个共同的主题标记每个学习模块中包含的资产。
  • 强调团队对数据目录使用的规范。这将在团队成员中深入嵌入数据文化。

 

2021年数据目录十大最佳实践

数据目录可以是强大的数据管理平台。然而,如果没有适当的数据编目方法,数据编目的力量和功能可能会付诸东流。考虑到这一点,以下是2021年数据编目的10大最佳实践

Best Practices for Data Cataloging in 2021

1.将所有内容添加到您的库存中

数据无处不在——文本文件、电子表格等等。尽管数据可能分散,但在清点完所有数据之前,您甚至无法开始解决数据问题。团队中的每个人都应该接受培训,思考他们的数据可能所在的所有地方。然后确保对这些离散数据的每一部分进行编目。

2.管理数据流

数据沿袭和来源工具是很好的,但它们大多绘制出已知域或一组域内的数据流。一个好的数据目录,一个有数据流发现支持的目录,通常会识别不同数据集之间的流。这样的安排可以帮助您发现组织内可能不为人所知的数据移动。然后可以检查这些流的有效性。因此,管理数据流是构建有效数据目录的良好实践。

3.优先考虑敏感数据

有效数据目录的主要目的之一是帮助识别敏感数据的位置。在多个地方发现相同敏感数据的情况下,它可以帮助识别冗余数据。因此,通过管理敏感和冗余数据,您可以最大限度地减少漏洞的表面区域,并建立强大的数据保护,以抵御任何外部攻击。

4.考虑非结构化数据

非结构化数据(文档、网页、电子邮件、社交媒体内容、移动数据、图像、音频和视频)是指不符合数据模型且没有易于识别的结构的数据。它不太适合主流关系数据库。也就是说,您的数据目录可以帮助使隐式数据结构显式。这可以通过基于团队或组织需求重新设计整体数据结构来实现。因此,考虑“非结构化”数据对任何数据目录都至关重要。

5.指定可发现的名称和描述

一个好的名称和详细的描述将使相关团队成员更容易发现您的数据。描述可以指示同一对象的备用名称,并有助于构建全面的数据本体。

 

6.区别对待数据湖表

在关系数据库中,数据可能分布在多个表中。然而,数据湖往往会将大量数据聚集到单个文件中。在商业智能领域,单个数据集可以将度量和维度存储在一起,而不是单独存储。即使对于将数据表示为数据库中的表的系统也是如此。这可能会降低数据的可发现性,但数据目录直接解决了这个问题。

7.提供透明的评级

数据目录中的众包评级、背书和负面评级可以帮助用户更快地获得相关和可靠的信息。但这需要严格的标准。除非数据达到非常高的标准基准,否则不应该获得五星评级。同样,好的数据不应该被评为差。用户需要对评分有信心,否则他们不会信任他们。因此,一个组织应该确保标准是统一和精确的。

8.把它变成一个湖泊,而不是沼泽

对数据湖中的所有内容进行编目可以使您对其进行组织并使其可用。一旦你的湖泊被编目,你就可以在其中建立区域,让它成为商业用户获取数据的首选场所,而不仅仅是他们倾倒数据的地方。

9.采用数据验证规则

数据目录中的英文描述很重要,因为它们有助于记录所谓的过时知识,并将其传播给各种业务用户。这需要技术人员的参与,因为严格的数据验证规则可以帮助验证数据是否与目录定义匹配。这样的过程确保了数据质量,并起到了检查更多定性星级的作用。因此,在数据目录中使用简化的验证规则可以在数据用户之间灌输信任。

10.利用机器学习技术

由于数据量的增加,手工编目在今天是一项不可能完成的任务。编目永远不会完成,甚至不会随着新数据的到来而跟上步伐。然而,机器学习(ML)是一种很有前途的工具,可以用来控制音量问题。

ML模型可以识别数据类型和关系。这有助于在更多的数据集上构建您的目录。它还可以比手动目录更快地在更多对象之间传播数据标记。因此,如果你的数据目录没有在实际数据中利用ML,你可能会在数据驱动的旅程中面临巨大的阻力。

总之,数据目录是您的数据指南,其组织方式对您、您的团队和您的业务都有意义。通过精简的方法,您将能够最大限度地管理、管理和利用您的数据。上面的最佳实践应该会让您在数据目录路径上有一个良好的开端。

另请阅读:2021年八大大数据安全最佳实践

收获

数据目录在组织实现数据智能的过程中发挥着至关重要的作用。它是推动收入、优化运营效率、促进创新和增长的重要因素。既然您已经意识到数据目录的重要性,我们希望您部署一个最适合您业务需求的数据目录

 

阿伯丁战略的更多内容&研究

原文地址
https://www.spiceworks.com/tech/big-data/articles/what-is-a-data-catalog-definition-examples-and-best-practices/
本文地址
Article

微信

知识星球

微信公众号

视频号