【MAD】MAD 2023，第三部分：数据基础设施的趋势 |

语言 Chinese, Simplified

SEO Title

MAD 2023, PART III: TRENDS IN DATA INFRASTRUCTURE

（注：这是2023 MAD景观的第三部分。景观PDF在这里，交互式版本在这里）

在2019-2021年的超泡沫环境中，数据基础设施（nee Big data）是创始人和风投最热门的领域之一。

这让人眼花缭乱，同时也很有趣，看到市场对最终技术性很强的产品和公司如此热情，也许有点奇怪。

无论如何，随着市场降温，那一刻已经结束。尽管在任何市场周期中都会继续创建好公司，“热门”细分市场也会不断涌现，但对于任何新的数据基础设施初创公司来说，要想从潜在客户和投资者那里获得真正的兴趣，在差异化和质量方面的门槛肯定已经大幅提升。

以下是我们对2023年数据基础设施市场的一些关键趋势的看法。

第一对水平更高，每个人都应该感兴趣，其他的则更为复杂：

应对冲击：捆绑和整合
压力下的现代数据堆栈
ETL的终结？
反向ETL与CDP
数据网格、产品、合同：处理组织复杂性
总体而言：趋同的总体趋势
额外收获：人工智能将对数据和分析产生什么影响？

应对冲击：捆绑和整合

如果说MAD的前景年复一年地显而易见的话，那就是数据/人工智能市场非常拥挤。

近年来，数据基础设施市场在很大程度上处于“百花齐放”的模式。

Snowflake首次公开募股（有史以来最大的软件首次公开募股）是整个生态系统的催化剂。创始人创办了数百家公司，风投们在几个月内（一次又一次）愉快地为它们提供了资金。新的类别（例如反向ETL、度量存储、数据可观察性）出现了，并立即挤满了许多有希望的人。

在客户方面，有眼光的技术买家，通常在规模扩大或上市科技公司中找到，愿意在几乎没有首席财务官办公室监督的情况下试验和尝试新事物。这导致许多工具同时被试用和购买。

现在，音乐已经停止了。

在客户方面，技术购买者面临着越来越大的预算压力和首席财务官的控制。尽管即使在经济衰退时期，数据/人工智能仍将是许多人的优先事项，但他们有太多的工具，而且他们被要求用更少的资源做更多的事情。他们也没有那么多资源来设计、定制或缝合任何东西。它们不太可能是实验性的，也不太可能与不成熟的工具和未经证实的初创公司合作。他们更有可能选择那些提供紧密集成的产品套件的老牌供应商，这些产品“刚刚好用”

这使得市场上有太多的早期数据基础设施公司在做太多重叠的事情。

特别是，有一大堆“单一功能”数据基础设施（或MLOps）初创公司（这个词可能太苛刻了，因为它们还处于早期阶段）将难以满足这一新标准。这些公司通常都很年轻（存在1-4年），由于在地球上的时间有限，他们的产品在很大程度上仍然是一个单一的功能，尽管每家公司都希望发展成为一个平台；他们有一些好客户，但目前还没有一个响亮的产品市场；他们的ARR很低，通常低于500万美元；它们是由风险投资支持的，在过去几年中通常以50x-200倍的ARR筹集资金；他们与一群由聪明的创始人领导的其他风投支持的初创公司竞争，这些创始人或多或少处于同一阶段；它们没有盈利，现金周转期从6个月到3年不等。

这类公司面临着一场艰苦的战斗——在买家将感到疲惫、风险投资现金稀缺的背景下，还有大量的增长要做。

期待达尔文时代的开始。这些公司中最好的（或最幸运的，或资金最充足的）将找到一种发展的方式，从单一功能扩展到平台（例如，从数据质量扩展到完整的数据可观察性平台），并加深他们的客户关系。

其他公司将成为不可避免的整合浪潮的一部分，要么是对更大平台的收购，要么是初创企业对初创企业的私人合并。这些交易规模较小，不太可能产生创始人和投资者所希望的回报。（我们不排除在未来12-18个月内达成数十亿美元交易的可能性，尤其是与人工智能有关的交易，但这些交易可能很少，至少在潜在的公开收购方看到衰退市场的曙光之前）。

尽管如此，小型收购和初创企业合并将比简单地倒闭要好。破产是创业世界不可避免的一部分，将比过去几年更加普遍，因为公司无法筹集下一轮资金或找到房子。由于许多初创公司仍在依靠过去一两年筹集的现金，这股浪潮甚至还没有真正开始。

在市场的顶端，规模较大的公司已经进入了全产品扩张模式。一直以来，云超规模运营商的战略都是不断向其平台添加产品。现在，Snowflake和Databricks这两个竞争对手也在做同样的事情，它们正遭受巨大的冲击，成为所有数据和人工智能的默认平台（见2021年MAD形势）。

Databricks似乎肩负着在MAD领域几乎每一个领域发布产品的使命。它提供了数据湖（仓库）、流功能、数据目录（Unity catalog，现在有沿袭）、查询引擎（Photon）、一系列数据工程工具、数据市场、数据共享功能以及数据科学和企业ML平台。这一产品扩张几乎完全是有机的，在这一过程中进行了极少数的收购——2022年的Datajoy和Cortex Labs。

Snowflake也在快速发布功能。它也变得更加贪婪。在2023年的前几个月，该公司已经宣布了三项收购：LeapYear、SnowConvert和Myst AI。当它以8亿美元收购Streamset时，它进行了第一次大规模收购。

Confluent是一家建立在开源流项目Kafka之上的上市公司，它也在采取有趣的举措，将业务扩展到非常受欢迎的流媒体处理引擎Flink。它刚刚收购了Immerok。这是一次快速收购，因为Immerok由Flink委员会和PMC成员组成的团队于2022年5月成立，于10月获得1700万美元的资金，并于2023年1月被收购。

资金充足的独角兽型初创公司也开始积极扩张，开始侵占他人的领地，试图发展成为一个更广泛的平台。

例如，转型领导者dbt实验室于2022年10月首次宣布将产品扩展到相邻的语义层区域。然后，它在2023年2月收购了该领域的一个新兴参与者Transform（dbt的博客文章对语义层和度量存储概念进行了很好的概述）。要了解更多关于dbt的信息，请参阅我与数据驱动纽约dbt实验室首席执行官Tristan Handy的对话

数据基础架构中的某些类别对于某种整合来说尤其成熟——MAD环境为这一点提供了很好的视觉帮助，因为整合的潜力与最完整的框非常接近：

“ETL”和“反向ETL”：在过去的三四年里，市场资助了大量的ETL初创公司（将数据转移到仓库中），以及一组单独的反向ETL初创公司。目前尚不清楚在这两个类别中，市场能维持多少初创公司。反向ETL公司面临着来自不同角度的压力（见下文），这两个类别最终可能合并。ETL公司Airbyte收购了反向ETL初创公司Grouparoo。像Hevo Data这样的几家公司将其定位为端到端管道，提供ETL和反向ETL（也有一些转换），数据同步专家Segment也是如此。ETL市场领导者FIvetran能否收购或（不太可能）与Census或Hightouch等反向ETL合作伙伴合并？

“数据质量和可观测性”：市场上出现了大量公司，它们都想成为“数据狗”。Datadog为软件所做的（确保可靠性并最大限度地减少应用程序停机时间），正是这些公司希望为数据所做的——检测、分析和解决与数据管道有关的所有问题。这些公司从不同的角度来解决这个问题——有些公司做数据质量（声明式或通过机器学习），有些公司做的是数据沿袭，另一些公司做的则是数据可靠性。数据编排公司也参与其中。其中许多公司都有优秀的创始人，有一流的风投支持，并生产出高质量的产品。然而，在对数据可观察性的需求仍然相对较低的情况下，它们都朝着同一方向趋同。要了解更多关于该领域公司的信息：请参阅Datafold首席执行官Gleb Mezhanskiy的这场数据驱动的纽约谈话，或我与蒙特卡洛首席执行官Barr Moses的数据驱动纽约谈话。

“数据目录”：随着数据在企业中变得越来越复杂和广泛，需要对所有数据资产进行有组织的库存。输入数据目录，理想情况下还提供搜索、发现和数据管理功能。虽然人们显然需要这一功能，但这一类别中也有许多参与者，他们都有聪明的创始人和强大的风险投资支持，在这里，目前还不清楚这个市场能维持多少。从长远来看，数据目录是否可以是更广泛的数据治理平台之外的独立实体也不清楚。想要了解有趣的数据目录公司，请参阅我与Stemma首席执行官Mark Grover的数据驱动纽约对话，以及Select Star首席执行官Shinji Kim的这场精彩的数据驱动的纽约演讲。此外，有关数据治理的更广泛概述，请参阅我与Collibra首席执行官Felix Van de Maele的数据驱动纽约对话。

“MLOps”：虽然MLOps位于MAD领域的ML/AI部分，但它也是基础设施，可能会经历与上述相同的情况。与其他类别一样，MLOps在整个堆栈中发挥着至关重要的作用，这是由ML/AI在企业中日益重要的作用推动的。然而，这一类别中有大量的公司，其中大多数资金充足，但在收入方面处于早期。它们从不同的地方开始（模型构建、功能存储、部署、透明度等），但当它们试图从单一功能发展到更广泛的平台时，它们正处于相互冲突的过程中。此外，目前许多MLOps公司主要专注于向规模扩大和科技公司销售。随着他们进入高端市场，他们可能会开始接触企业人工智能平台，这些平台已经向Global 2000公司销售了一段时间，如Dataiku、Datarobot、H2O，以及云超大型机。要想了解MLOps的有趣之处，尤其是在信任和可解释性方面，请参阅我与Fiddler首席执行官Krishna Gade的数据驱动纽约对话。

压力下的现代数据堆栈

过去几年的一个标志是“现代数据堆栈”（MDS）的兴起。MDS是一系列现代的、基于云的工具，用于收集、存储、转换和分析数据，部分是架构，部分是供应商之间事实上的营销联盟。它的中心是云数据仓库（Snowflake等）。在数据仓库之前，有各种工具（Fivetran、Matillion、Airbyte、Meltano等）可以从原始源中提取数据并将其转储到数据仓库中。在仓库级别，还有其他转换数据的工具，即过去被称为ETL（提取转换负载）的“T”，现在已被逆转为ELT（这里dbt实验室在很大程度上占据主导地位）。在数据仓库之后，还有其他工具可以分析数据（这就是BI的世界，用于商业智能），或者提取转换后的数据并将其插入SaaS应用程序（这一过程被称为“反向ETL”）。

换句话说，一个真正的装配链，有许多工具处理过程的不同阶段：

直到最近，MDS还是一个不断发展、非常合作的世界。随着Snowflake的财富不断增加，它周围的整个生态系统也会不断增加。

现在，世界已经改变了。随着成本控制变得至关重要，一些人可能会质疑自Hadoop时代以来一直是现代数据管理方法核心的理念——保留所有数据，将其全部转储到某个地方（数据湖、湖边小屋或仓库），并想好以后该怎么办。这种方法导致了数据仓库的兴起，数据仓库是MDS的核心，但事实证明它很昂贵，而且并不总是那么有用（阅读这篇好文章：“大数据已经死了”）。像DucksDB这样的新技术能够实现嵌入式交互式分析，为OLAP（分析）提供了一种可能的新方法。

MDS现在面临压力。在一个预算紧张、合理化的世界里，这几乎是一个过于明显的目标。这很复杂（因为客户需要将所有东西缝合在一起，并与多个供应商打交道）。这很昂贵（大量复制和移动数据；链中的每个供应商都希望获得收入和利润；客户通常需要一个内部数据工程师团队来实现这一切，等等）。可以说，它是精英主义的（因为这些是最前沿、最好的工具，通过更先进的用例满足更复杂用户的需求）。

随着压力的增加，当MDS公司不再友好，开始为较小的客户预算相互竞争时，会发生什么？

顺便说一句，MDS的复杂性催生了一类新的供应商，他们将各种产品“打包”在一个完全管理的平台下（如上所述，我们在2023年的MAD中创建了一个新的盒子，其中包括Y42或Mozart Data等公司）。底层供应商是MDS中的一些常见嫌疑人，这些平台的好处是，它们既抽象了单独管理这些供应商的业务复杂性，又抽象了将各种解决方案拼接在一起的技术复杂性。值得注意的是，一些完全管理的平台自己构建了整个功能套件，并且不打包第三方供应商。

ETL的终结？

作为上述内容的一个转折点，数据界也在平行讨论ETL是否应该成为未来数据基础设施的一部分。ETL，即使使用现代工具，也是数据工程中一个痛苦、昂贵且耗时的部分。

在去年11月的Re:Invent会议上，亚马逊问道：“如果我们能完全消除ETL怎么办？那将是一个我们都会热爱的世界。这是我们的愿景，我们称之为零ETL的未来。在这个未来，数据集成不再是手动的工作”，并宣布支持将亚马逊Aurora与亚马逊Redshift紧密集成的“零ETL”解决方案。在这种集成下，在事务数据写入Aurora的几秒钟内，数据就可以在Amazon Redshift中使用。

这样的集成的好处是显而易见的——无需构建和维护复杂的数据管道，无需重复的数据存储（这可能很昂贵），而且始终是最新的。

现在，两个亚马逊数据库之间的集成本身不足以导致ETL的终结，有理由怀疑零ETL的未来是否会很快实现。

但话说回来，Salesforce和Snowflake还宣布了一项合作伙伴关系，在不移动或复制数据的情况下跨系统实时共享客户数据，这属于相同的一般逻辑。在此之前，Stripe推出了一个数据管道，帮助用户与Redshift和Snowflake同步支付数据。

变化数据捕获的概念并不新鲜，但它正在不断发展。谷歌已经支持在BigQuery中捕获更改数据。Azure Synapse通过预集成Azure数据工厂来实现同样的功能。像Estuary*和Upsolver这样的初创公司正在崛起。

我们的感觉是，ETL作为一个类别的消失还有很长的路要走，但这一趋势值得注意。

反向ETL与CDP

另一个有点混乱但有趣的地方是反向ETL（同样是从仓库中取出数据并将其放回SaaS和其他应用程序的过程）和客户数据平台（聚合来自多个来源的客户数据，像细分一样对其进行分析，并支持营销活动等行动的产品）之间的紧张关系。

在过去一年左右的时间里，这两个类别开始融合在一起。

反向ETL公司大概了解到，“仅仅”作为数据仓库之上的一个管道（不是一项简单的技术壮举）并不能从客户那里获得足够的钱包份额，他们需要在围绕客户数据提供价值方面走得更远。许多反向ETL供应商现在从市场营销的角度将自己定位为CDP。

与此同时，CDP供应商了解到，作为另一个客户需要复制大量数据的存储库，这与数据仓库（或lake或lakehouse）周围数据集中化的总体趋势不一致。因此，CDP供应商开始提供与主要数据仓库和lakehouse提供商的集成。例如，请参阅ActionIQ*启动HybridCompute、mParticle启动Warehouse Sync或Segment引入反向ETL功能。随着CDP公司加强自己的反向ETL功能，除了他们的历史买家（CMO）之外，他们现在开始向更多的技术受众（CIO和分析团队）销售产品。

这给反向ETL公司带来了什么？它们可以发展的一种方式是与ETL提供商进行更深入的集成，我们在上面已经讨论过了。另一种方法是通过添加分析和编排模块，进一步发展成为CDP。

数据网格、产品、合同：处理组织复杂性

正如任何数据从业者都知道的那样：数据的成功当然是技术和产品的努力，但它也在很大程度上围绕着流程和组织问题。

在许多组织中，数据堆栈看起来像是MAD环境的迷你版本。你最终会遇到各种各样的团队在开发各种各样的产品。那么，这一切是如何协同工作的呢？谁负责什么？

关于如何最好地做到这一点，数据界一直在激烈争论。有很多细微差别，也有很多与聪明人的讨论，对其中的任何部分都持不同意见——但这里有一个快速的概述。

我们强调了数据网格是2021年MAD领域的一个新兴趋势。从那以后，它的吸引力才越来越大。数据网格是一种分布式、去中心化（不是加密意义上的）方法，用于管理数据工具和团队。请参阅我们的数据驱动的纽约炉边聊天：Zhamak Dehghani，这一概念的创始人（现任NextData首席执行官）。

请注意它与数据结构的不同之处——这是一个更具技术性的概念，基本上是一个连接企业内所有数据源的单一框架，无论数据源位于何处。

数据网格导致了数据产品的概念——可以是任何东西，从管理数据集到应用程序或API。基本思想是，创建数据产品的每个团队都要对其负全部责任（包括质量、正常运行时间等）。然后，企业内的业务单元在自助服务的基础上使用数据产品。

一个相关的想法是数据合同——“拥有服务的软件工程师和数据消费者之间的类似API的协议，了解业务如何工作，以生成模型良好、高质量、可信的实时数据”（读作：“数据合同的兴起”）。关于这个概念，人们进行了各种有趣的辩论（观看：“数据合同大战皇家队w/Chad Sanderson vs Ethan Aaron”）。讨论的本质是，数据合同是否只在非常大、非常分散的组织中才有意义，而不是在90%的小公司中。

总体而言：趋同的总体趋势

在本节中，我们围绕着同一主题展开了讨论——为了客户的最终利益，数据基础架构总体上需要简化。

一些简化将由公司驱动——公司为其产品线添加更多的功能和特性。

其中一部分将由市场驱动——公司通过收购、合并进行整合，或者不幸的是，公司倒闭。

最后，有些已经并将继续由技术驱动。流式处理和批处理的融合是一个常青树，也是一个重要的主题。事务性（OLTP）和分析性（OLAP）工作负载的融合也是如此。谷歌的AlloyDB是该领域的最新加入者，声称在分析查询方面比标准PostgreSQL快100倍。Snowflake推出了Unistore，提供轻量级（目前）事务处理功能，这是打破事务数据和分析数据之间孤岛的又一步。

额外收获：人工智能将如何影响数据基础设施？

随着人工智能目前的爆炸性进展，这里有一个有趣的问题：数据基础设施肯定一直在为人工智能提供动力，但人工智能现在会反过来影响数据基础设施吗？

可以肯定的是，一些数据基础设施提供商已经使用人工智能一段时间了——例如，参见Anomalo利用ML来识别数据仓库中的数据质量问题。许多数据库供应商现在都嵌入了自动ML功能。

但随着大型语言模型的兴起，出现了一个新的有趣的角度。正如LLM可以创建传统编程代码一样，它们也可以生成数据分析师的语言SQL。让非技术用户能够搜索分析系统的想法并不新鲜，各种提供商已经支持它的变体，请参阅ThoughtSpot、Power BI或Tableau。以下是一些关于这个主题的好文章：dbt实验室的Tristan Handy的LLM对分析（和分析师！）的影响，以及Mode的Benn Stancil的the Rapture and the Reckoning。

READ NEXT: MAD 2023, PART IV: TRENDS IN ML/AI

原文地址

https://mattturck.com/mad2023-part-iii/

本文地址

https://architect.pub