跳转到主要内容
Chinese, Simplified

人工智能对数据工具和数据就业市场的趋势和影响

这篇博客文章重点介绍了我们在2024年数据工程中看到的主要趋势,以及这些趋势如何影响数据团队。


用更少的资源做更多的事情


2024年,科技行业面临优化资源的压力。技术和数据领导者被要求集成更多的数据,以支持新的人工智能驱动功能,同时被迫减少成本和人员。从谷歌(Google)、亚马逊(Amazon)、Meta、Twitch、Spotify和Discord最近的裁员来看,即使是最大的科技公司也不能幸免这种提高效率的趋势。


人工智能对裁员的影响与经济因素


LLM不断增长的能力正在重塑就业市场,数据空间也不例外。虽然很难估计人工智能的进步在多大程度上促成了不断增长的技术裁员浪潮,但许多公司正在削减一些既定业务领域的成本,并将该预算重新分配给人工智能开发。Dropbox去年将员工人数减少了16%,并将这些资源重新分配给雇佣人工智能专家,以“保持竞争力”。
经济因素,如风投融资放缓和大流行后的一些(后期)调整,也在人员编制决策中发挥作用。


数据工程的含义


随着组织寻求用更少的资源做更多的事情,对精通云原生技术、数据、人工智能和平台工程的通才的需求越来越大。这种转变正在引导该领域从高度专业化的角色(如ETL或BI工程师)转向更广泛的工程技能。2024年,数据工程团队开始类似于软件工程团队。这部分是由于数据工程作为一门学科的日益成熟,部分是出于必要:数据团队有望以更少的成本交付更多的产品,这需要更快地构建数据产品,通常是在比以前更小的团队中。


另一方面,从事人工智能驱动功能或数据产品的软件工程师开始接管许多数据工程任务,如数据清理、验证和治理,因为基于人工智能的产品的质量取决于底层数据的质量。无论我们投入多少GPU,在坏数据上调整LLM都不会为业务带来好的结果。您可能会注意到,2024年,软件和数据团队所做的工作之间的界限变得越来越模糊
值得注意的是,尽管越来越倾向于小型数据团队和多功能技能集,但大型组织将继续寻找数据建模、工程、分析、ML和AI方面的专家。通才和专家都有自己的位置,即使在人工智能时代。


数据团队作为利润中心


查看上一节可能会让您感到,对于数据工程师来说,情况正在变得更糟。好处是,LLM正在为数据团队创造新的机会,使其从成本中心毕业到利润中心。公司正在积极使用数据和人工智能来扩展其产品供应,并创造新的收入来源。许多过去被视为成本中心的数据团队现在通过运营RAG管道和构建创收产品而成为利润中心。


职位名称将变得更加令人困惑


数据领域的职务仍然令人困惑。如前所述,软件工程师越来越多地参与构建人工智能增强产品,数据工程师正在软件和平台工程的方向上走得越来越近。


还有越来越多的产品工程师职位,他们是负责管理整个产品生命周期的软件工程师,从管理积压工作到开发和维护。在科技领域的营销角色中也可以观察到类似的趋势,许多公司要求应聘者熟悉Python和SQL。随着技术水平较低的用户使用ChatGPt、GitHub Copilot和Kestra等工具更容易访问编码任务,这种结合产品/营销和工程的混合角色可能会继续流行。如果您喜欢花哨的术语,可以将这种趋势称为数据、分析和工程实践的民主化,即自助服务。


另一个越来越受欢迎的混合角色是人工智能工程师,它架起了人工智能和软件之间的桥梁。随着公司正在寻找能够构建人工智能驱动的产品和平台的专业人员,我们将在2024年继续看到更多的混合职称。


人工智能增强开发


GitHub Copilot在早期被软件工程师采用后,已成为数据工程师的日常伴侣。许多Python代码、单元测试、Terraform配置和SQL查询现在由Copilot自动生成或共同编写,并且这一趋势将在2024年及以后继续增长。


BI中的人工智能


2024年的大多数BI工具都(或将很快)能够根据用户的纯英语输入生成完全功能的SQL查询。相同的BI工具可以为数据模型生成文档,建议语法问题的修复,甚至可以根据提示生成图表和仪表板。


一些人推测,传统的BI仪表盘将被人工智能生成的仪表盘完全取代。虽然这在技术上是可行的,但就目前而言,我们看到了向人工智能增强BI的更逐步转变。人工智能可以帮助回答许多业务问题并生成有用的仪表盘,但这些结果需要由人类验证和调整,人类将继续负责确保所提供的数字是正确的。最后,如果人类不能就如何计算某些KPI达成一致,我们怎么能期望人工智能为我们正确地进行计算?这就是为什么语义层在2024年及以后仍然保持增长趋势的原因。


数据中的平台工程和DevOps


“DataOps”一词已被供应商淡化(我们也为此感到内疚),但其本质仍然是:数据工程师正在转变为平台工程师。与分布式批量ETL作业的专业知识相比,对Docker、Kubernetes、Git、Terraform、Cloud基础架构的熟练掌握以及构建经济高效的查询和微服务的能力越来越受欢迎。这种转变是由于需要在人工智能和云环境中快速移动,从而导致新的、对LLM更友好的数据堆栈的兴起。


数据湖屋需求增加


与云数据仓库相比,预算限制使得数据湖具有吸引力。Lakehouse体系结构提供了一种简单且价格合理的数据存储解决方案。新的S3 Express单区域存储类、DuckDB的灵活性、在Polars中延迟处理数据帧的能力、Apache Iceberg的日益采用,以及Kestra等工具支持的显著简化的事件驱动编排功能,使存储在湖中的数据能够进行高吞吐量数据处理。


LLM和数据工具之间的商业与开源之战


虽然开源LLM继续改进并获得普及,但更成熟的人工智能应用程序正在OpenAI等平台之上构建,这主要是出于法规遵从性的原因。预计2024年,开源和商业LLM的需求将继续增长。开源LLM正在快速改进,商业LLM变得更加负担得起——部分原因是来自开源替代品的竞争加剧。


数据工具面临着平衡开源和商业产品的类似挑战。Snowflow和Terraform等工具调整了其许可证和运营模式,以专注于服务企业客户和创造收入。


简而言之,高度竞争的环境正在迫使许多商业开源公司改变其许可证,转向人工智能或重塑品牌,或被收购。2024年,这一趋势也可能继续下去。


2024年事件驱动系统成为数据工程的规范


在过去几年里,实时数据处理一直在上升。人工智能的进步进一步加速了这一趋势,因为人工智能应用程序需要实时采取行动。当您使用由LLM(甚至是聊天机器人)支持的SaaS产品时,您将期望获得(接近)实时的准确响应。想象一下,通过一个很酷的新人工智能小工具(如Rabbit R1)预订酒店,却发现在您下单之前,这家酒店已经被预订完了。面向用户的产品需要快速准确的数据处理。这导致了向API优先的事件驱动架构(如Kestra)的转变,其中每个系统或应用程序都可以既是数据生产者又是消费者。


更多数据团队将采用GitOps


随着数据、软件和平台工程的融合,GitOps在2024年的数据工程中变得越来越流行。预计数据团队的发货速度更快,资源更少。改进的Git集成(如Kestra的Git sync)使跟踪数据管道及其底层云基础架构中的更改变得更容易,并通过拉入请求和代码审查更有效地协作。


下一步是什么


总之,2024年最重要的数据工程趋势是人工智能加速集成到数据产品中,转向平台工程,以及对效率的日益关注。因此,我们看到多样化技能、数据湖泊、开放表格格式、事件驱动系统、人工智能增强开发的重要性越来越大,以及需要更好地平衡开源与商业激励以保持竞争力。

原文地址
https://levelup.gitconnected.com/2024-data-engineering-trends-c4e1e03e0634
本文地址
Article

微信

知识星球

微信公众号

视频号