Page 1 of 1

让计算更接近数据存储层

Posted: Sat Mar 01, 2025 9:33 am
by ayeshshiddika11
如今,数据团队拥有多种选择来扩展其最苛刻的工作负载。他们可以通过启动 GPU 实例来微调最新的对象检测模型,从而实现垂直扩展。他们可以使用并行任务在几分钟内训练数千个时间序列模型。云提供商通过管理存储和计算之间的数据传输来简化此过程。Snowflake 等云原生数据仓库技术可以实现 SQL 数据转换。对于具有适当技能的人,可以选择设置 Kubernetes 集群并使用 Docker 容器化代码。他们还可以构建和管理 Spark 集群以进行分布式计算。

计算下推的一个关键好处是它使数据转换和模型训练更接近数据存储层。

这最大限度地减少了跨网络的数据移动,从而降 阿富汗 WhatsApp 号码列表 低了带宽成本。它让团队能够使用 Snowflake 等环境的最佳功能,这些环境擅长 SQL 操作。一家全球制药公司将数万个 Spark 应用程序切换到 Snowflake 上的 Snowpark。这大大节省了运行时间和计算成本。例如,一个需要 10 分钟才能运行的数据处理作业在切换后 15 秒内就可以运行。通过卸载繁重的处理,主要资源可以支持日常用户协作。

加入 Dataiku 后,我了解到,通过一个灵活的平台,可以简化和改善数据工程师和数据科学家的生活,该平台可以消除连接各种基础设施的复杂性。在本文中,让我们看看如何做到这一点!我们将首先展示 Dataiku 如何让您的数据团队将繁重的工作负载委托给正确的计算引擎。然后,我们将探讨这些选择如何影响您的整个 ML 管道。在第三部分中,我们将展示该平台如何简化各种计算系统的管理。将计算与​​管道逻辑分离可确保 AI 系统面向未来。这种方法避免了对短命技术的依赖,从而避免了过时。我们的最后一部分展示了 Dataiku 如何帮助您实施这种分离。