Page 1 of 1

此指导项目将引导您使用

Posted: Tue Jan 07, 2025 9:56 am
by ujjal22
项目 7:使用 Pyspark 清理数据集
使用 PySpark 等高级工具,您可以构建利用 Apache Spark 功能的管道。

在尝试构建这样的项目之前,完成入门课程以了解 PySpark 的基础知识非常重要。这些基础知识将使您能够充分利用该工具有效地提取、转换和加载数据。

资源
以下是一些有价值的资源,例如指导项目、课程和教程,可逐步指导您:

指导项目:

使用 PySpark 清理订单数据集: PySpark 清理电子商务订单数据集,帮助 日本手机数据 您了解如何使用 Apache Spark 以可扩展的方式提取、转换和加载数据。
课程:

PySpark 简介:本课程深入介绍 PySpark,涵盖在 Spark 中有效处理大型数据集的基本概念和技术。这是在 PySpark 中构建坚实基础的理想起点。
教程:

PySpark 教程:PySpark 入门:本教程介绍 PySpark 的基本组件,引导您完成基本设置和操作,以便您可以自信地开始使用 PySpark 构建数据管道。
发展的技能
扩展您的 PySpark 体验
利益相关者的数据清理和转换
摄取大批量数据
加深对 ETL 过程中 Python 的了解
项目 8:使用 dbt 和 BigQuery 进行数据建模
dbt (数据构建工具)是数据工程师的一种现代、流行且强大的工具,它允许数据工程师遵循软件开发方法。它提供直观的版本控制、测试、样板代码生成、沿袭和环境。 dbt 可以与 BigQuery 或其他云数据仓库结合来存储和管理您的数据集。

该项目将允许您在 dbt 中创建管道、生成视图并将最终数据链接到 BigQuery。

资源
以下是一些有价值的资源,例如课程和视频教程,可以逐步指导您:

YouTube 视频:

使用 dbt 进行现代端到端数据工程:在本视频中,CodeWithYu 提供了通过 BigQuery 设置和使用 dbt 的完整演练,涵盖了创建数据管道和生成视图的步骤。对于初学者学习如何在数据工程工作流程中结合 dbt 和 BigQuery 来说,这是一本有用的指南。
课程:

dbt简介:本课程介绍dbt的基础知识,涵盖Git工作流程、测试和环境管理等基本概念。这是在数据工程项目中有效使用 dbt 的一个很好的起点。
发展的技能
了解 dbt
详细了解 BigQuery
了解如何创建基于 SQL 的转换
在数据工程中使用软件工程最佳实践(版本控制、测试和文档)
项目 9:在 Tableau 中使用 S3 存储和 BI 的 Airflow 和 Snowflake ETL
在这个项目中,我们将了解如何使用 Airflow 通过 API 提取数据并使用 Amazon S3 存储桶将其传输到 Snowflake。目标是处理 Airflow 中的 ETL 和 Snowflake 中的分析存储。