Azure Data Factory のActivity使い方
Activityについて
■ Copy Activity
データソースからターゲットへデータをコピーするために使用しました。
PASシステム、Oracle GL、PureCloudなどからデータを取得し、ADLSやAzure Synapseへロードしていました。
■ Lookup Activity
制御テーブルや設定テーブルから処理対象情報を取得するために利用しました。
例えば、取込対象テーブル一覧や処理日付などを取得し、後続処理へ渡していました。
■ ForEach Activity
Lookupで取得した複数のテーブル情報やファイル一覧をループ処理するために利用しました。
複数テーブルのETL処理を自動化していました。
■ Execute Pipeline Activity
共通処理を子Pipelineとして部品化し、親Pipelineから呼び出していました。
処理の再利用性向上と保守性向上を目的として利用しました。
■ Mapping Data Flow
ノーコードでデータ変換処理を実装するために利用しました。
データ結合(Join)、フィルタリング、データ型変換、派生列作成、集計処理などを行いました。
■ Stored Procedure Activity
Azure SynapseやSQL Server上のストアドプロシージャを実行するために利用しました。
データロード後の集計処理やデータマート作成処理などを実施していました。
処理フロー
Lookup ↓ ForEach ↓ Execute Pipeline ↓ Copy Activity ↓ Databricks Notebook ↓ Stored Procedure
例えば、
- Lookupで対象テーブル一覧取得
- ForEachでテーブルごとにループ
- Execute Pipelineで共通ETL処理呼び出し
- Copy ActivityでADLSへ格納
- DatabricksでPySpark加工
- Synapseへロード
- Stored Procedureで集計テーブル作成