Azure Data Factory のActivity使い方

Activityについて

■ Copy Activity
データソースからターゲットへデータをコピーするために使用しました。
PASシステム、Oracle GL、PureCloudなどからデータを取得し、ADLSやAzure Synapseへロードしていました。

■ Lookup Activity
制御テーブルや設定テーブルから処理対象情報を取得するために利用しました。
例えば、取込対象テーブル一覧や処理日付などを取得し、後続処理へ渡していました。

■ ForEach Activity
Lookupで取得した複数のテーブル情報やファイル一覧をループ処理するために利用しました。
複数テーブルのETL処理を自動化していました。

■ Execute Pipeline Activity
共通処理を子Pipelineとして部品化し、親Pipelineから呼び出していました。
処理の再利用性向上と保守性向上を目的として利用しました。

■ Mapping Data Flow
ノーコードでデータ変換処理を実装するために利用しました。
データ結合(Join)、フィルタリング、データ型変換、派生列作成、集計処理などを行いました。

■ Stored Procedure Activity
Azure SynapseやSQL Server上のストアドプロシージャを実行するために利用しました。
データロード後の集計処理やデータマート作成処理などを実施していました。

処理フロー

Lookup
 ↓
ForEach
 ↓
Execute Pipeline
 ↓
Copy Activity
 ↓
Databricks Notebook
 ↓
Stored Procedure

例えば、

  1. Lookupで対象テーブル一覧取得
  2. ForEachでテーブルごとにループ
  3. Execute Pipelineで共通ETL処理呼び出し
  4. Copy ActivityでADLSへ格納
  5. DatabricksでPySpark加工
  6. Synapseへロード
  7. Stored Procedureで集計テーブル作成

IT

Posted by arkgame