Azure データ基盤(DWH / Data Lake)構築手順

一般的な構成

業務システム
(PAS、Oracle、SAP、CSV、API等)
        ↓
Azure Data Factory
        ↓
Azure Data Lake Storage Gen2
        ↓
Databricks(PySpark)
        ↓
Azure Synapse Analytics
        ↓
Power BI

① 要件定義

まず業務要件を整理します。

データソースは何か
Oracle
SQL Server
SAP
API
CSV
データ量
日次100万件
月間1TB
更新頻度
リアルタイム
日次バッチ
保持期間
1年
7年

成果物

  • 要件定義書
  • データ連携一覧

② Azure環境設計

Resource Group

rg-dev-datalake
rg-stg-datalake
rg-prd-datalake

VNET

vnet-datahub

Subnet

subnet-adf
subnet-synapse
subnet-databricks

設計内容

  • IPアドレス
  • NSG
  • Route Table
  • Private Endpoint

③ Data Lake構築

作成

Storage Account
↓
Hierarchical Namespace 有効
↓
ADLS Gen2

フォルダ設計

/raw
    /oracle
    /sap
    /csv

/curated

/gold

/archive

Raw

生データ

raw/customer.csv

Curated

加工済み

customer_clean.parquet

Gold

分析用

customer_summary.parquet

IT

Posted by arkgame