Azure データ基盤(DWH / Data Lake)構築手順
一般的な構成
業務システム
(PAS、Oracle、SAP、CSV、API等)
↓
Azure Data Factory
↓
Azure Data Lake Storage Gen2
↓
Databricks(PySpark)
↓
Azure Synapse Analytics
↓
Power BI
① 要件定義
まず業務要件を整理します。 データソースは何か Oracle SQL Server SAP API CSV データ量 日次100万件 月間1TB 更新頻度 リアルタイム 日次バッチ 保持期間 1年 7年
成果物
- 要件定義書
- データ連携一覧
② Azure環境設計
Resource Group
rg-dev-datalake rg-stg-datalake rg-prd-datalake
VNET
vnet-datahub
Subnet
subnet-adf subnet-synapse subnet-databricks
設計内容
- IPアドレス
- NSG
- Route Table
- Private Endpoint
③ Data Lake構築
作成
Storage Account ↓ Hierarchical Namespace 有効 ↓ ADLS Gen2
フォルダ設計
/raw
/oracle
/sap
/csv
/curated
/gold
/archive
Raw
生データ
raw/customer.csv
Curated
加工済み
customer_clean.parquet
Gold
分析用
customer_summary.parquet