Azure Data Lake Storage Gen1 と Gen2 の違い
Azure Data Lake Storage Gen1 と Gen2 の違い
| 項目 | Gen1 | Gen2 | | -------------- | --------------- | ------------------ | | 提供開始 | 初代Data Lake | 次世代Data Lake | | 基盤 | 独自ストレージ | Azure Blob Storage | | 現在の状況 | 廃止済み(2024年2月終了) | 現行標準 | | 階層型名前空間(HNS) | 標準搭載 | オプションで有効化 | | Azureサービス連携 | 限定的 | Azureサービス全般と連携 | | コスト | 高い | 安価 | | パフォーマンス | 良い | より高速 | | Databricks連携 | 可 | 非常に強力 | | Synapse連携 | 一部 | 標準対応 | | Blob Storage機能 | なし | 利用可能 | | 推奨度 | 非推奨 | 推奨 |
Gen1とは 昔のAzure専用Data Lakeです。
特徴
- Hadoop向け
- ビッグデータ専用
- HDFSライクな構造
- Azure Blob Storageとは別サービス
-
Azure Data Lake Gen1 ↓ Hadoop Spark HDInsight
Gen2とは現在のAzure標準データレイクです。
構造
-
Blob Storage ↓ Data Lake機能追加 ↓ Data Lake Storage Gen2
Hierarchical Namespace(HNS)
Blob Storage
-
container ├ file1.csv ├ file2.csv
Gen2
-
container ├ raw │ ├ file1.csv │ ├ file2.csv ├ processed │ ├ result.csv
Azure Data Lake Storage Gen2はAzure Blob Storageをベースとしたデータレイクサービスです。Hierarchical Namespaceをサポートしており、DatabricksやSynapseと連携して大量データの保存・分析を行うことができます。
- Azureデータ基盤でよくある構成
-
Data Source ↓ ADF ↓ ADLS Gen2 ↓ Databricks(PySpark) ↓ Synapse SQL DWH ↓ Power BI