Azure Data Lake Storage Gen1 と Gen2 の違い

Azure Data Lake Storage Gen1 と Gen2 の違い

| 項目             | Gen1            | Gen2               |
| -------------- | --------------- | ------------------ |
| 提供開始           | 初代Data Lake     | 次世代Data Lake       |
| 基盤             | 独自ストレージ         | Azure Blob Storage |
| 現在の状況          | 廃止済み(2024年2月終了) | 現行標準               |
| 階層型名前空間(HNS)   | 標準搭載            | オプションで有効化          |
| Azureサービス連携    | 限定的             | Azureサービス全般と連携     |
| コスト            | 高い              | 安価                 |
| パフォーマンス        | 良い              | より高速               |
| Databricks連携   | 可               | 非常に強力              |
| Synapse連携      | 一部              | 標準対応               |
| Blob Storage機能 | なし              | 利用可能               |
| 推奨度            | 非推奨             | 推奨                 |

Gen1とは 昔のAzure専用Data Lakeです。

特徴

  • Hadoop向け
  • ビッグデータ専用
  • HDFSライクな構造
  • Azure Blob Storageとは別サービス
  • Azure Data Lake Gen1
       ↓
     Hadoop
     Spark
     HDInsight

    Gen2とは現在のAzure標準データレイクです。

    構造

  • Blob Storage
      ↓
    Data Lake機能追加
      ↓
    Data Lake Storage Gen2

    Hierarchical Namespace(HNS)

    Blob Storage

  • container
     ├ file1.csv
     ├ file2.csv

    Gen2

  • container
     ├ raw
     │  ├ file1.csv
     │  ├ file2.csv
     ├ processed
     │  ├ result.csv

    Azure Data Lake Storage Gen2はAzure Blob Storageをベースとしたデータレイクサービスです。Hierarchical Namespaceをサポートしており、DatabricksやSynapseと連携して大量データの保存・分析を行うことができます。

  • Azureデータ基盤でよくある構成
  • Data Source
        ↓
    ADF
        ↓
    ADLS Gen2
        ↓
    Databricks(PySpark)
        ↓
    Synapse SQL DWH
        ↓
    Power BI

     

IT

Posted by arkgame