Databricks(データブリックス)について
Databricks(データブリックス) は、Apache Spark を中核とした クラウド型データ分析・AI基盤 です。
最大の特徴は Lakehouse(レイクハウス)アーキテクチャ により、データレイク+データウェアハウス を1つの基盤で実現する点です。
Databricksで何ができる?
① データ処理(ETL / ELT)
大量データの抽出・変換・集計を高速処理
Python / SQL / Scala で実装
ログ、IoT、業務データに強い
② データ分析・BI
Databricks SQL による高速分析
Tableau / Power BI / QuickSight と連携可
③ 機械学習・AI
MLflow 標準搭載
モデルの学習・管理・デプロイまで一貫対応
需要予測、異常検知、レコメンドなど
④ データ基盤(データ中台)
S3 / ADLS / GCS、RDB、Kafka などを集約
企業全体の分析基盤として利用
主要コンポーネント
| コンポーネント | 役割 |
|---|---|
| Apache Spark | 分散処理エンジン |
| Delta Lake | ACIDトランザクション/履歴管理 |
| Databricks SQL | DWH相当のSQL分析 |
| MLflow | 機械学習のライフサイクル管理 |
| Unity Catalog | 権限・メタデータ管理 |