Spark Operator特集・2日目ハンズオン編：kubeflow/spark-operatorでSparkアプリをK8sにデプロイする

advent-calendar データ基盤

kubeflow/spark-operator v2.4.0 と Apache Spark 4.0.1 を使い、k3d 上にマルチノードクラスタを構築して SparkApplication を動かす手順を解説します。S3 互換ストレージと History Server 連携、PySpark＋PostgreSQL、Spark Operator の本番運用ポイント…

#アドカレ #アドカレ2025 #Apache Spark #Kubernetes

2025-12-02

「実践 Apache Iceberg」と「Apache Iceberg活用入門」は両方「今」読むとお得な2冊。

advent-calendar データ基盤

今年、2025年に国内で刊行された『Apache Iceberg活用入門』『実践 Apache Iceberg』を比較紹介。Icebergテーブルの本番運用の経験を踏まえ、この2冊の読み分けと、“今"、"両方"読む理由をデータエンジニア視点で要点整理しました。

#アドカレ2025 #データ基盤 #Apache Iceberg

2025-12-01

Spark Operator特集・1日目「まずはSpark on K8sのおさらい」

データ基盤 advent-calendar

Spark Kubernetes Operator の前提になる Spark / Spark on Kubernetes の実行モデルや Driver / Executor のリソース設計、DRA・シャッフルの考え方を、本番運用を意識して整理した「理解編」です。

#アドカレ #アドカレ2025 #Apache Spark #Kubernetes

2024-12-28

🐿️ Apache Flinkの最新事情とv2.0の話：RKE2で始めるFlink on K8s

データ基盤 advent-calendar

この記事は MicroAd Advent Calendar 2024 と Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2023 の25日目の記事です。 qiita.com qiita.com 12/25は終わってしまっていますが、、25日目の記事です。25日目といったら25日目な…

#アドカレ2024 #データ基盤 #Apache Flink #Kubernetes

2024-12-03

🤔 DuckDB × PyIceberg の使いみちについて考えてみる

データ基盤 advent-calendar

この記事は、MicroAdと分散コンピューティングに関するAdvent Calendarの初日を飾る内容で、DuckDBとIcebergの組み合わせを試した経験を共有しています。記事では以下のポイントを紹介： DuckDB: 軽量で多機能なデータベース。JSONやParquetファイルの簡単な…

#アドカレ2024 #データ基盤 #duckdb #Apache Iceberg

2023-12-25

Icebergのデータ層にs3a使わずにOzoneでデータ分析に最適なofs/FSOを使いたい話

advent-calendar データ基盤

この記事は MicroAd Advent Calendar 2023 と Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2023 の25日目の記事です。アドカレも今日で最後になりました。会社の方は全部埋まって記事も投稿出来てるので一安心ですが、Distr…

#アドカレ #アドカレ2023 #データ基盤

2023-12-01

Icebergテーブルの内部構造について

データ基盤 advent-calendar

この記事は MicroAd Advent Calendar 2023 と Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2023 の1日目の記事です。 qiita.com qiita.com 今年もアドカレの季節がやってきました今回は、ここ数年でデータ界隈で盛り上がっ…

#アドカレ #データ基盤 #Apache Iceberg #アドカレ2023

2022-12-25

TiDBをHadoop管理者視点でデータ基盤としての使い所を考えてみる

advent-calendar データ基盤

この記事は MicroAd Advent Calendar 2022 と Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2022 の25日目の記事です。今年のアドカレも最終日になりました。とは言え、Distributed computing Advent Calendar 2022 の方は…

#アドカレ #データ基盤 #TiDB #hadoop

2022-12-06

BigData向けワークロード（Spark/Flink）に適したKubernetesカスタムスケジューラ Apache YuniKorn について

advent-calendar データ基盤

この記事は Distributed computing Advent Calendar 2022 の5日目の記事です1。 qiita.com 今回は、今年の5月にApache Software Foundation (ASF)のTop-Level Project (TLP)2になった Apache YuniKorn について紹介します。 yunikorn.apache.org YuniKornの…

#アドカレ #hadoop #データ基盤