データ基盤

🐿️ Apache Flinkの最新事情とv2.0の話:RKE2で始めるFlink on K8s

この記事は MicroAd Advent Calendar 2024 と Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2023 の25日目の記事です。 qiita.com qiita.com 12/25は終わってしまっていますが、、25日目の記事です。25日目といったら25日目な…

🤔 DuckDB × PyIceberg の使いみちについて考えてみる

この記事は、MicroAdと分散コンピューティングに関するAdvent Calendarの初日を飾る内容で、DuckDBとIcebergの組み合わせを試した経験を共有しています。記事では以下のポイントを紹介: DuckDB: 軽量で多機能なデータベース。JSONやParquetファイルの簡単な…

Icebergのデータ層にs3a使わずにOzoneでデータ分析に最適なofs/FSOを使いたい話

この記事は MicroAd Advent Calendar 2023 と Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2023 の25日目の記事です。 アドカレも今日で最後になりました。会社の方は全部埋まって記事も投稿出来てるので一安心ですが、Distr…

Icebergテーブルの内部構造について

この記事は MicroAd Advent Calendar 2023 と Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2023 の1日目の記事です。 qiita.com qiita.com 今年もアドカレの季節がやってきました 今回は、ここ数年でデータ界隈で盛り上がっ…

TiDBをHadoop管理者視点でデータ基盤としての使い所を考えてみる

この記事は MicroAd Advent Calendar 2022 と Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2022 の25日目の記事です。 今年のアドカレも最終日になりました。 とは言え、Distributed computing Advent Calendar 2022 の方は…

BigData向けワークロード(Spark/Flink)に適したKubernetesカスタムスケジューラ Apache YuniKorn について

この記事は Distributed computing Advent Calendar 2022 の5日目の記事です1。 qiita.com 今回は、今年の5月にApache Software Foundation (ASF)のTop-Level Project (TLP)2になった Apache YuniKorn について紹介します。 yunikorn.apache.org YuniKornの…