Hadoop

Cloudera Hue をCDHから切り離してDockerで運用出来ないか検討してみる

qiita.com 1日遅れになってしまいましたが、、、 この記事は MicroAd (マイクロアド) Advent Calendar 2020 - Qiita の20日目の記事です。 昨日は dai08srhg - Qiita のEmbulkの話でした。 (´-`).。oO(EmbulkはHiveやHDFS系のプラグインがアップデートある…

所属していないクラスタに対してDispCpやhdfs dfsを使う場合のTips

この記事は Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2020 の11日目の記事です。 qiita.com クラスタ間でHDFSファイルを移動したいというのは割とよくある話です。 そこでHDFSファイルを大量に移動する際は、DistCpを使う…

お手軽・簡単?!Cloud Storage Connectorを使ってHadoopクラスタからGCS・S3にデータを移動する

qiita.com この記事は MicroAd (マイクロアド) Advent Calendar 2020 - Qiita の3日目の記事です。 昨日は Kotlin大好き? wrongwrong の以下のGitHub ActionsでJava/Kotlin製ライブラリ(ビルドツールはgradle)のCI環境構築する話でした。 qiita.com 3日目…

Apache Hadoop OzoneがCSIに対応(=Kubernetesでも使える)してたのでお試してみる

qiita.com qiita.com 遅れてしまいましたが、この記事は、 MicroAd Advent Calendar 2019 及び Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2019 - Qiita の20日目の記事です。 公式ドキュメント より TL;DR Apache Hadoop O…

HueからHiveやImpalaの実行時にリソースプールを変更したい問題

分析用のクラスタでの運用の話。 クラスタへのデータ投入やETLなどのジョブと分析用のジョブを共存共栄したいという要望がある。 基本的に分析系のジョブは重たくなりやすいので、他に影響与えないように隔離したい。 beelineを使う場合は、以下のようにする…

Cloudera Manager APIってAmbariと比較してどうなんだろ?

社内ブログがあるのでそっちには毎日書いてるんだけど、せっかくなんでこっちにも書いてみることにした。 もともとメモなんだし、もっと雑に描いてもいいかなぁと。 Cloudera Manager API の話 Cloudera Manager API Client というのがあるなぁってのは分か…

Rancher Meetup #06 in Osakaでデータ分析基盤とk8s・Rancher絡めてLTしました

活動拠点は京都なのですが、大阪のコアメンバ不在もあって、神戸方面のメンバと一緒になって大阪で開催しました。 一緒にやってくれる人募集してます。 rancherjp.connpass.com 最初は、 去年のアドカレネタを膨らまして発表する予定だったんですが、どうし…

HiveとImpalaのネストしたカラムのpushdown(行や列方向のフィルタ)に関するまとめ

結論 きっかけ Pushdownについて HiveでのネストしたカラムのPushdwonについて ~Complex型(Struct型)の要素のPushdown~ ImpalaでのネストしたカラムのPushdwonについて ~Complex型(Struct型)の要素のPushdown~ まとめ 結論 2019/01/07時点で Hive ま…