読者です 読者をやめる 読者になる 読者になる

/var/log/laughingman7743.log

I thought what I'd do was, I'd pretend I was one of those deaf-mutes or should I?

EMRでADD JARしたくない場合の対処法

EMR Hive Presto
Hive

ブートストラップアクションでJARを適当なディレクトリに配置し、hive-envの設定をしてやればADD JARしなくて良くなります。 (以下は /usr/lib/hive/plugin ディレクトリにJARを配置しています)

Presto

PrestoにはそもそもADD JARはないので、JSONデータをマッピングしたHiveのテーブルを参照したい場合等に困ります。(基本的にはParquetかORCにETLして参照した方が良いですが。。。)
ブートストラップアクションでJARを /usr/lib/presto/plugin/hive-hadoop2/ 以下に配置してやれば良いです。 (ブートストラップアクションが実行されるタイミングではディレクトリ自体がないので、作成してやる必要があります)

PrestoでのJSONデータの参照はParquetやORCに比べると遅いですが、Hiveと比べるとストレスなくデータを参照できたりします。TezでもHive遅い。。。

Enjoy!