読者です 読者をやめる 読者になる 読者になる

/var/log/laughingman7743.log

I thought what I'd do was, I'd pretend I was one of those deaf-mutes or should I?

EMR 4.4.0でJSON SerDe

HiveでJSON SerDeであれば rcongiu/Hive-JSON-Serde*1 を使うのが一般的かと思われますが、 EMR 4.4.0からHCatalogが使えるようになっているので*2、 HCatalogのJSON SerDe*3を使うこともできます。 /usr/lib/hive-hcatalog/share/hcatalog/ 以下にJarがあるので、コンパイルしてJarをデプロイする手間がはぶけます。

以下は適当にS3外部テーブルを作成して、GZIP圧縮したJSONファイルを出力するような例です。

出力時にもADD JARをする必要があるのでお忘れなく。ダイナミックパーティションは地味に便利ですね。

Enjoy!