/var/log/laughingman7743.log

I thought what I'd do was, I'd pretend I was one of those deaf-mutes or should I?

Hive

Hiveでカレンダーテーブルを簡単に作る

集計処理でカレンダーテーブルがあると何かと便利なのでカレンダーテーブルを作りたいなと思ったのですが、HiveにはPostgreSQLのgenerate_seriesのような関数がない。。。 UDFなら作っている人がいそうな気がしたので調べてみると、Hivemall*1のUDFにgenerat…

EMRでADD JARしたくない場合の対処法

Hive ブートストラップアクションでJARを適当なディレクトリに配置し、hive-envの設定をしてやればADD JARしなくて良くなります。 (以下は /usr/lib/hive/plugin ディレクトリにJARを配置しています) Presto PrestoにはそもそもADD JARはないので、JSONデー…

HiveでネストしたJSONデータのテーブルマッピング

HiveでJSONデータを処理する場合には、json_tuple*1や get_json_object*2を使えば処理できますが、複雑なJSONだとクエリがカオスに。。。json_tupleやget_json_objectでがんばるよりも、struct型やarray型*3を使ったテーブル定義を作ってマッピングしてやる…

Hive便利UDF

元ネタがJSONだったりするとリストやマップの処理でいろいろとつらいってことで、かゆいところに手が届くUDF詰め合わせ。かなり便利です。ありがたい。 今日もETLバッチ処理でHive大活躍ですわ! Enjoy!

EMR 4.4.0でJSON SerDe

HiveでJSON SerDeであれば rcongiu/Hive-JSON-Serde*1 を使うのが一般的かと思われますが、 EMR 4.4.0からHCatalogが使えるようになっているので*2、 HCatalogのJSON SerDe*3を使うこともできます。 /usr/lib/hive-hcatalog/share/hcatalog/ 以下にJarがある…