2週目は疲れる
お仕事
社内で日報を書くようになったので、ここでは書かないようになるかもしれない。同じようなことを2回書くモチベーションがない。
Amazon EMR プロジェクト
Amazon のチュートリアルには Amazon Elastic MapReduce Ruby Client が紹介されてるけど、Python 製のクライアントも見つけた。
- mrjob.emr - run on EMR — mrjob v0.5.10 documentation
- boto: A Python interface to Amazon Web Services — boto v2.49.0
mrjob は Yelp が開発元で内部的には boto を使っている。主には emr の streaming job を使うのが主目的のように見える。hive や pig を使おうとすると、boto で足りない機能を実装する必要がありそう。
試しに boto で hive のセットアップを実装したらちゃんと動いたので、その辺りの機能一式を実装してコントリビュートしても良さそうな感じ。