AWS

BODY:

EMRではSparkでファイルを開く際には*が使えるみたいだ 

こんな感じのBOWを数えるスクリプトを作成

s3にはgzで固められたファイルがたくさんある場合には

このような ...

AWS

SparkからHiveが使いづらいというか使えない?のでSparkSQLを使ってみました。

そこそこ試行錯誤する必要があったのでメモです。

データファイル

のフォーマットのファイルを用意しておきます。こんな感じ。 ...

AWS

emr-4.2.0をベースにAdvancedOptionでSpark1.5.2を追加しクラスターを作成しておきます

今回はPiをモンテカルロシミュレーションで計算するSpark付属のサンプルプログラムをちょっと改造して使用 ...

AWS, java

ポイントは2回InputStreamを作成することです。

docker, linux

dockerで今までうまくいっていたBuildが突然落ちるようになったりすることがあります

こういう時には一度キャッシュをクリーンすれば治ります

AWS

こんな感じでディレクトリ作成しますpom.xmlを作成しますeclipseで読み込めるようにしますJavaファイルはこんな感じ WordCountMain.javaWordCountMapper.javaWordCountReducer. ...