忘れん坊の備忘録

情報工学科に通う大学生のメモ。あまり詳しくは無いです。備忘録として殴り書き

Hadoopを始める前に情報集め(知識が乏しい人向け)

学校の授業にて教授に言われたのでHadoopとRaspberryPi2を使って並列処理を行うことになりました
正確にいうと誘導尋問的な感じでなってしまったんですが、まぁやってみるのもいいかなって思ったので


もともとソフトウェア系しか知らないのにいきなりハードウェアに近いものになってしまったのでちんぷんかんぷん
できるか不安です

とりあえず、ラズパイを2つ繋げるのを目標にします

とにかく情報が少ないので言われた単語をメモして調べました

Hadoopとは

並列分散処理を支えるミドルウェア

と書かれていました
要は並列分散処理を行うときに管理してくれるもの的な感じでしょうか・・・
www.slideshare.net
こちらのスライドはわかりやすかったので参考にしました。
どうやらHadoopJavaが必要みたいなのでJavaの勉強をしなければ・・・


次に、MapReduceですが、行う処理を分割してそれぞれのコンピュータで行い、その処理を集めて最後に出力するという認識で良いのかな?
手法の一つって感じかな

MongoDBですがNoSQLと呼ばれるデータベースの1つです
これを使ってデータベースの処理をしてみたらと教授に言われました
www.publickey1.jp
おそらく、Hadoopとの相性が良く並列処理を行うときにデータベースを使えってことだと思います
そもそもデータベースも学んだことがないポンコツなので、さらに謎が深まりましたがこれは一旦置いておきます
まずはRaspberryPi2を設定してHadoopを入れることから始めなければ

Hadoopはこちらのサイトからダウンロードできます
Welcome to Apache™ Hadoop®!