Advertisement
Not a member of Pastebin yet?
Sign Up,
it unlocks many cool features!
- YARN
- Haoopは大規模データに対するバッチ処理の道具としては十分な機能を持っている
- ただしエンタープライズ用途で利用するときの課題が残っていた
- 処理性能
- 可能性
- 運用
- セキュリティ
- --------
- 処理性能
- スループットはじゅうぶん、ただしレスポンスは遅い
- MapReduce時代の起動に数十秒〜数分かかる
- -即座に結果を返してほしい場合にむかない
- -MRジョブを何度も繰り返すことが必要な処理に向かない(機械学習にある反復法)
- 可用性:
- スレーブサーバーはSPOFではない
- ・スレーブに障害が発生した場合は自動で縮退される
- マスターサーバーはSPOF
- ・バージョンアップはクラスタの全停止が必須
- セキュリティ:データ暗号化が未着手
- 1系のHadoopでは課題が残されていた
- ---------------
- 2系
- YARNの登場でレイテンシの低い処理も可能になった
- YARNとはリソース管理層を切り出したもの
- 生まれた理由
- ・スケーラビリティを向上させる
- ・MR以外の分散処理を実行する
- <YARNになって、サービス名と役割が変化>
- MRv2(MapReduce on YARN)
- hadoopはバッチ処理だけではなくなった
- ・
- ----
- スナップショット
- 手軽に「今の」データを保持
- コマンド一つで即時に過去のデータを保持できる
- ディレクトリ探知で取得
- データコピーが発生しない(Copy on Write)
- 定期的にスナップショットをとることでオペミスデータ改ざんの対策が可能
- -----------------
- セキュリティ:暗号化にも対応
- hdfsコマンドに暗号化のしくみがはいっている(クライアントコマンドに暗号化のしくみが入っている
- HTraceによるトレーサビリティの追求
- HBaseで利用されているプロファイリングツール
- 分散環境のトラブルシューティングのために便利な機能
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement