share facebook facebook twitter menu hatena pocket slack

2011.07.08 FRI

アマゾン HPC NIGHTに参加しました

鈴木 宏康

WRITTEN BY 鈴木 宏康

2011年7月4日に行われたアマゾン HPC NIGHTというイベントに参加してきました。

このイベントのテーマは、AWS環境でのHPC(High Perfrmance Computing)で、AmazonのCTO自らの講演、
エバンジェリストのデモ、そして実際の利用者によるパネルディスカッションなどが行われました。

その中でも「HPC at your fingertips (すぐに利用可能なHPC)」は、
とても印象に残った基調講演で、AmazonのCTO、ヴァーナー・ボーガス博士が
自ら講演していました。
そしてはじめに、The Fourth Paradigm: Data-intensive Scientific Discovery
紹介されました。

ここでキーワードとなるData-intensive (Computing)が登場します。
これは、

膨大な一次データ、二次データ、の存在と、遍在する計算能力の存在を大前提にした科学研究手法。
(科学研究手法の「第四のパラダイム」としてのData-intensive Computingより引用)

といったもので、引用のリンクからもわかるようにクラウド(AWS)と親和性の高さがうかがえます。

データの扱いは下記の5つのフェーズで整理され、各フェーズで役立つ
AWSプロダクト/サービスを紹介してくれました。

COLLECT, STORE, ORGANIZE, ANALYZE, SHARE

【COLLECT】

データの収集、つまりAWSへのアップロードの部分で、下記が紹介されました。

  • FREE INBOUND BANDWIDTH
      つまりAWSへのアップロードは無料です!(最近無料になりました!)
  • AWS Import/Export
      AmazonにHD送ってデータをアップロードしてもらうサービスです。
      最近S3だけでなくEBSにもアップロードできるようになりました!

【STORE】

データの保存部分では、次のプロダクトが紹介されました。
(適材適所で使い分けましょう!)

  • S3
      99.999999999%の耐久性と99.99% の可用性のWebストレージ
  • SimpleDB
      可用性、拡張性、柔軟性の高い、非リレーショナル型データストア(KVS)です。
  • EBS
      EC2インスタンスのための永続性のあるストレージ(HDDやSDDのようなもの)
  • RDS
      データベース(MySQL/Oracle)専用の仮想サーバ(インスタンス)です。

【ORGANIZE】

データの組織化に関しては、下記のフェーズを紹介されました。

  Control, Correct, Validate, Enrich

まあ、制御して、正して、検証して、より構造的にする、といった感じでしょうか?
(Controlの部分が実際何をするのかは理解できてませんでした…)

【ANALYZE】

下記三つの大規模計算を紹介し、それに適したAWSプロダクトを紹介されました。

  • High-throughput computing
      多くのコンピューターリソースを利用し、長い時間かけて処理を完了させる。
      AWSならEC2のCPUやメモリの多いインスタンスで複数台で!
  • Data Intensive Computing
      大規模なデータを並列に処理する。AWSならEMRで!
  • Parallel computing
      従来型の並列処理を行う。Cluster Compute InstanceやCluster GPU Instanceで!

【SHARE】

最後はデータの共有ですが、公開して利用できるようにしましょう
といったところでしょか?

最後にヴァーナー・ボーガス博士のコメントで印象に残ったものです。

リージョンからデータはもちろんのことメタデータもでない。
(セキュリティに関してリージョン内で完全にデータは閉じている)

お気に入りのAWSサービスはS3。
(最初のサービスだし、とにかくシンプル!)

こちらの記事はなかの人(suz-lab)監修のもと掲載しています。
元記事は、こちら

鈴木 宏康

鈴木 宏康

愛知県生まれ。東京工業大学大学院修士課程修了。在学時より、ベンチャー企業でインターネットに関する業務に携わり、現在はクラウド(主にAmazon Web Services)上での開発・運用を軸とした事業の、業務の中心として活躍。

cloudpack

cloudpackは、Amazon EC2やAmazon S3をはじめとするAWSの各種プロダクトを利用する際の、導入・設計から運用保守を含んだフルマネージドのサービスを提供し、バックアップや24時間365日の監視/障害対応、技術的な問い合わせに対するサポートなどを行っております。
AWS上のインフラ構築およびAWSを活用したシステム開発など、案件のご相談はcloudpack.jpよりご連絡ください。