以前、EC2の障害復旧パターンという記事を書きましたが、
今回は、もう少し実際の作業レベルの話に落とし込んでみたいと思います。

EC2が無反応になった場合、3パターンの方法を用いて、
復旧をするようにしています。

復旧イメージは、下記になります。

cloudpackでは、少しでも復旧時間を短くするために、EC2(1)~(3)の3パターンの復旧方法を同時に実行しており、
その3パターンの中で、一番早く復旧した方法を採用するようにしています。

注意点としては、EC2(1)パターンで、stop/startをしますが下手にEC2をstopすると、
stopまでに時間がかかってしまい、その間にコンソールでAMIを作成出来なくなる場合があるので、
EC2(2)パターンのAMIを先に作成しておく必要がある点です。

もう1点は、EC2(1)パターンのstopを行っても、非常に長い時間かかる場合も想定されるので、
その場合は、どこかで諦めて作成したAMIやスナップショットから作成する
AMIでの起動を試すことです。

ちなみにAMIからスナップショットを作成する方法は、
他のEBSもアタッチ済みのAMIを作成にて紹介しています。

上記の復旧方法を行うと、以下の3つの復旧方法のうちのどれかが、 早く起動される形になります。
ちなみに起動される順番は、ケースバイケースです。)
・EC2がStop/Startされる
・コンソールから操作したAMIの作成(起動)
・スナップショットからのAMIの作成(起動)
最後に復旧したEC2にEIPを割り当てると復旧完了になります。

こちらの記事はなかの人(suz-lab)監修のもと掲載しています。
元記事は、こちら