Felaketten Kurtarma Servisleri

Temel Bilgiler

  • Şirketin iş sürekliliğini veya mali durumunu olumsuz etkileyen herhangi bir olay felakettir.

  • Felaket kurtarma (Disaster Recovery - DR), bir felakete hazırlık yapma ve felaketten kurtulma sürecidir.

  • Hangi tür felaket kurtarma yöntemleri vardır?

    • On-premise => On-premise: Geleneksel felaket kurtarma, çok pahalıdır.

    • On-premise => AWS Cloud: Hibrit felaket kurtarma

    • AWS Cloud Bölge A => AWS Cloud Bölge B

  • İki terimi bilmek gerekir:

    • RPO: Recovery Point Objective (Kurtarma Noktası Hedefi)

    • RTO: Recovery Time Objective (Kurtarma Süresi Hedefi)

RPO (Recovery Point Objective): RPO, bir veri kaybı durumunda kabul edilebilir maksimum veri kaybı miktarını belirler. Veri kurtarma işlemi sırasında ne kadar veri kaybının tolere edilebileceğini ifade eder.

RTO (Recovery Time Objective): RTO, bir kesinti veya felaket durumunda sistemlerin veya süreçlerin ne kadar sürede yeniden çalışır hale getirilmesi gerektiğini tanımlar. Kesintinin kabul edilebilir maksimum süresini gösterir.

Stratejiler

Backup and Restore Stratejisi

Backup and restore stratejisi, sistem verilerini belirli aralıklarla yedekleme ve veri kaybı yaşandığında bu yedekler üzerinden sistemi geri yükleme işlemidir. Bu stratejinin amacı, herhangi bir kesinti veya veri kaybı durumunda minimum zarar ile hızlı bir şekilde sistemin eski haline getirilebilmesidir. Genellikle en ekonomik felaket kurtarma yöntemidir.

  1. Yedekleme Frekansı: Verilerin ne sıklıkla yedekleneceğini belirler. Daha sık yedekleme daha az veri kaybı riski anlamına gelir.

  2. Yedekleme Lokasyonu: Yedeklerin nerede saklanacağı önemlidir. Yedeklerin on-premise veya bulut gibi farklı lokasyonlarda saklanması önerilir.

  3. Geri Yükleme Süreci: Veri kaybı durumunda yedeklenen verilerin hızlı bir şekilde geri yüklenmesini sağlar ve RTO'yu karşılayacak şekilde tasarlanmalıdır.

Backup & Restore Stratejisinin gösterimi

Pilot Light

  • Uygulamanın küçük bir versiyonu her zaman bulutta çalışır.

  • Kritik çekirdek (pilot light) için kullanışlıdır.

  • Yedekleme ve Geri Yükleme (Backup and Restore) yöntemine çok benzer.

  • Kritik sistemler zaten çalışır durumda olduğu için Backup and Restore yönteminden daha hızlıdır.

Diyagramı

Multi-Site/Hot-Site Approach

  • Düşük RTO Sunar bu yüzden pahalıdır

  • Ürün Tam production düzeyinde (On-prem/AWS ortamında )olması tavsiye edilir.

Diyagramı

Tamamı AWS Multi Region'da

Diyagramı

AWS ile On-Premise Stratejisi

  • Amazon Linux 2 AMI’yi VM (.iso formatında) indirme imkanı

    • VMware, KVM, VirtualBox (Oracle VM), Microsoft Hyper-V desteği


VM Import / Export

  • Mevcut uygulamaları EC2’ye taşıma

  • On-premise sanal makineleriniz için felaket kurtarma stratejisi oluşturma

  • EC2’den tekrar on-premise’e VM’leri geri aktarabilme


AWS Application Discovery Service

  • On-premise sunucularınız hakkında bilgi toplayarak taşınma planı hazırlama

  • Sunucu kullanımını ve bağımlılık haritalarını çıkarma

  • AWS Migration Hub ile takip etme


AWS Database Migration Service (DMS)

  • On-premise ⇒ AWS, AWS ⇒ AWS, AWS ⇒ On-premise replikasyon

  • Oracle, MySQL, DynamoDB vb. çeşitli veritabanı teknolojileri ile çalışma


AWS Server Migration Service (SMS)

  • On-premise canlı sunucuların AWS’ye artımlı replikasyonu

Tavsiyeler

1. Yedekleme (Backup)

  • EBS Snapshot’lar, RDS otomatik yedeklemeler / anlık görüntüler (snapshots) vb.

  • Düzenli olarak S3 / S3 IA / Glacier’a yükleme, Lifecycle Policy, Cross Region Replication

  • On-Premise’ten: Snowball veya Storage Gateway ile

2. Yüksek Erişilebilirlik (High Availability)

  • Route53 kullanarak DNS’i bölgeler arası taşımak

  • RDS Multi-AZ, ElastiCache Multi-AZ, EFS, S3

  • Site-to-Site VPN kullanarak Direct Connect’ten kurtarma

3. Replikasyon (Replication)

  • RDS Replikasyonu (Bölgeler arası), AWS Aurora + Global Databases

  • On-premise’ten RDS’e veritabanı replikasyonu

  • Storage Gateway

4. Otomasyon (Automation)

  • CloudFormation / Elastic Beanstalk ile tüm ortamı yeniden oluşturma

  • CloudWatch alarm verdiğinde EC2 instance’larını kurtarma / yeniden başlatma

  • AWS Lambda ile özelleştirilmiş otomasyonlar

5. Kaos (Chaos)

  • Netflix’in “simian-army” aracıyla rastgele EC2 sonlandırma testi

Last updated