Layanan cloud raksasa Amazon Web Services (AWS) baru saja pulih sepenuhnya setelah mengalami gangguan parah sejak Senin (20/10) sore waktu setempat. Insiden ini menyebabkan kekacauan di berbagai platform global yang kita gunakan sehari-hari, mulai dari aplikasi pesan hingga game populer.
Layanan Cloud Raksasa Tumbang, Dunia Digital Bergetar
Setelah berjam-jam lumpuh, AWS akhirnya mengumumkan bahwa semua layanannya kembali beroperasi normal. Namun, beberapa layanan inti seperti AWS Config, Redshift, dan Connect masih harus memproses tumpukan pesan yang menumpuk selama gangguan, yang diperkirakan memakan waktu beberapa jam ke depan. Situasi ini tentu membuat perusahaan-perusahaan yang mengandalkan AWS masih merasa was-was.
AWS sendiri adalah tulang punggung digital bagi jutaan aplikasi dan proses komputasi di seluruh dunia. Ketika layanan ini goyah, dampaknya langsung terasa. Pekerja dari London hingga Tokyo mendadak terputus dari jaringan, menghentikan aktivitas bisnis mereka, bahkan untuk hal sesederhana membayar penata rambut atau mengubah tiket pesawat.
Deretan Platform Populer Ikut Kena Imbasnya
Bukan cuma perusahaan besar, kamu mungkin juga merasakan langsung dampaknya. Keluhan membanjiri media sosial dari pengguna berbagai platform, mulai dari dompet digital Venmo yang mendadak tidak bisa digunakan, hingga platform panggilan video Zoom yang terganggu. Ini menunjukkan betapa terintegrasinya AWS dalam kehidupan digital kita.
Beberapa nama besar yang terang-terangan mengakui terdampak adalah Snapchat, Signal, Reddit, dan game populer Roblox. Startup kecerdasan buatan Perplexity, bursa kripto Coinbase, dan aplikasi perdagangan Robinhood juga ikut merasakan gangguan platform mereka dan mengaitkannya dengan masalah AWS. Bahkan, layanan internal Amazon sendiri, termasuk situs belanja, Prime Video, dan Alexa, tidak luput dari imbasnya.
Para gamer juga ikut menjerit. Selain Roblox, game-game populer seperti Fortnite milik Epic Games, Clash Royale, dan Clash of Clans juga menjadi platform yang terkena dampak. Presiden Signal, Meredith Whittaker, bahkan mengonfirmasi langsung melalui postingan di X (sebelumnya Twitter) bahwa aplikasi pesan terenkripsi mereka juga mengalami gangguan serius.
Bukan Kali Pertama, Ada Apa dengan AWS US-EAST-1?
Gangguan AWS kali ini disebut-sebut sebagai gangguan internet terbesar sejak kegagalan CrowdStrike tahun lalu. Insiden ini kembali menyoroti kerentanan teknologi yang saling terhubung di seluruh dunia. Ketika satu titik sentral goyah, efek dominonya bisa melumpuhkan banyak sektor.
Yang lebih mengkhawatirkan, ini setidaknya merupakan kali ketiga dalam lima tahun terakhir kluster AWS di Virginia Utara, yang dikenal sebagai US-EAST-1, berkontribusi pada gangguan internet besar-besaran. Amazon sendiri belum memberikan penjelasan lebih lanjut mengapa pusat data krusial ini terus-menerus mengalami masalah.
Jantung Internet yang Rentan
US-EAST-1 adalah salah satu wilayah AWS terbesar dan tertua, menjadikannya pusat bagi banyak layanan dan aplikasi penting. Ketergantungan yang tinggi pada satu wilayah ini menciptakan risiko tunggal yang signifikan. Ketika jantung infrastruktur digital ini bermasalah, dampaknya bisa terasa di seluruh dunia.
Fenomena ini memunculkan pertanyaan serius tentang arsitektur dan ketahanan sistem cloud global. Apakah sudah saatnya perusahaan-perusahaan besar seperti Amazon mulai mendiversifikasi atau memperkuat sistem mereka agar tidak terlalu bergantung pada satu titik geografis?
Akar Masalah Terkuak: Dari DNS Hingga Jaringan Internal EC2
Amazon akhirnya mengungkapkan bahwa masalah utama berasal dari sistem Domain Name System (DNS). Bagi kamu yang belum tahu, DNS ini seperti buku telepon internet. Ia menerjemahkan nama domain yang mudah diingat (misalnya, cnnindonesia.com) menjadi alamat IP numerik yang digunakan komputer untuk saling menemukan.
Dalam kasus ini, kegagalan DNS mencegah aplikasi menemukan alamat yang benar untuk AWS DynamoDB API. DynamoDB sendiri adalah basis data awan yang digunakan untuk menyimpan informasi pengguna dan data kritis lainnya. Bayangkan jika buku telepon kamu tiba-tiba hilang atau salah alamat, kamu tidak akan bisa menghubungi siapa pun.
Mengapa DNS dan DynamoDB Begitu Krusial?
Kegagalan DNS berarti bahwa meskipun server dan aplikasi mungkin masih berfungsi, mereka tidak dapat "menemukan" satu sama lain di jaringan. Ini seperti memiliki mobil yang berfungsi penuh tetapi tidak tahu jalan menuju tujuan. Sementara itu, DynamoDB adalah pondasi bagi banyak aplikasi modern untuk menyimpan data penting secara cepat dan andal. Ketika akses ke DynamoDB terganggu, aplikasi tidak bisa mengambil atau menyimpan informasi, menyebabkan mereka berhenti berfungsi.
Sebelumnya, AWS juga menyatakan bahwa penyebab utama gangguan adalah subsistem dasar yang memantau kesehatan load balancer jaringan AWS. Load balancer ini bertugas mendistribusikan lalu lintas ke beberapa server agar tidak ada satu server pun yang kelebihan beban. Masalah tersebut, kata AWS, berasal dari dalam "jaringan internal EC2", layanan "Elastic Compute Cloud" Amazon, yang menyediakan kapasitas cloud on-demand.
Dampak Luas yang Bikin Pusing: Ribuan Perusahaan Terdampak
Menurut Ookla, setidaknya seribu perusahaan di seluruh dunia terdampak oleh gangguan ini. Angka ini mungkin terdengar kecil, tetapi dampaknya berlipat ganda karena perusahaan-perusahaan ini adalah penyedia layanan bagi jutaan pengguna. Gangguan ini sekali lagi menunjukkan betapa rapuhnya ekosistem digital kita terhadap satu titik kegagalan.
Dari rapat penting yang tertunda di Zoom hingga transaksi keuangan yang macet di Robinhood, kehidupan sehari-hari kita terhubung erat dengan infrastruktur cloud ini. Ketika infrastruktur ini goyah, bukan hanya bisnis yang merugi, tetapi juga produktivitas dan kenyamanan kita sebagai individu.
Dari Game Online Hingga Transaksi Keuangan, Semua Terhenti
Bayangkan, kamu sedang asyik bermain Fortnite atau Clash of Clans, lalu tiba-tiba terputus karena server AWS bermasalah. Atau, kamu ingin membayar tagihan melalui Venmo, tapi aplikasinya tidak bisa dibuka. Ini bukan sekadar gangguan kecil, melainkan interupsi serius yang memengaruhi jutaan orang secara instan.
Bagi perusahaan, gangguan ini berarti kerugian finansial yang tidak sedikit, hilangnya kepercayaan pelanggan, dan potensi kerusakan reputasi. Bagi pengguna, ini adalah frustrasi dan ketidaknyamanan yang bisa mengganggu jadwal dan aktivitas penting.
Belajar dari Gangguan: Pentingnya Ketahanan Sistem Digital
Ken Birman, seorang profesor ilmu komputer dari Cornell University, menekankan bahwa pengembang perangkat lunak perlu membangun ketahanan masalah yang lebih baik. Ia berpendapat bahwa AWS seharusnya menyediakan alat yang dapat digunakan pengembang untuk melindungi diri mereka jika terjadi masalah di salah satu dari jaringan pusat data miliknya yang luas.
Lebih lanjut, Birman menyarankan agar pengembang juga dapat membuat cadangan dengan penyedia cloud lain. Ini dikenal sebagai strategi multi-cloud, di mana perusahaan tidak menaruh semua telur mereka dalam satu keranjang, melainkan mendistribusikan beban kerja mereka ke beberapa penyedia cloud yang berbeda.
Strategi Multi-Cloud dan Desain Sistem yang Lebih Kuat
Membangun ketahanan sistem berarti merancang aplikasi dan infrastruktur agar dapat terus berfungsi, atau setidaknya pulih dengan cepat, meskipun ada kegagalan di salah satu komponennya. Ini melibatkan redundansi, otomatisasi pemulihan, dan pengujian rutin terhadap skenario kegagalan.
Birman juga mengkritik perusahaan yang memotong biaya dan mengambil jalan pintas dalam mengaktifkan aplikasi, kemudian lupa untuk benar-benar melindungi diri dari gangguan. "Perusahaan-perusahaan itulah yang seharusnya diperiksa lebih lanjut," katanya, dikutip dari Reuters. Ini adalah pengingat penting bagi semua pihak yang terlibat dalam dunia digital: investasi dalam ketahanan sistem bukanlah biaya tambahan, melainkan sebuah keharusan.
Gangguan AWS ini adalah pelajaran berharga bagi kita semua. Di era digital yang semakin maju, ketergantungan kita pada layanan cloud akan terus meningkat. Oleh karena itu, penting bagi penyedia layanan untuk terus berinovasi dalam membangun sistem yang lebih tangguh, dan bagi pengguna serta perusahaan untuk memahami risiko serta mengambil langkah proaktif untuk melindungi diri dari potensi gangguan di masa depan.


















