AI mengubah banyak hal, termasuk bagaimana data center harus dibangun. Infrastruktur untuk menangani beban kerja AI itu ternyata sangat beda dari data center tradisional yang biasanya dipakai buat aplikasi umum, database, atau web. Perbedaannya ini mendasar, mulai dari komponen sampai cara pengelolaannya.
Perbedaan Utama di Komponen Hardware
Beban kerja AI, terutama untuk melatih model, butuh daya komputasi yang luar biasa. Kalau data center tradisional kebanyakan mengandalkan CPU (Central Processing Unit) untuk berbagai tugas, AI sangat bergantung pada GPU (Graphics Processing Unit) atau akselerator khusus AI lainnya. GPU ini jago banget dalam melakukan komputasi paralel yang masif, sesuatu yang krusial untuk proses training model AI yang kompleks. Kebutuhan akan hardware yang bisa bekerja sama secara super cepat dan efisien juga jadi prioritas utama.
Tantangan Daya dan Pendinginan yang Lebih Berat
Komponen seperti GPU yang dipakai untuk AI itu rakus listrik dan menghasilkan panas yang jauh lebih besar dibanding CPU biasa. Ini bikin densitas daya per rak di data center AI bisa melonjak drastis. Sistem pendingin udara konvensional seringkali enggak sanggup menangani panas ekstrem ini. Karena itu, data center yang dirancang untuk AI butuh solusi pendinginan yang lebih canggih dan efisien, seringkali mengarah ke penggunaan pendingin cair (liquid cooling) untuk menjaga suhu tetap stabil dan komponen bekerja optimal.
Kebutuhan Jaringan yang Lebih Intensif
Aliran data dalam beban kerja AI, terutama saat melakukan distributed training, itu sangat masif dan sensitif terhadap latensi. Data antar server (yang isinya GPU) harus bisa ditransfer dengan bandwidth tinggi dan latensi serendah mungkin. Jaringan di data center AI harus dirancang untuk menopang komunikasi antar node yang super cepat dan efisien, jauh melampaui kebutuhan jaringan di data center tradisional yang mungkin lebih bervariasi tapi tidak seintensif ini untuk satu jenis beban kerja.
Manajemen Data dan Penyimpanan
Data set yang dipakai untuk melatih model AI itu ukurannya bisa gede banget. Selain itu, data tersebut perlu diakses oleh banyak prosesor secara bersamaan dengan sangat cepat. Ini menuntut sistem penyimpanan yang punya performa tinggi dan latensi rendah, seperti NVMe SSD. Pola akses datanya juga beda, lebih fokus pada baca (read) data dalam jumlah besar atau akses acak yang cepat, yang beda dari pola akses data base transaksi di data center tradisional.
Perencanaan Infrastruktur Menyeluruh
Secara keseluruhan, membangun atau memodifikasi data center untuk AI bukan cuma sekadar nambahin server atau ganti prosesor. Ini butuh perencanaan ulang yang komprehensif, mulai dari desain kapasitas daya, sistem pendinginan, arsitektur jaringan, sampai pemilihan teknologi penyimpanan. Semua harus dipertimbangkan secara holistik untuk menopang karakteristik beban kerja AI yang unik, intensif, dan terus berkembang.
Sumber: https://www.datacenterdynamics.com/en/opinions/how-does-ai-data-center-infrastructure-differ-from-traditional-data-center-workloads/