Dasar-Dasar Infrastruktur dan Operasi Sistem AI
Kategori: Teknis AI
Dasar-Dasar Infrastruktur dan Operasi Sistem AI

Tentang Kursus

Kursus Dasar-Dasar Infrastruktur dan Operasi Sistem AI menawarkan pemahaman mendalam tentang ekosistem infrastruktur kecerdasan artifisial modern, mulai dari arsitektur data center, teknologi GPU, hingga sistem jaringan berkecepatan tinggi. Peserta akan menguasai keterampilan operasional krusial seperti provisioning melalui Infrastructure as Code, orkestrasi klaster berbasis Kubernetes, serta implementasi MLOps untuk mengelola siklus hidup model secara end-to-end. Pembahasan juga mencakup strategi deployment hibrid, manajemen biaya operasional, serta standar keamanan yang diperlukan dalam lingkungan produksi skala enterprise. Dengan memadukan teori dan praktik, program ini memberdayakan Anda untuk merancang serta mengoperasikan sistem AI yang andal dan efisien pada berbagai platform cloud maupun on-premises.

Apa yang akan kamu pelajari?

  • Konsep Dasar & Beban Kerja: Dasar AI, ML, dan Deep Learning serta karakteristik beban kerja training dan inference.
  • Arsitektur & Framework: Perbandingan GPU vs CPU, penggunaan TensorFlow dan PyTorch, serta siklus pengembangan AI.
  • Komputasi & Jaringan: Platform NVIDIA DGX systems didukung jaringan berkecepatan tinggi InfiniBand dan RDMA.
  • Sistem Penyimpanan Paralel: Implementasi storage berperformansi tinggi menggunakan teknologi GPFS, Lustre, dan NVMe.
  • Manajemen Fasilitas: Pengaturan daya, liquid cooling, metrik PUE, serta arsitektur referensi on-premises dan cloud.
  • Provisioning & Orkestrasi: Pengelolaan infrastruktur dengan Terraform dan Ansible serta orkestrasi klaster Kubernetes.
  • Monitoring & Observabilitas: Penggunaan Prometheus, Grafana, dan NVIDIA DCGM untuk pemantauan performa sistem.
  • Optimisasi & Keamanan: Strategi peningkatan performa GPU, jaringan, storage, serta implementasi kepatuhan keamanan.
  • Prinsip MLOps: Penerapan CI/CD khusus machine learning serta manajemen pipeline data dan feature stores.
  • Distributed Training: Teknik pelatihan skala besar menggunakan metode data parallel dan model parallel.
  • Model Serving & Monitoring: Deployment melalui NVIDIA Triton/TensorFlow Serving serta deteksi drift dan retraining.
  • Platform AI Cloud: Pemanfaatan AWS SageMaker, Azure ML, dan Google Vertex AI dalam ekosistem cloud.
  • Arsitektur Hybrid & Serverless: Strategi multi-cloud, pengembangan cloud-native, dan implementasi serverless inference.
  • Manajemen Biaya & Tren: Praktik FinOps untuk efisiensi biaya serta eksplorasi Edge AI dan Quantum Computing.

Course Content

1.1 Pengantar Kecerdasan Artifisial
1.2 Karakteristik Beban Kerja AI
1.3 Dasar-Dasar Komputasi GPU
1.4 AI Software Stack Overview
1.5 Siklus Pengembangan AI
Module 1 Quiz
2.1 Platform Komputasi untuk AI
2.2 Infrastruktur Jaringan
2.3 Storage Systems untuk AI
2.4 Infrastruktur Daya dan Pendinginan
2.5 Reference Architectures
Module 2 Quiz
3.1 Penyediaan Infrastruktur
3.2 Orkestrasi Klaster
3.3 Monitoring dan Observabilitas
3.4 Performance Optimization
3.5 Keamanan dan Kepatuhan
Module 3 Quiz
4.1 Dasar-dasar MLOps
4.2 Manajemen Pipeline Data
4.3 Model Training at Scale
4.4 Model Deployment dan Serving
4.5 Monitoring dan Pengelolaan Model
Module 4 Quiz
5.1 Cloud AI Platforms Overview
5.2 Arsitektur Hybrid dan Multi-Cloud
5.3 Cloud-Native AI Development
5.4 Manajemen Biaya dan Optimisasi
5.5 Tren Masa Depan dalam Infrastruktur AI
Module 5 Quiz
Module 6 Quiz