Postingan

Menampilkan postingan dari Juli, 2025

Belajar menggunakan algoritma Deep Deterministic Policy Gradient (DDPG) untuk kasus policy IoT

  Apa itu DDPG? DDPG (Deep Deterministic Policy Gradient) adalah algoritma Reinforcement Learning (RL) berbasis model-free, off-policy , yang digunakan untuk kontrol kontinu pada ruang aksi kontinu . DDPG merupakan pengembangan dari algoritma Deterministic Policy Gradient (DPG) dengan menggabungkan prinsip Deep Q-Network (DQN) menggunakan neural network sebagai fungsi aproksimasi. Karakteristik Utama DDPG ✅ Menggunakan Actor-Critic : Actor menghasilkan aksi deterministik a = μ ( s ∣ θ μ ) a = \mu(s|\theta^\mu) a = μ ( s ∣ θ μ ) . Critic mengevaluasi Q-value dari state-action pair Q ( s , a ∣ θ Q ) Q(s, a|\theta^Q) Q ( s , a ∣ θ Q ) . ✅ Menggunakan Target Network : Memiliki target actor dan target critic untuk stabilitas training, diperbarui secara soft update. ✅ Replay Buffer (Experience Replay) : Menyimpan pengalaman ( s , a , r , s ′ ) (s, a, r, s') ( s , a , r , s ′ ) untuk diambil secara acak saat training, sehingga mengurangi korelasi antar sampel. ...