Belajar menggunakan algoritma Deep Deterministic Policy Gradient (DDPG) untuk kasus policy IoT
Apa itu DDPG? DDPG (Deep Deterministic Policy Gradient) adalah algoritma Reinforcement Learning (RL) berbasis model-free, off-policy , yang digunakan untuk kontrol kontinu pada ruang aksi kontinu . DDPG merupakan pengembangan dari algoritma Deterministic Policy Gradient (DPG) dengan menggabungkan prinsip Deep Q-Network (DQN) menggunakan neural network sebagai fungsi aproksimasi. Karakteristik Utama DDPG ✅ Menggunakan Actor-Critic : Actor menghasilkan aksi deterministik a = μ ( s ∣ θ μ ) a = \mu(s|\theta^\mu) a = μ ( s ∣ θ μ ) . Critic mengevaluasi Q-value dari state-action pair Q ( s , a ∣ θ Q ) Q(s, a|\theta^Q) Q ( s , a ∣ θ Q ) . ✅ Menggunakan Target Network : Memiliki target actor dan target critic untuk stabilitas training, diperbarui secara soft update. ✅ Replay Buffer (Experience Replay) : Menyimpan pengalaman ( s , a , r , s ′ ) (s, a, r, s') ( s , a , r , s ′ ) untuk diambil secara acak saat training, sehingga mengurangi korelasi antar sampel. ...