prajurit.id – Prime Intellect baru saja meluncurkan versi terbaru dari framework reinforcement learning (RL) mereka, yaitu prime-rl versi 0.6.0. Framework ini ditujukan untuk pengembangan model Mixture-of-Experts (MoE) yang memiliki satu triliun parameter, dan khususnya ditujukan untuk beban kerja agen yang kompleks, seperti tugas rekayasa perangkat lunak yang memerlukan langkah-langkah panjang.
Dalam pengumuman tersebut, tim pengembang menjelaskan bahwa mereka telah melatih GLM-5 untuk menjalani berbagai tugas rekayasa perangkat lunak dengan panjang urutan hingga 131.000. Penggunaan node H200 yang efisien memungkinkan waktu langkah tetap di bawah lima menit. Pengguna dapat memanfaatkan dua puluh delapan node H200 dalam batch yang berisi 256 rollouts.
Pemahaman Tentang prime-rl 0.6.0
Prime-rl adalah framework terbuka untuk asynchronous reinforcement learning. Versi 0.6.0 ini memperluas kemampuan framework untuk mendukung skala model MoE dengan satu triliun parameter. Model yang contohkan dalam pengumuman ini adalah GLM-5.1, yang menunjukkan keuntungan optimasi serupa yang dapat diterapkan pada model MoE besar lainnya. Ini menjanjikan peningkatan efisiensi pelatihan melalui berbagai metode yang diperbarui.
Peran Asynchronous RL
Tugas agen sering kali mengalami outlier dengan jangka waktu panjang. Beberapa rollout dapat berjalan selama berjam-jam, yang dapat mengakibatkan GPU terbuang sia-sia jika menunggu setiap pembaruan kebijakan. Dengan adanya asynchronous RL, sistem pelatihan dan inferensi dapat berjalan secara mandiri tanpa saling menunggu.
Pembaruan kebijakan dilakukan secepatnya setelah langkah pengoptimalan selesai. Dalam konteks ini, hanya ada satu titik sinkronisasi yang diperlukan, yaitu update kebijakan, sehingga proses pelatihan menjadi lebih efisien.
Inovasi dalam Optimasi Inferensi
Dalam sistem reinforcement learning, inferensi biasanya menjadi hambatan dalam throughput. Prime-rl melakukan optimasi dengan fokus pada peningkatan throughput sambil menjaga latensi tetap terukur. Salah satu teknik yang digunakan adalah inferensi FP8, yang mempercepat proses dengan memanfaatkan presisi rendah untuk prefill dan decode menggunakan DeepEP dan DeepGEMM kernels.
Kemudian, Wide Expert Parallelism menyebar keahlian di antara dua belas GPU, meningkatkan kapasitas pembagian data. Aspek ini penting untuk menjaga latensi decoding tetap rendah, terutama ketika bekerja dengan token yang banyak dalam satu proyek.
Optimasi Pelatihan yang Efisien
Dalam proses pelatihan, prime-rl menggunakan torchtitan sebagai basis kode pelatihan yang didukung oleh PyTorch, menerapkan tiga dimensi paralelisme: Fully Sharded Data Parallel (FSDP), Context Parallelism (CP), dan Expert Parallelism (EP). Strategi ini memungkinkan pengurangan penggunaan memori secara efisien saat memproses model yang besar seperti GLM-5.
Pada long-context memory, frame kerja ini memungkinkan pemrosesan panjang urutan yang kompleks sambil menjaga penggunaan resource yang optimal. Proses ini turut memperkuat stabilitas pelatihan dan mengurangi kesenjangan antara pelatihan dan inferensi.
Kasus Penggunaan dan Contoh
- Agen SWE Jangka Panjang: Melatih model pada isu yang terdapat dalam repositori nyata, di mana rollout dapat berlangsung hingga ratusan langkah dan pemanggilan alat. Disaggregation P/D menjaga latensi decoding tetap terukur.
- Post-training Skala 1 Triliun dengan Node Lebih Sedikit: Proses GLM-5 berhasil diintegrasikan pada dua puluh delapan node H200, meningkatkan kapasitas dan throughput secara bersamaan.
- Stabilitas RL Agen di Skala Besar: Penggunaan Router Replay dan pelatihan FP8 mengurangi ketidaksesuaian KL antara pelatihan dan inferensi. Penurunan mismatch ini berkontribusi pada stabilitas yang lebih baik selama proses pelatihan.
Kesimpulan
Pembaruan prime-rl versi 0.6.0 dari Prime Intellect berpotensi untuk meningkatkan efisiensi dan efektivitas di bidang reinforcement learning dengan memanfaatkan kekuatan model MoE besar. Dengan teknik optimasi yang dirancang untuk mengatasi tantangan dalam pelatihan model besar, pengguna dapat mengharapkan hasil yang lebih baik dalam aplikasi praktis, terutama di bidang rekayasa perangkat lunak yang menuntut.