Site icon prajurit.id

Prime Intellect Luncurkan Prime-RL 0.6.0 Untuk Model MoE Triliun Parameter

prajurit.id – Prime Intellect baru saja meluncurkan versi terbaru dari framework reinforcement learning (RL) mereka, yaitu prime-rl versi 0.6.0. Framework ini ditujukan untuk pengembangan model Mixture-of-Experts (MoE) yang memiliki satu triliun parameter, dan khususnya ditujukan untuk beban kerja agen yang kompleks, seperti tugas rekayasa perangkat lunak yang memerlukan langkah-langkah panjang.

Dalam pengumuman tersebut, tim pengembang menjelaskan bahwa mereka telah melatih GLM-5 untuk menjalani berbagai tugas rekayasa perangkat lunak dengan panjang urutan hingga 131.000. Penggunaan node H200 yang efisien memungkinkan waktu langkah tetap di bawah lima menit. Pengguna dapat memanfaatkan dua puluh delapan node H200 dalam batch yang berisi 256 rollouts.

Pemahaman Tentang prime-rl 0.6.0

Prime-rl adalah framework terbuka untuk asynchronous reinforcement learning. Versi 0.6.0 ini memperluas kemampuan framework untuk mendukung skala model MoE dengan satu triliun parameter. Model yang contohkan dalam pengumuman ini adalah GLM-5.1, yang menunjukkan keuntungan optimasi serupa yang dapat diterapkan pada model MoE besar lainnya. Ini menjanjikan peningkatan efisiensi pelatihan melalui berbagai metode yang diperbarui.

Peran Asynchronous RL

Tugas agen sering kali mengalami outlier dengan jangka waktu panjang. Beberapa rollout dapat berjalan selama berjam-jam, yang dapat mengakibatkan GPU terbuang sia-sia jika menunggu setiap pembaruan kebijakan. Dengan adanya asynchronous RL, sistem pelatihan dan inferensi dapat berjalan secara mandiri tanpa saling menunggu.

Pembaruan kebijakan dilakukan secepatnya setelah langkah pengoptimalan selesai. Dalam konteks ini, hanya ada satu titik sinkronisasi yang diperlukan, yaitu update kebijakan, sehingga proses pelatihan menjadi lebih efisien.

Inovasi dalam Optimasi Inferensi

Dalam sistem reinforcement learning, inferensi biasanya menjadi hambatan dalam throughput. Prime-rl melakukan optimasi dengan fokus pada peningkatan throughput sambil menjaga latensi tetap terukur. Salah satu teknik yang digunakan adalah inferensi FP8, yang mempercepat proses dengan memanfaatkan presisi rendah untuk prefill dan decode menggunakan DeepEP dan DeepGEMM kernels.

Kemudian, Wide Expert Parallelism menyebar keahlian di antara dua belas GPU, meningkatkan kapasitas pembagian data. Aspek ini penting untuk menjaga latensi decoding tetap rendah, terutama ketika bekerja dengan token yang banyak dalam satu proyek.

Optimasi Pelatihan yang Efisien

Dalam proses pelatihan, prime-rl menggunakan torchtitan sebagai basis kode pelatihan yang didukung oleh PyTorch, menerapkan tiga dimensi paralelisme: Fully Sharded Data Parallel (FSDP), Context Parallelism (CP), dan Expert Parallelism (EP). Strategi ini memungkinkan pengurangan penggunaan memori secara efisien saat memproses model yang besar seperti GLM-5.

Pada long-context memory, frame kerja ini memungkinkan pemrosesan panjang urutan yang kompleks sambil menjaga penggunaan resource yang optimal. Proses ini turut memperkuat stabilitas pelatihan dan mengurangi kesenjangan antara pelatihan dan inferensi.

Kasus Penggunaan dan Contoh

Kesimpulan

Pembaruan prime-rl versi 0.6.0 dari Prime Intellect berpotensi untuk meningkatkan efisiensi dan efektivitas di bidang reinforcement learning dengan memanfaatkan kekuatan model MoE besar. Dengan teknik optimasi yang dirancang untuk mengatasi tantangan dalam pelatihan model besar, pengguna dapat mengharapkan hasil yang lebih baik dalam aplikasi praktis, terutama di bidang rekayasa perangkat lunak yang menuntut.

Exit mobile version