DeepReinforce Luncurkan Ornith-1.0: Model Koding RL Open-Source

prajurit.id – DeepReinforce baru saja meluncurkan Ornith-1.0, sebuah keluarga model sumber terbuka yang dirancang khusus untuk coding yang otonom. Model ini tersedia dalam empat ukuran, mulai dari model padat 9B hingga flagship 397B yang menggunakan campuran pakar. Semua checkpoint tersedia di Hugging Face di bawah lisensi MIT. Ornith-1.0 dikembangkan berdasarkan model yang telah dilatih sebelumnya, Gemma 4 dan Qwen 3.5.

Setelah meluncurkan Ornith-1.0, tim riset DeepReinforce mengklaim bahwa model ini mampu menghasilkan kinerja terdepan di antara model-model terbuka yang sebanding. Berbeda dengan banyak agen coding lain yang mengandalkan model yang dipasangkan dengan sistem tetap yang dirancang oleh manusia, Ornith-1.0 memiliki kemampuan untuk belajar dan menulis skaffolding-nya sendiri.

Table of Contents

Inovasi dalam Pengembangan Model

Ornith-1.0 merupakan sekumpulan model pemodelan yang ditujukan untuk agen coding. Terdapat varian ukuran 9B Dense, 31B Dense, 35B MoE, dan 397B MoE, di mana versi 35B diaktifkan oleh sekitar 3B parameter per token. Model ini mengimplementasikan blok di awal tiap jawaban, memastikan dukungan untuk parser pemikiran yang dapat mengembalikan jejak penalaran dalam kesalahan terpisah.

Penerapan Ornith-1.0 cukup sederhana; model 9B hanya memerlukan sekitar 19GB RAM dalam format bf16 dan dapat berjalan pada satu GPU 80GB. Model-model ini juga dirancang agar kompatibel dengan endpoint OpenAI, sehingga dapat digunakan dalam kerangka kerja agen standar tanpa perlunya perubahan kode.

Sistem Pertahanan terhadap ‘Reward Hacking’

Model yang mampu menulis skaffolding sendiri menyimpan potensi risiko yang cukup besar, termasuk kemungkinan ‘reward hacking’. Untuk mengatasi hal ini, tim DeepReinforce mengembangkan tiga lapisan pertahanan. Pertama, batas kepercayaan luar bersifat tetap dan tak dapat diubah, memastikan bahwa lingkungan, alat, dan isolasi tes berada di luar jangkauan model. Kedua, pemantau deterministik yang mengawasi setiap tindakan yang melanggar aturan, mencegah model mengakses jalur yang terlarang atau memodifikasi skrip verifikasi.

Ketiga, terdapat LLM judge yang berdiri di atas pemverifikasi untuk bertindak sebagai veto, bukan sebagai sinyal imbalan utama. Pendekatan ini bertujuan untuk memastikan keamanan dan integritas dari proses pembelajaran yang memungkinkan model untuk berkembang tanpa risiko manipulasi.

Hasil & Benchmarking

DeepReinforce telah mencatat berbagai hasil kinerja dari model Ornith-1.0 pada sejumlah benchmark coding yang terkemuka. Untuk ukuran flagship, Ornith-1.0-397B mendapatkan skor 77.5 pada Terminal-Bench 2.1 dan 82.4 pada SWE-Bench Verified, unggul dibanding Claude Opus 4.7 namun masih kalah dari Claude Opus 4.8, yang mencapai skor 87.6. Hasil ini menunjukkan bahwa Ornith-1.0 berpotensi menjadi salah satu model paling kompetitif di pasar kode terbuka.

Model-model yang lebih kecil juga menunjukkan performa yang cukup baik, di mana model 35B mencatat skor 64.2 dan 9B memperoleh 43.1 pada Terminal-Bench 2.1. Keunggulan model ini tidak hanya terletak pada ukuran tetapi juga pada efisiensi penggunaan, menjadikannya pilihan yang tepat untuk berbagai aplikasi coding di tingkat repositori.

Kasus Penggunaan dan Implementasi

Ornith-1.0 dirancang untuk mendukung agen coding berbasis terminal dan pekerjaan berskala repositori. Contoh penggunaan yang memungkinkan termasuk refactoring multi-file, lokalisaasi bug, dan patch berbasis test-drive. Model 9B sangat cocok untuk pengaturan yang memerlukan latensi cepat dan biaya rendah, sedangkan model 397B ditujukan untuk akurasi maksimal pada tugas yang panjang dan lebih kompleks.

Pengguna dapat menjalankan model 9B secara lokal untuk mengatasi suite pengujian yang gagal. Untuk tim platform, mereka dapat meng-host model 397B sebagai agen coding internal. Penerapan model ini cukup mudah, hanya dengan satu baris perintah di vLLM. Pengguna dapat memanggilnya menggunakan klien OpenAI, memungkinkan aksesibilitas dan fleksibilitas yang lebih besar dalam pengembangan perangkat lunak.

Kesimpulan

Ornith-1.0 merupakan terobosan signifikan dalam dunia pemodelan AI, dengan pendekatan inovatif yang memungkinkan agen coding untuk mengembangkan metode kerja mereka sendiri. Dengan dukungan terhadap sistem pertahanan yang ketat dan hasil benchmarking yang positif, model ini diharapkan dapat menjadi pionir dalam pemrograman otonom. Dengan keberadaan model ini, pengembang memiliki alat yang lebih kuat untuk meningkatkan produktivitas serta menciptakan aplikasi yang lebih efisien dan akurat.

DeepReinforce Luncurkan Ornith-1.0: Model Koding RL Open-Source

Inovasi dalam Pengembangan Model

Sistem Pertahanan terhadap ‘Reward Hacking’

Hasil & Benchmarking

Kasus Penggunaan dan Implementasi

Kesimpulan

By prajurit.id

Related Post

Baidu Luncurkan OCR Tanpa Batas, Model 3B untuk Parsing Dokumen Panjang

Gradium Perkenalkan Model Terjemahan Suara Real-Time yang Unggul

Pemanfaatan Graphify dan NetworkX untuk Visualisasi Struktur Kode Python