MoonMath AI Rilis Kernel Perhatian HIP AMD MI300X Unggul Dari AITER v3

prajurit.id – Tim MoonMath AI baru-baru ini meluncurkan kernel perhatian maju bf16 untuk GPU MI300X milik AMD. Kernel ini ditulis menggunakan HIP (Heterogeneous-computing Interface for Portability) dan bukan dengan bahasa rakitan manual. Kode tersebut bersifat open-source di bawah lisensi MIT dan menunjukkan kinerja yang lebih baik dibandingkan dengan AITER v3, kernel yang dioptimalkan oleh AMD, pada setiap bentuk pengujian yang dilakukan.

Kernel perhatian yang baru ini merupakan bagian integral dari operasi transformer yang mendasari banyak model bahasa dan AI saat ini. Kernel ini dirancang khusus untuk berfungsi pada GPU MI300X, yang merupakan bagian dari arsitektur komputasi CDNA3 AMD. “Attention” dalam konteks ini adalah operasi yang menggabungkan fungsi softmax dan kalkulasi matriks yang memungkinkan pemrosesan yang lebih efisien dari informasi.

Table of Contents

Keunggulan Kernel MoonMath

Dalam laporan tersebut, MoonMath mengklaim bahwa kernel baru mereka telah mengungguli AITER v3 dengan rasio kecepatan yang cukup signifikan. Berdasarkan pengujian yang dilakukan, mereka mencatatkan peningkatan performa dengan faktor hingga 1.26x pada berbagai parameter, menunjukkan bahwa desain-program berkualitas tinggi ini telah berhasil mengatasi beberapa keterbatasan desain sebelumnya.

Keuntungan utama dari kernel ini adalah terletak pada teknik pemrograman yang digunakan, yakni pembungkusan instruksi tunggal dalam satu fungsi. Hal ini memungkinkan kontrol lebih baik untuk pemrogram sekaligus menjaga kode tetap bersih. Dengan menggunakan pembungkus asm yang memperbolehkan kompilator untuk mengatur alokasi register, MoonMath memberikan solusi optimal tanpa memerlukan pengelolaan manual yang kompleks.

Penerapan dalam Pengolahan Data

Kinerja kernel ini sangat tergantung pada pengelolaan memori dan struktur data. Untuk mencapai kecepatan yang lebih baik, MoonMath mengoptimalkan lokasi penyimpanan data. Data untuk matriks K disimpan di Local Data Share (LDS), yang mendukung akses cepat oleh delapan gelombang pemrosesan yang berjalan bersamaan. Sebagai tambahan, data matriks V dipertahankan dalam cache tingkat satu (L1), sedangkan data matriks Q dan akumulator berada dalam register. Dengan konfigurasi ini, mereka berhasil meminimalisir pembacaan memori berulang yang dapat menurunkan kecepatan pemrosesan.

Mengelola lokasi penyimpanan data ini meningkatkannya hingga 1.59x saat dilakukan pengujian, dan memberikan hasil yang lebih stabil dalam pengujian di berbagai konfigurasi. Kalibrasi ini memungkinkan pengguna untuk menjalankan model AI yang kompleks tanpa kehilangan banyak waktu untuk pemrosesan.

Inovasi dalam Arsitektur GPU

GPU MI300X menggunakan unit komputasi yang dirancang untuk menangani proses komputasi berat dengan lebih efisien. Tim MoonMath memanfaatkan delapan gelombang pemrosesan yang dijalankan dalam dua grup untuk memastikan bahwa setiap bagian dari pengolahan data tidak idle. Dengan cara ini, satu grup dapat mengontrol proses load sementara grup lainnya mempercepat komputasi softmax, yang merupakan teknik penting dalam machine learning saat ini.

Sistem pengontrol dalam kernel terbaru ini memungkinkan sinkronisasi di antara gelombang-gelombang tersebut dengan memastikan bahwa data memori dapat diakses secara bersamaan. Dampak positif dari pendekatan ini adalah pengurangan waktu pemrosesan keseluruhan, membuat langkah-langkah yang kompleks menjadi lebih cepat dan efisien.

Dampak Penemuan Ini

Pengembangan kernel ini membawa dampak yang signifikan bagi industri AI dan pengolahan data. Dengan menciptakan solusi yang efisien dan efektif, MoonMath membantu mempercepat perkembangan model-transformer dan membuatnya lebih aksesibel bagi pengembang dan peneliti. Implikasi dari inovasi mereka berpotensi menjangkau berbagai aplikasi, mulai dari pemrosesan bahasa alami hingga pengenalan citra dan analisis data besar.

Kesuksesan kernel ini tidak hanya memberikan keunggulan bagi MoonMath, tetapi juga untuk AMD dengan memperlihatkan kemampuan teknologi mereka dalam bersaing di pasar GPU yang semakin kompetitif.

Kesimpulan

Inovasi yang diperkenalkan melalui kernel bf16 perhatian yang dirilis oleh tim MoonMath menunjukkan potensi luar biasa bagi efisiensi pemrosesan di lingkungan data besar dan AI. Dengan pengujian yang menunjukkan kinerja unggul dibandingkan dengan produk sebelumnya, kali ini tim MoonMath tidak hanya sukses dalam menghasilkan kode yang lebih cepat tetapi juga membuktikan kapabilitas desain yang mampu bersaing di tingkat global. Penemuan ini tentu menjadi pertanda baik bagi masa depan pengembangan teknologi GPU.