– Baidu baru saja meluncurkan model OCR terbaru yang diberi nama “Unlimited OCR”. Model ini dirancang untuk mengatasi kendala yang sering dialami oleh model OCR konvensional, terutama saat menangani dokumen panjang. Dengan inovasi yang unik, Unlimited OCR menawarkan solusi yang meningkatkan efisiensi dalam pemrosesan dokumen yang berukuran besar.
Inovasi dalam Teknologi OCR
Unlimited OCR merupakan model dengan parameter sekitar 3 miliar, namun hanya mengaktifkan 500 juta parameter saat proses inferensi. Salah satu aspek kunci dari model ini adalah penggantian perhatian dekoder tradisional dengan Referensi Sliding Window Attention (R-SWA), yang memungkinkan penggunaan memori yang konstan bahkan saat panjang keluaran bertambah. Dengan kata lain, tidak akan ada lagi kenaikan signifikan dalam penggunaan memori seiring bertambahnya jumlah halaman yang diproses, sehingga menjadikan pemrosesan dokumen panjang menjadi lebih practical.
Dari rincian teknis yang disampaikan, model ini mencakup DeepEncoder dan dekoder Mixture-of-Experts (MoE). DeepEncoder berperan sebagai penggerak utama dalam kompresi data, mengintegrasikan teknologi SAM-ViT dan CLIP-ViT untuk memastikan bahwa rasio data yang digunakan tetap efisien. Meskipun ukuran gambar PDF yang besar, model ini mampu menguranginya menjadi sekumpulan token visua yang jauh lebih kecil.
Kemampuan Pengolahan Dokumen yang Lebih Baik
Model Unlimited OCR diklaim dapat memproses puluhan halaman dalam satu kali proses inferensi, dengan maksimum panjang 32.000 token. Hal ini sangat bermanfaat bagi pengguna yang bekerja dengan dokumen yang memiliki format panjang dan kompleks. Dengan penerapan R-SWA, kemajuan ini membawa perubahan besar dibandingkan metode perhatian multi-head yang ada sebelumnya, di mana memori dan latensi dapat meningkat secara tak terkendali seiring dengan pertambahan panjang keluaran.
Dalam respons terhadap kritik akan keterbatasan sebelumnya, pengembang model ini menyatakan bahwa R-SWA tidak hanya mempertahankan efisiensi dalam penggunaan memori, tetapi juga mengurangi gangguan yang biasanya terjadi akibat proses pembelajaran yang berkelanjutan. Jadi, para pengguna akan mendapatkan pengalaman yang lebih mulus pada saat penggunaan.
Dampak terhadap Pengguna dan Industri
Peluncuran Unlimited OCR ini memiliki potensi untuk merubah cara industri menangani dokumen digital. Banyak perusahaan yang mengandalkan OCR untuk mengkonversi dokumen fisik ke format digital kini dapat mengambil manfaat dari kecepatan dan efisiensi yang ditawarkan oleh model ini. Dengan mengurangi jumlah memori yang dibutuhkan, perusahaan-perusahaan ini dapat mengalokasikan sumber daya lebih efektif dan mempercepat proses bisnis mereka.
Perkembangan ini sangat disambut baik di sektor-sektor seperti hukum, keuangan, dan pendidikan, di mana dokumen panjang sering kali menjadi hambatan dalam kecepatan kerja. Dengan adanya teknologi baru ini, penyelesaian dokumen bisa lebih cepat dan lebih efisien, mendukung kebutuhan-kebutuhan tersebut.
Kesimpulan
Unlimited OCR dari Baidu menandai langkah maju yang signifikan dalam teknologi OCR, terutama dalam hal pengolahan dokumen panjang. Dengan desain yang inovatif dan pemanfaatan R-SWA, model ini tidak hanya mengurangi penggunaan memori tetapi juga meningkatkan efisiensi dalam pemrosesan data. Implementasi teknologi ini diharapkan dapat memberikan dampak positif baik bagi pengguna individu maupun industri yang lebih luas.
