ZAYA1-base, yang merupakan bagian dari keluarga ZAYA1, telah menunjukkan kinerja yang setara atau lebih unggul dari model terbuka terkemuka lainnya, termasuk Llama-3-8B dan OLMoE, di berbagai tolok ukur penalaran, matematika, dan pengkodean.
Model ini bahkan menyaingi kinerja Qwen3-4B dan Gemma3-12B. Dengan fraksi parameter aktif yang jauh lebih kecil (total 8.3B, aktif 760M), ZAYA1-Base menunjukkan bahwa desain arsitektur model yang cerdas dapat mencapai hasil terbaik.
Pelatihan model ini memanfaatkan sepenuhnya GPU AMD Instinct MI300X, jaringan AMD Pensando, dan diaktifkan oleh open software stack AMD ROCm. Memori high-bandwidth 192 GB pada GPU MI300X memungkinkan pelatihan skala besar yang efisien, dengan menghindari expert atau tensor sharding yang mahal, sehingga mengurangi kompleksitas dan meningkatkan throughput di seluruh tumpukan model.
Selain itu, Zyphra melaporkan waktu penyimpanan model lebih dari 10 kali lebih cepat menggunakan I/O terdistribusi yang dioptimalkan oleh AMD, yang lebih lanjut meningkatkan keandalan dan efisiensi pelatihan.
Emad Barsoum, corporate vice president of AI and engineering, Artificial Intelligence Group, AMD, menyatakan, "Kepemimpinan AMD dalam accelerated computing memberdayakan para inovator seperti Zyphra untuk mendorong batas-batas apa yang mungkin dalam AI. Pencapaian ini menunjukkan kekuatan dan fleksibilitas GPU AMD Instinct dan jaringan Pensando untuk melatih model kompleks skala besar".
Krithik Puthalath, CEO Zyphra, menekankan bahwa efisiensi adalah prinsip panduan inti di perusahaannya. “ZAYA1 mencerminkan filosofi ini dan kami sangat senang menjadi perusahaan pertama yang mendemonstrasikan pelatihan skala besar pada platform AMD," katanya. Ia menambahkan bahwa hasil mereka menyoroti kekuatan mendesain arsitektur model bersama dengan silikon dan sistem.
Kolaborasi ini adalah tindak lanjut dari kerja sama sebelumnya. Zyphra bekerja erat dengan AMD dan IBM untuk merancang dan menyebarkan kluster pelatihan skala besar. Sistem yang direkayasa bersama oleh AMD dan IBM, yang diumumkan awal kuartal ini, menggabungkan GPU AMD Instinct MI300X dengan arsitektur fabric dan penyimpanan kinerja tinggi IBM Cloud, menyediakan fondasi untuk pretraining skala besar ZAYA1.
Cek Berita dan Artikel yang lain di
Google News