Lebih dari satu dekade lalu, Google mulai mengembangkan akselerator AI khusus, Tensor Processing Unit (TPU), untuk menjawab meningkatnya kebutuhan beban kerja AI, membuka jalan bagi AI multimodal. Awal tahun ini, Google mengumumkan Trillium, TPU generasi keenam dan yang paling berperforma hingga saat ini. Dan kini, Trillium telah tersedia secara umum untuk pelanggan Google Cloud.
Trillium TPU merupakan komponen kunci dari AI Hypercomputer Google Cloud, arsitektur superkomputer terobosan yang menggunakan sistem terintegrasi dari perangkat keras yang dioptimalkan kinerjanya, perangkat lunak terbuka, kerangka kerja ML terkemuka, dan model konsumsi yang fleksibel.
Trillium dirancang untuk mengoptimalkan efektivitas dan keberlanjutan. Google mengatakan Trillium punya performa 4x lebih kencang dan 67% lebih hemat energi dibandingkan pendahulunya. Peningkatan signifikan ini memungkinkan organisasi untuk melatih model AI yang lebih kompleks dan besar dengan lebih efisien.
Google sendiri menggunakan Trillium TPU untuk melatih Gemini 2.0, model AI Google yang paling mumpuni saat ini, dan sekarang perusahaan dan startup dapat memanfaatkan infrastruktur yang kuat, efisien, dan berkelanjutan yang sama.
Sebagai bagian dari ketersediaan umum Trillium TPU, Google juga membuat peningkatan penting pada lapisan perangkat lunak terbuka AI Hypercomputer, termasuk optimalisasi pada compiler XLA dan kerangka kerja populer seperti JAX, PyTorch, dan TensorFlow untuk mencapai harga-kinerja terdepan dalam skala di seluruh pelatihan, tuning, dan serving AI.
Selain itu, fitur-fitur seperti host-offloading menggunakan DRAM host yang masif (melengkapi High Bandwidth Memory, atau HBM) memberikan efisiensi tingkat berikutnya.
AI Hypercomputer memungkinkan ekstraksi nilai maksimum dengan penerapan lebih dari 100.000 chip Trillium per jaringan dengan bandwidth bisectional 13 Petabit/detik, yang mampu menskalakan satu pekerjaan pelatihan terdistribusi ke ratusan ribu akselerator. Skalabilitas ini sangat penting untuk melatih model AI yang sangat besar yang dibutuhkan untuk aplikasi generasi berikutnya.
Sebagai contoh, melatih model besar seperti Gemini 2.0 membutuhkan data dan komputasi dalam jumlah yang sangat besar. Kemampuan penskalaan Trillium memungkinkan model-model ini dilatih secara signifikan lebih cepat dengan mendistribusikan beban kerja secara efektif dan efisien di sejumlah besar host Trillium yang terhubung melalui interkoneksi antar-chip berkecepatan tinggi dalam satu pod 256-chip dan jaringan pusat data Jupiter.
Informasi tambahan, Pod adalah sekelompok perangkat keras yang bekerja bersama sebagai satu unit. Dalam konteks ini, pod berisi sejumlah chip Trillium. Slice merupakan bagian dari pod, mengacu pada pembagian sumber daya dalam pod.
Hal ini dimungkinkan oleh TPU multislice (teknologi yang memungkinkan penggunaan beberapa slice TPU secara bersamaan untuk meningkatkan kinerja), dan teknologi full-stack untuk pelatihan skala besar, dan dioptimalkan lebih lanjut oleh Titanium, sebuah sistem offload dinamis di seluruh pusat data yang berkisar dari adapter host hingga network fabric.
Trillium mencapai efisiensi penskalaan 99% dengan penyebaran 12 pod yang terdiri dari 3072 chip, dan menunjukkan efisiensi penskalaan 94% di 24 pod dengan 6144 chip untuk pra-pelatihan gpt3-175b, bahkan ketika beroperasi di jaringan pusat data untuk pra-pelatihan gpt3-175b.
"Ketika melatih model Llama-2-70B, pengujian kami menunjukkan bahwa Trillium mencapai penskalaan hampir linier dari pod Trillium-256 chip 4-slice ke pod Trillium-256 chip 36-slice dengan efisiensi penskalaan 99%," ungkap Mark Lohmeyer VP & GM, Compute and AI Infrastructure, Google Cloud.
Saat ini, pelanggan seperti AI21 Labs telah menggunakan Trillium untuk memberikan solusi AI yang berarti kepada pelanggan mereka dengan lebih cepat. Ketersediaan umum Trillium TPU menandai tonggak penting dalam evolusi infrastruktur AI Google Cloud, menyediakan platform yang kuat dan efisien untuk mendukung inovasi AI di berbagai industri.
Cek Berita dan Artikel yang lain di
Google News